MNN/source/backend/cpu/compute/ConvolutionFloatFactory.cpp

//
//  ConvolutionFloatFactory.cpp
//  MNN
//
//  Created by MNN on 2018/07/16.
//  Copyright © 2018, Alibaba Group Holding Limited
//

#include "backend/cpu/compute/ConvolutionFloatFactory.h"
#include "backend/cpu/CPUConvolutionDepthwise.hpp"
#include "backend/cpu/compute/ConvOpt.h"
#include "backend/cpu/compute/Convolution1x1Strassen.hpp"
#include "backend/cpu/compute/ConvolutionGroup.hpp"
#include "backend/cpu/compute/ConvolutionIntFactory.hpp"

#include "backend/cpu/compute/ConvolutionWinograd.hpp"
#include "backend/cpu/compute/DenseConvolutionTiledExecutor.hpp"
#ifdef MNN_USE_SPARSE_COMPUTE
#include "backend/cpu/compute/SparseConvolutionTiledExecutor.hpp"
#endif
#include "core/Macro.h"
#include "core/OpCommonUtils.hpp"
#include "backend/cpu/OneDNNConvolution.hpp"

namespace MNN {

static Execution* _createUnit(const Tensor* input, const Tensor* output, Backend* backend,
                              const Convolution2D* conv2d, const float* originWeight, size_t originWeightSize,
                              const float* bias, size_t biasSize) {
    auto common = conv2d->common();
#ifdef MNN_USE_ONEDNN
    return OneDNN::createConvolution(common, backend, originWeight, originWeightSize, bias, biasSize);
#endif

#ifdef MNN_USE_SPARSE_COMPUTE
    auto core = static_cast<CPUBackend*>(backend)->functions();
    int bytes = core->bytes;
    if (bytes == 4 && core->pack == 4 && conv2d->sparseParameter()) {
        if (SparseConvolutionTiledExecutor::shouldUseSparseConvolution(originWeightSize, conv2d->sparseParameter())) {
            return new SparseConvolutionTiledExecutor(common, backend, originWeight, originWeightSize, conv2d->sparseParameter(), bias, biasSize);
        }
    }
#endif

    bool fastWay = common->kernelY() == 1 && common->kernelX() == 1;
    if (fastWay) {
        return new Convolution1x1Strassen(common, backend, originWeight, originWeightSize, bias, biasSize);
    }
    if (!ConvolutionWinograd::canUseWinograd(common)) {
        return new DenseConvolutionTiledExecutor(common, backend, originWeight, originWeightSize, bias, biasSize);
    }
    auto cpuBackend = (CPUBackend*)backend;
    if (cpuBackend->memoryMode() == BackendConfig::Memory_Low) {
        return new DenseConvolutionTiledExecutor(common, backend, originWeight, originWeightSize, bias, biasSize);
    }
    auto unit = ConvolutionWinograd::bestWinogradUnit(common, input, output, cpuBackend->threadNumber(), backend);
    if (unit <= 1) {
        return new DenseConvolutionTiledExecutor(common, backend, originWeight, originWeightSize, bias, biasSize);
    }
    return new ConvolutionWinograd(common, input, output, backend, originWeight, originWeightSize, bias, biasSize,
                                   unit);
}

Execution* ConvolutionFloatFactory::create(const std::vector<Tensor*>& inputs, const std::vector<Tensor*>& outputs,
                                           const MNN::Op* op, Backend* backend) {
    auto conv2d = op->main_as_Convolution2D();
    if (inputs.empty()) {
        // Create Default Inputs and Outputs
        std::shared_ptr<Tensor> tempInput;
        std::shared_ptr<Tensor> tempOutput;
        auto common = conv2d->common();
        int ow = 2, oh = 2;
        int iw = (common->kernelX() - 1) * common->dilateX() + common->strideX() * (ow - 1) + 1;
        int ih = (common->kernelY() - 1) * common->dilateY() + common->strideY() * (oh - 1) + 1;
        tempInput.reset(Tensor::createDevice<float>({1, conv2d->common()->inputCount(), ih, iw}, Tensor::CAFFE_C4));
        tempOutput.reset(Tensor::createDevice<float>({1, conv2d->common()->outputCount(), oh, ow}, Tensor::CAFFE_C4));
        return create({tempInput.get()}, {tempOutput.get()}, op, backend);
    }
    if (inputs.size() > 1) {
        // Multi Input
        return new ConvolutionTiledExecutorMultiInput(conv2d->common(), backend);
    }
    const float* originWeight = nullptr;
    size_t originWeightSize   = 0;
    std::shared_ptr<ConvolutionCommon::Int8Common> quanCommon;
    if (nullptr != conv2d->quanParameter()) {
        quanCommon = ConvolutionCommon::load(conv2d->quanParameter());
        if (nullptr == quanCommon) {
            MNN_ERROR("Memory not Enough, can't extract IDST Convolution: %s \n", op->name()->c_str());
            return nullptr;
        }

        if (quanCommon->weightFloat.get() == nullptr) {
            if (backend->type() != MNN_FORWARD_CPU) {
                // From BF16
                return nullptr;
            }
            return ConvolutionIntFactory::create(inputs[0], outputs[0], op, backend, quanCommon.get());
        }
        // Back to float
        originWeight     = quanCommon->weightFloat.get();
        originWeightSize = quanCommon->weightFloat.size();
    } else if (nullptr == conv2d->weight() || nullptr == conv2d->bias()) {
        MNN_ERROR("%s has no weight or bias. The model may be benchmark model, please revert the weight/bias firstly\n", op->name()->c_str());
        return nullptr;
    }
    auto common = conv2d->common();
    if (nullptr == originWeight) {
        originWeight     = op->main_as_Convolution2D()->weight()->data();
        originWeightSize = op->main_as_Convolution2D()->weight()->size();
    }

    int group            = common->group();
    if (common->inputCount() != inputs[0]->channel() && common->inputCount() > 0) {
        group = inputs[0]->channel()/ conv2d->common()->inputCount();
    }
    if (1 == group) {
        return _createUnit(inputs[0], outputs[0], backend, conv2d, originWeight, originWeightSize,
                           conv2d->bias()->data(), conv2d->bias()->size());
    }
    // TODO: Use Geometry to split
    // Split
    std::vector<std::shared_ptr<Execution>> subConvolution;
    auto groupOutputCount = common->outputCount() / group;
    auto groupWeightSize  = originWeightSize / group;
    std::shared_ptr<Tensor> emptyInput(Tensor::createDevice<float>(inputs[0]->shape(), Tensor::CAFFE));
    std::shared_ptr<Tensor> emptyOutput(Tensor::createDevice<float>(outputs[0]->shape(), Tensor::CAFFE));
    emptyInput->setLength(1, inputs[0]->channel() / group);
    emptyOutput->setLength(1, outputs[0]->channel() / group);
    for (int i = 0; i < group; ++i) {
        auto newConvolution =
            _createUnit(emptyInput.get(), emptyOutput.get(), backend, conv2d, originWeight + groupWeightSize * i,
                        groupWeightSize, conv2d->bias()->data() + groupOutputCount * i, groupOutputCount);
        subConvolution.push_back(std::shared_ptr<Execution>(newConvolution));
    }
    return new ConvolutionGroup(backend, subConvolution);
}
} // namespace MNN
beta 0.1.0 2019-04-17 10:49:11 +08:00			`//`
			`// ConvolutionFloatFactory.cpp`
			`// MNN`
			`//`
			`// Created by MNN on 2018/07/16.`
			`// Copyright © 2018, Alibaba Group Holding Limited`
			`//`

Update 2019-12-27 22:16:57 +08:00			`#include "backend/cpu/compute/ConvolutionFloatFactory.h"`
			`#include "backend/cpu/CPUConvolutionDepthwise.hpp"`
			`#include "backend/cpu/compute/ConvOpt.h"`
			`#include "backend/cpu/compute/Convolution1x1Strassen.hpp"`
			`#include "backend/cpu/compute/ConvolutionGroup.hpp"`
			`#include "backend/cpu/compute/ConvolutionIntFactory.hpp"`
Synchronize internal github for version 1.2.0 (#1518) 2021-06-11 17:17:13 +08:00
Update 2019-12-27 22:16:57 +08:00			`#include "backend/cpu/compute/ConvolutionWinograd.hpp"`
Synchronize internal github for version 1.2.0 (#1518) 2021-06-11 17:17:13 +08:00			`#include "backend/cpu/compute/DenseConvolutionTiledExecutor.hpp"`
			`#ifdef MNN_USE_SPARSE_COMPUTE`
			`#include "backend/cpu/compute/SparseConvolutionTiledExecutor.hpp"`
			`#endif`
Update 2019-12-27 22:16:57 +08:00			`#include "core/Macro.h"`
Synchronize internal github for version 1.2.0 (#1518) 2021-06-11 17:17:13 +08:00			`#include "core/OpCommonUtils.hpp"`
[PATCH 278/350] [MNN:Speed] Support OneDNN for MNN Convolution 2020-12-22 18:15:16 +08:00			`#include "backend/cpu/OneDNNConvolution.hpp"`

beta 0.1.0 2019-04-17 10:49:11 +08:00			`namespace MNN {`

			`static Execution* _createUnit(const Tensor* input, const Tensor* output, Backend* backend,`
Synchronize internal github for version 1.2.0 (#1518) 2021-06-11 17:17:13 +08:00			`const Convolution2D* conv2d, const float* originWeight, size_t originWeightSize,`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`const float* bias, size_t biasSize) {`
Synchronize internal github for version 1.2.0 (#1518) 2021-06-11 17:17:13 +08:00			`auto common = conv2d->common();`
[PATCH 278/350] [MNN:Speed] Support OneDNN for MNN Convolution 2020-12-22 18:15:16 +08:00			`#ifdef MNN_USE_ONEDNN`
			`return OneDNN::createConvolution(common, backend, originWeight, originWeightSize, bias, biasSize);`
			`#endif`
Synchronize internal github for version 1.2.0 (#1518) 2021-06-11 17:17:13 +08:00
			`#ifdef MNN_USE_SPARSE_COMPUTE`
			`auto core = static_cast<CPUBackend*>(backend)->functions();`
			`int bytes = core->bytes;`
			`if (bytes == 4 && core->pack == 4 && conv2d->sparseParameter()) {`
			`if (SparseConvolutionTiledExecutor::shouldUseSparseConvolution(originWeightSize, conv2d->sparseParameter())) {`
			`return new SparseConvolutionTiledExecutor(common, backend, originWeight, originWeightSize, conv2d->sparseParameter(), bias, biasSize);`
			`}`
			`}`
			`#endif`

			`bool fastWay = common->kernelY() == 1 && common->kernelX() == 1;`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`if (fastWay) {`
			`return new Convolution1x1Strassen(common, backend, originWeight, originWeightSize, bias, biasSize);`
			`}`
			`if (!ConvolutionWinograd::canUseWinograd(common)) {`
Synchronize internal github for version 1.2.0 (#1518) 2021-06-11 17:17:13 +08:00			`return new DenseConvolutionTiledExecutor(common, backend, originWeight, originWeightSize, bias, biasSize);`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`}`
			`auto cpuBackend = (CPUBackend*)backend;`
			`if (cpuBackend->memoryMode() == BackendConfig::Memory_Low) {`
Synchronize internal github for version 1.2.0 (#1518) 2021-06-11 17:17:13 +08:00			`return new DenseConvolutionTiledExecutor(common, backend, originWeight, originWeightSize, bias, biasSize);`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`}`
[MNN:Sync] Sync internal Gitlab 2021-04-08 15:34:23 +08:00			`auto unit = ConvolutionWinograd::bestWinogradUnit(common, input, output, cpuBackend->threadNumber(), backend);`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`if (unit <= 1) {`
Synchronize internal github for version 1.2.0 (#1518) 2021-06-11 17:17:13 +08:00			`return new DenseConvolutionTiledExecutor(common, backend, originWeight, originWeightSize, bias, biasSize);`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`}`
			`return new ConvolutionWinograd(common, input, output, backend, originWeight, originWeightSize, bias, biasSize,`
			`unit);`
			`}`

			`Execution* ConvolutionFloatFactory::create(const std::vector<Tensor>& inputs, const std::vector<Tensor>& outputs,`
			`const MNN::Op* op, Backend* backend) {`
[PATCH 214/350] [MNN::Refine] Rearrange weights for 1x1 and generic convolution. 2020-12-15 18:14:15 +08:00			`auto conv2d = op->main_as_Convolution2D();`
[MNN:Sync] Sync internal git 2021-01-06 16:29:37 +08:00			`if (inputs.empty()) {`
			`// Create Default Inputs and Outputs`
			`std::shared_ptr<Tensor> tempInput;`
			`std::shared_ptr<Tensor> tempOutput;`
			`auto common = conv2d->common();`
			`int ow = 2, oh = 2;`
			`int iw = (common->kernelX() - 1) * common->dilateX() + common->strideX() * (ow - 1) + 1;`
			`int ih = (common->kernelY() - 1) * common->dilateY() + common->strideY() * (oh - 1) + 1;`
			`tempInput.reset(Tensor::createDevice<float>({1, conv2d->common()->inputCount(), ih, iw}, Tensor::CAFFE_C4));`
			`tempOutput.reset(Tensor::createDevice<float>({1, conv2d->common()->outputCount(), oh, ow}, Tensor::CAFFE_C4));`
			`return create({tempInput.get()}, {tempOutput.get()}, op, backend);`
beta 0.2.0.0 - replace FreeImage with stb_image - warn unicode error in Windows compiling - separate clang/gcc build script for android - add default values in fbs - optimize CPU conv / conv depthwise / deconv / deconv depthwise / lstm / sigmoid - add sub support in eltwise - add reciprocal / log1p / log in unary - add zero like / select / set diff 1d - add batch support for permute - add training codes - fix metal error in dynamic separate storage type handling 2019-06-17 20:10:35 +08:00			`}`
Synchronize internal github for version 1.2.0 (#1518) 2021-06-11 17:17:13 +08:00			`if (inputs.size() > 1) {`
			`// Multi Input`
			`return new ConvolutionTiledExecutorMultiInput(conv2d->common(), backend);`
			`}`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`const float* originWeight = nullptr;`
			`size_t originWeightSize = 0;`
[PATCH 070/160] [MNN:Refract] Seperate the load of quan and half to ConvolutionCommon 2020-03-02 22:13:38 +08:00			`std::shared_ptr<ConvolutionCommon::Int8Common> quanCommon;`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`if (nullptr != conv2d->quanParameter()) {`
[PATCH 070/160] [MNN:Refract] Seperate the load of quan and half to ConvolutionCommon 2020-03-02 22:13:38 +08:00			`quanCommon = ConvolutionCommon::load(conv2d->quanParameter());`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`if (nullptr == quanCommon) {`
			`MNN_ERROR("Memory not Enough, can't extract IDST Convolution: %s \n", op->name()->c_str());`
			`return nullptr;`
			`}`
[MNN:Sync] Sync internal Gitlab 2021-04-08 15:34:23 +08:00
beta 0.1.0 2019-04-17 10:49:11 +08:00			`if (quanCommon->weightFloat.get() == nullptr) {`
[MNN:Sync] Sync internal Gitlab 2021-04-08 15:34:23 +08:00			`if (backend->type() != MNN_FORWARD_CPU) {`
			`// From BF16`
			`return nullptr;`
			`}`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`return ConvolutionIntFactory::create(inputs[0], outputs[0], op, backend, quanCommon.get());`
			`}`
			`// Back to float`
			`originWeight = quanCommon->weightFloat.get();`
			`originWeightSize = quanCommon->weightFloat.size();`
- dynamic computation graph (beta) - add supports (/express) - add tests - add benchmarks with it (/benchmark/exprModels) - Python - MNN engine and tools were submitted to pip - available on Windows/macOS/Linux - Engine/Converter - add supports for each op benchmarking - refactor optimizer by separating steps - CPU - add supports for Conv3D, Pool3D, ELU, ReverseSequence - fix ArgMax, Permute, Scale, BinaryOp, Slice, SliceTf - OpenCL - add half transform in CPU - add broadcast supports for binary - optimize Conv2D, Reshape, Eltwise, Gemm, etc. - OpenGL - add sub, real div supports for binary - add supports for unary - optimize Conv2D, Reshape - Vulkan - add max supports for eltwise - Metal - fix metallib missing problem - Train/Quantization - use express to refactor training codes 2019-09-26 21:02:07 +08:00			`} else if (nullptr == conv2d->weight() \|\| nullptr == conv2d->bias()) {`
			`MNN_ERROR("%s has no weight or bias. The model may be benchmark model, please revert the weight/bias firstly\n", op->name()->c_str());`
			`return nullptr;`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`}`
			`auto common = conv2d->common();`
			`if (nullptr == originWeight) {`
			`originWeight = op->main_as_Convolution2D()->weight()->data();`
			`originWeightSize = op->main_as_Convolution2D()->weight()->size();`
			`}`

[PATCH 04/19] [Converter:Bugfix] Support group convolution for PB 2021-01-06 19:12:36 +08:00			`int group = common->group();`
			`if (common->inputCount() != inputs[0]->channel() && common->inputCount() > 0) {`
			`group = inputs[0]->channel()/ conv2d->common()->inputCount();`
			`}`
			`if (1 == group) {`
Synchronize internal github for version 1.2.0 (#1518) 2021-06-11 17:17:13 +08:00			`return _createUnit(inputs[0], outputs[0], backend, conv2d, originWeight, originWeightSize,`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`conv2d->bias()->data(), conv2d->bias()->size());`
			`}`
[PATCH 04/19] [Converter:Bugfix] Support group convolution for PB 2021-01-06 19:12:36 +08:00			`// TODO: Use Geometry to split`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`// Split`
			`std::vector<std::shared_ptr<Execution>> subConvolution;`
			`auto groupOutputCount = common->outputCount() / group;`
			`auto groupWeightSize = originWeightSize / group;`
			`std::shared_ptr<Tensor> emptyInput(Tensor::createDevice<float>(inputs[0]->shape(), Tensor::CAFFE));`
			`std::shared_ptr<Tensor> emptyOutput(Tensor::createDevice<float>(outputs[0]->shape(), Tensor::CAFFE));`
			`emptyInput->setLength(1, inputs[0]->channel() / group);`
			`emptyOutput->setLength(1, outputs[0]->channel() / group);`
			`for (int i = 0; i < group; ++i) {`
			`auto newConvolution =`
Synchronize internal github for version 1.2.0 (#1518) 2021-06-11 17:17:13 +08:00			`_createUnit(emptyInput.get(), emptyOutput.get(), backend, conv2d, originWeight + groupWeightSize * i,`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`groupWeightSize, conv2d->bias()->data() + groupOutputCount * i, groupOutputCount);`
			`subConvolution.push_back(std::shared_ptr<Execution>(newConvolution));`
			`}`
			`return new ConvolutionGroup(backend, subConvolution);`
			`}`
			`} // namespace MNN`