MNN/source/backend/cuda/execution/ConvSingleInputExecution.cu

//
//  ConvSingleInputExecution.cpp
//  MNN
//
//  Created by MNN on 2020/08/22.
//  Copyright © 2018, Alibaba Group Holding Limited
//

#include "ConvSingleInputExecution.hpp"
#include "ConvWinogradExecution.hpp"
#include "ConvImplicitExecution.hpp"
#include "ConvCutlassExecution.hpp"
#include "MultiInputConvExecution.hpp"
#ifdef ENABLE_CUDA_QUANT
#include "int8/ConvInt8CutlassExecution.hpp"
#endif
#ifdef MNN_LOW_MEMORY
#include "weight_only_quant/ConvFpAIntBExecution.hpp"
#endif
#include "bf16/ConvCutlassBf16Execution.hpp"
#include "backend/cuda/core/CUDATools.hpp"

namespace MNN {
namespace CUDA {

class CUDAConvolutionCreator : public CUDABackend::Creator {
public:
    virtual Execution* onCreate(const std::vector<Tensor*>& inputs, const std::vector<Tensor*>& outputs,
            const MNN::Op* op, Backend* backend) const override {
        if (nullptr != op->main_as_Convolution2D()->quanParameter()) {
            auto quan = op->main_as_Convolution2D()->quanParameter();
            if (1 == quan->type() || 2 == quan->type()) {
                if (quan->has_scaleInt()) {
                    // Don't support IDST-int8 because of error
                    return nullptr;
                }
            }
        }

        #ifdef MNN_LOW_MEMORY
        auto conv2dParams = op->main_as_Convolution2D();
        bool isMemoryLowWeightOnlyQuant = (conv2dParams->quanParameter() != nullptr && conv2dParams->quanParameter()->buffer() != nullptr);
        isMemoryLowWeightOnlyQuant = isMemoryLowWeightOnlyQuant && (static_cast<CUDABackend*>(backend)->getMemoryMode() == BackendConfig::Memory_Low);
        isMemoryLowWeightOnlyQuant = isMemoryLowWeightOnlyQuant && ConvFpAIntBExecution::isValid(op->main_as_Convolution2D(), backend);
        if (isMemoryLowWeightOnlyQuant) {
            std::shared_ptr<ConvFpAIntBExecution::Resource> resource(new ConvFpAIntBExecution::Resource(backend, op));
            return new ConvFpAIntBExecution(backend, op, resource);
        }
        #endif

        if (inputs.size() == 2 || inputs.size() == 3) {
            return new MultiInputConvExecution(op, backend);
        }

        auto conv = op->main_as_Convolution2D()->common();
        if(ConvImplicitExecution::isValid(op->main_as_Convolution2D(), inputs[0], outputs[0], backend)) { // inputs[0] is invalid now.
            std::shared_ptr<ConvImplicitExecution::Resource> resource(new ConvImplicitExecution::Resource(backend, op));
            return new ConvImplicitExecution(backend, op, resource);
        }
        if(ConvWinogradExecution::isValid(op->main_as_Convolution2D())) { // inputs[0] is invalid now.
            //printf("%dx%ds%dd%d\n", conv->kernelX(), conv->kernelY(), conv->strideX(), conv->dilateX());

            std::shared_ptr<ConvWinogradExecution::Resource> resource(new ConvWinogradExecution::Resource(backend, op));
            return new ConvWinogradExecution(backend, op, resource);
        }

        #ifdef ENABLE_CUDA_BF16
        if (static_cast<CUDABackend*>(backend)->getPrecision() == 3) {
            std::shared_ptr<ConvCutlassBf16Execution::Resource> resource(new ConvCutlassBf16Execution::Resource(backend, op));
            return new ConvCutlassBf16Execution(backend, op, resource);
        }
        #endif

        std::shared_ptr<ConvCutlassExecution::Resource> resource(new ConvCutlassExecution::Resource(backend, op));
        return new ConvCutlassExecution(backend, op, resource);
    }
};

#ifdef ENABLE_CUDA_QUANT
class CUDAConvolutionInt8Creator : public CUDABackend::Creator {
public:
    virtual Execution* onCreate(const std::vector<Tensor*>& inputs, const std::vector<Tensor*>& outputs,
            const MNN::Op* op, Backend* backend) const override {
        std::shared_ptr<ConvInt8CutlassExecution::Resource> resource(new ConvInt8CutlassExecution::Resource(backend, op));
        return new ConvInt8CutlassExecution(backend, op, resource);
    }
};

CUDACreatorRegister<CUDAConvolutionInt8Creator> __ConvInt8Execution(OpType_ConvInt8);
#endif

CUDACreatorRegister<CUDAConvolutionCreator> __ConvExecution(OpType_Convolution);

}// namespace CUDA
}// namespace MNN
Github release 1.1.0 2020-11-05 16:41:56 +08:00			`//`
			`// ConvSingleInputExecution.cpp`
			`// MNN`
			`//`
			`// Created by MNN on 2020/08/22.`
			`// Copyright © 2018, Alibaba Group Holding Limited`
			`//`

			`#include "ConvSingleInputExecution.hpp"`
Sync Internal 2.0.4 2022-08-12 10:30:48 +08:00			`#include "ConvWinogradExecution.hpp"`
[MNN:Sync] Sync Internal 2.8.2 2024-02-29 16:21:40 +08:00			`#include "ConvImplicitExecution.hpp"`
Sync Internal 2.0.4 2022-08-12 10:30:48 +08:00			`#include "ConvCutlassExecution.hpp"`
[MNN:Sync] Sync 2.4.2 2023-04-11 11:12:00 +08:00			`#include "MultiInputConvExecution.hpp"`
[MNN:Sync] Sync Internal Gitlab 2.4.3 2023-04-18 18:54:46 +08:00			`#ifdef ENABLE_CUDA_QUANT`
[MNN:Sync] Sync Internal Gitlab 2023-02-28 10:41:24 +08:00			`#include "int8/ConvInt8CutlassExecution.hpp"`
[MNN:Sync] Sync Internal Gitlab 2.4.3 2023-04-18 18:54:46 +08:00			`#endif`
[MNN:Sync] Sync Internal 2.8.4 2024-04-19 11:58:21 +08:00			`#ifdef MNN_LOW_MEMORY`
			`#include "weight_only_quant/ConvFpAIntBExecution.hpp"`
			`#endif`
[MNN:Sync] Sync Internal 2.5.3 2023-06-16 09:42:45 +08:00			`#include "bf16/ConvCutlassBf16Execution.hpp"`
[Sync] Sync Internal 2.1.2 2022-09-30 10:02:52 +08:00			`#include "backend/cuda/core/CUDATools.hpp"`

Github release 1.1.0 2020-11-05 16:41:56 +08:00			`namespace MNN {`
			`namespace CUDA {`

			`class CUDAConvolutionCreator : public CUDABackend::Creator {`
			`public:`
[Sync] Sync Internal 2.1.2 2022-09-30 10:02:52 +08:00			`virtual Execution* onCreate(const std::vector<Tensor>& inputs, const std::vector<Tensor>& outputs,`
Github release 1.1.0 2020-11-05 16:41:56 +08:00			`const MNN::Op* op, Backend* backend) const override {`
			`if (nullptr != op->main_as_Convolution2D()->quanParameter()) {`
			`auto quan = op->main_as_Convolution2D()->quanParameter();`
			`if (1 == quan->type() \|\| 2 == quan->type()) {`
[MNN:Sync] Sync internal gitlab Main Feature: 1. Add OpenCV API and Numpy API Support 2. Protobuf move into MNN 3. Add more op for torchscript convert 4. Add recompute to speed up geometry compute 5. Add ModuleBasic Test 2021-11-30 10:10:53 +08:00			`if (quan->has_scaleInt()) {`
			`// Don't support IDST-int8 because of error`
			`return nullptr;`
			`}`
Github release 1.1.0 2020-11-05 16:41:56 +08:00			`}`
			`}`
Sync Internal 2.0.4 2022-08-12 10:30:48 +08:00
[MNN:Sync] Sync Internal 2.8.4 2024-04-19 11:58:21 +08:00			`#ifdef MNN_LOW_MEMORY`
			`auto conv2dParams = op->main_as_Convolution2D();`
			`bool isMemoryLowWeightOnlyQuant = (conv2dParams->quanParameter() != nullptr && conv2dParams->quanParameter()->buffer() != nullptr);`
			`isMemoryLowWeightOnlyQuant = isMemoryLowWeightOnlyQuant && (static_cast<CUDABackend*>(backend)->getMemoryMode() == BackendConfig::Memory_Low);`
			`isMemoryLowWeightOnlyQuant = isMemoryLowWeightOnlyQuant && ConvFpAIntBExecution::isValid(op->main_as_Convolution2D(), backend);`
			`if (isMemoryLowWeightOnlyQuant) {`
			`std::shared_ptr<ConvFpAIntBExecution::Resource> resource(new ConvFpAIntBExecution::Resource(backend, op));`
			`return new ConvFpAIntBExecution(backend, op, resource);`
			`}`
			`#endif`

[MNN:Sync] Sync 2.4.2 2023-04-11 11:12:00 +08:00			`if (inputs.size() == 2 \|\| inputs.size() == 3) {`
			`return new MultiInputConvExecution(op, backend);`
			`}`

Sync Internal 2.0.4 2022-08-12 10:30:48 +08:00			`auto conv = op->main_as_Convolution2D()->common();`
[MNN:Sync] Sync Internal 2.8.2 2024-02-29 16:21:40 +08:00			`if(ConvImplicitExecution::isValid(op->main_as_Convolution2D(), inputs[0], outputs[0], backend)) { // inputs[0] is invalid now.`
			`std::shared_ptr<ConvImplicitExecution::Resource> resource(new ConvImplicitExecution::Resource(backend, op));`
			`return new ConvImplicitExecution(backend, op, resource);`
			`}`
[Sync] Sync Internal 2.1.2 2022-09-30 10:02:52 +08:00			`if(ConvWinogradExecution::isValid(op->main_as_Convolution2D())) { // inputs[0] is invalid now.`
Sync Internal 2.0.4 2022-08-12 10:30:48 +08:00			`//printf("%dx%ds%dd%d\n", conv->kernelX(), conv->kernelY(), conv->strideX(), conv->dilateX());`

			`std::shared_ptr<ConvWinogradExecution::Resource> resource(new ConvWinogradExecution::Resource(backend, op));`
			`return new ConvWinogradExecution(backend, op, resource);`
			`}`

[MNN:Sync] Sync Internal 2.6.0 2023-07-05 11:44:25 +08:00			`#ifdef ENABLE_CUDA_BF16`
[MNN:Sync] Sync Internal 2.5.3 2023-06-16 09:42:45 +08:00			`if (static_cast<CUDABackend*>(backend)->getPrecision() == 3) {`
			`std::shared_ptr<ConvCutlassBf16Execution::Resource> resource(new ConvCutlassBf16Execution::Resource(backend, op));`
			`return new ConvCutlassBf16Execution(backend, op, resource);`
			`}`
[MNN:Sync] Sync Internal 2.6.0 2023-07-05 11:44:25 +08:00			`#endif`
[MNN:Sync] Sync Internal 2.8.0 2023-12-04 11:12:20 +08:00
Sync Internal 2.0.4 2022-08-12 10:30:48 +08:00			`std::shared_ptr<ConvCutlassExecution::Resource> resource(new ConvCutlassExecution::Resource(backend, op));`
			`return new ConvCutlassExecution(backend, op, resource);`
Github release 1.1.0 2020-11-05 16:41:56 +08:00			`}`
			`};`

[MNN:Sync] Sync Internal Gitlab 2.4.3 2023-04-18 18:54:46 +08:00			`#ifdef ENABLE_CUDA_QUANT`
[MNN:Sync] Sync Internal Gitlab 2023-02-28 10:41:24 +08:00			`class CUDAConvolutionInt8Creator : public CUDABackend::Creator {`
			`public:`
			`virtual Execution* onCreate(const std::vector<Tensor>& inputs, const std::vector<Tensor>& outputs,`
			`const MNN::Op* op, Backend* backend) const override {`
			`std::shared_ptr<ConvInt8CutlassExecution::Resource> resource(new ConvInt8CutlassExecution::Resource(backend, op));`
			`return new ConvInt8CutlassExecution(backend, op, resource);`
			`}`
			`};`

			`CUDACreatorRegister<CUDAConvolutionInt8Creator> __ConvInt8Execution(OpType_ConvInt8);`
[MNN:Sync] Sync Internal Gitlab 2.4.3 2023-04-18 18:54:46 +08:00			`#endif`

			`CUDACreatorRegister<CUDAConvolutionCreator> __ConvExecution(OpType_Convolution);`
Github release 1.1.0 2020-11-05 16:41:56 +08:00
			`}// namespace CUDA`
[MNN:Sync] Sync internal gitlab Main Feature: 1. Add OpenCV API and Numpy API Support 2. Protobuf move into MNN 3. Add more op for torchscript convert 4. Add recompute to speed up geometry compute 5. Add ModuleBasic Test 2021-11-30 10:10:53 +08:00			`}// namespace MNN`