MNN/source/backend/cuda/execution/MatMulExecution.hpp

//
//  MatMulExecution.hpp
//  MNN
//
//  Created by MNN on 2020/07/30.
//  Copyright © 2018, Alibaba Group Holding Limited
//

#ifndef MatMulExecution_hpp
#define MatMulExecution_hpp

#include "backend/cuda/core/CUDABackend.hpp"
#include "MNNCUDADefine.hpp"
#include "CutlassGemmBatchedParam.hpp"
#include "CutlassGemmParam.hpp"
#include "MNNCUDAFunction.cuh"

namespace MNN {
namespace CUDA {
class MatMulExecution : public Execution {
public:
    MatMulExecution(bool transposeA, bool transposeB, Backend *backend, int aS = 1, int bS = 1, int cS = 1);
    virtual ~MatMulExecution();
    virtual ErrorCode onResize(const std::vector<Tensor *> &inputs, const std::vector<Tensor *> &outputs) override;
    virtual ErrorCode onExecute(const std::vector<Tensor *> &inputs, const std::vector<Tensor *> &outputs) override;
    void setArguments(const std::vector<Tensor *> &inputs, const std::vector<Tensor *> &outputs);

private:
    bool mTransposeA;
    bool mTransposeB;
    int mAs;
    int mBs;
    int mCs;
    Backend* mBackend = nullptr;

    std::shared_ptr<Tensor> mBiasTensor;
    GemmBatchedTensor_F16_F16_Linear_AlignCuda_Row_Column_Sm75 mGemmBatchedF16F16LnAlign1RCSm75;
    GemmTensor_F16_F16_Linear_AlignCuda_Sm75 mGemmF16F16LnAlign1Sm75;
    GemmBatchedTensor_F32_F32_Linear_AlignCuda_Row_Column_Sm75 mGemmBatchedF32F32LnAlign1RCSm75;
    GemmTensor_F32_F32_Linear_AlignCuda_Sm75 mGemmF32F32LnAlign1Sm75;
    GemmBatchedTensor_F16_F32_Linear_AlignCuda_Row_Column_Sm75 mGemmBatchedF16F32LnAlign1RCSm75;
    GemmTensor_F16_F32_Linear_AlignCuda_Sm75 mGemmF16F32LnAlign1Sm75;

    GemmBatchedTensor_F16_F16_Linear_AlignTensor_Row_Column_Sm75 mGemmBatchedF16F16LnAlign8RCSm75;
    GemmTensor_F16_F16_Linear_AlignTensor_Sm75 mGemmF16F16LnAlign8Sm75;
    GemmBatchedTensor_F32_F32_Linear_AlignTensor_Row_Column_Sm75 mGemmBatchedF32F32LnAlign8RCSm75;
    GemmTensor_F32_F32_Linear_AlignTensor_Sm75 mGemmF32F32LnAlign8Sm75;
    GemmBatchedTensor_F16_F32_Linear_AlignTensor_Row_Column_Sm75 mGemmBatchedF16F32LnAlign8RCSm75;
    GemmTensor_F16_F32_Linear_AlignTensor_Sm75 mGemmF16F32LnAlign8Sm75;

    GemmBatchedTensor_F16_F16_Linear_AlignTensor_Row_Row_Sm75 mGemmBatchedF16F16LnAlign8RRSm75;
    GemmBatchedTensor_F32_F32_Linear_AlignTensor_Row_Row_Sm75 mGemmBatchedF32F32LnAlign8RRSm75;
    GemmBatchedTensor_F16_F32_Linear_AlignTensor_Row_Row_Sm75 mGemmBatchedF16F32LnAlign8RRSm75;

    GemmBatchedCuda_F16_F16_Linear_AlignCuda_Row_Column mGemmBatchedCudaF16F16LnAlign1RC;
    GemmBatchedCuda_F32_F32_Linear_AlignCuda_Row_Column mGemmBatchedCudaF32F32LnAlign1RC;
    GemmBatchedCuda_F16_F32_Linear_AlignCuda_Row_Column mGemmBatchedCudaF16F32LnAlign1RC;

    GemmBatchedCuda_F16_F16_Linear_AlignCuda_Row_Row mGemmBatchedCudaF16F16LnAlign1RR;
    GemmBatchedCuda_F32_F32_Linear_AlignCuda_Row_Row mGemmBatchedCudaF32F32LnAlign1RR;
    GemmBatchedCuda_F16_F32_Linear_AlignCuda_Row_Row mGemmBatchedCudaF16F32LnAlign1RR;

    std::shared_ptr<Tensor> workspaceTensor;
    void* mWorkspace;
    void* mTempMatA;
    void* mTempMatB;
    void* mBiasPtr = nullptr;
    bool mNeedATempBuffer = false;
    bool mNeedBTempBuffer = false;
    bool mUseRRLayout = false;
    bool mResizeSetArgument = false;
    bool mNeedConvertMatAB = false;
    CutlassGemmInfo mGemmInfo;
    int mBatch = 1;
    int mGpuComputeCap;
    bool mFp16Infer = false;
    bool mFp32Infer = false;
    bool mFp16Fp32MixInfer = false;
    bool mConvertGemmSplitK = false;
};
} // namespace CUDA
} // namespace MNN

#endif
beta 0.1.0 2019-04-17 10:49:11 +08:00			`//`
Github release 1.1.0 2020-11-05 16:41:56 +08:00			`// MatMulExecution.hpp`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`// MNN`
			`//`
Github release 1.1.0 2020-11-05 16:41:56 +08:00			`// Created by MNN on 2020/07/30.`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`// Copyright © 2018, Alibaba Group Holding Limited`
			`//`

Github release 1.1.0 2020-11-05 16:41:56 +08:00			`#ifndef MatMulExecution_hpp`
			`#define MatMulExecution_hpp`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00
Github release 1.1.0 2020-11-05 16:41:56 +08:00			`#include "backend/cuda/core/CUDABackend.hpp"`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00			`#include "MNNCUDADefine.hpp"`
			`#include "CutlassGemmBatchedParam.hpp"`
[MNN:Sync] Sync Internal Gitlab: 2.5.1 2023-05-18 19:11:50 +08:00			`#include "CutlassGemmParam.hpp"`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00			`#include "MNNCUDAFunction.cuh"`

beta 0.1.0 2019-04-17 10:49:11 +08:00			`namespace MNN {`
Github release 1.1.0 2020-11-05 16:41:56 +08:00			`namespace CUDA {`
			`class MatMulExecution : public Execution {`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`public:`
Optimize for one-broadcast matmul 2023-03-17 17:04:38 +08:00			`MatMulExecution(bool transposeA, bool transposeB, Backend *backend, int aS = 1, int bS = 1, int cS = 1);`
Github release 1.1.0 2020-11-05 16:41:56 +08:00			`virtual ~MatMulExecution();`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`virtual ErrorCode onResize(const std::vector<Tensor > &inputs, const std::vector<Tensor > &outputs) override;`
Github release 1.1.0 2020-11-05 16:41:56 +08:00			`virtual ErrorCode onExecute(const std::vector<Tensor > &inputs, const std::vector<Tensor > &outputs) override;`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00			`void setArguments(const std::vector<Tensor > &inputs, const std::vector<Tensor > &outputs);`
beta 0.1.0 2019-04-17 10:49:11 +08:00
			`private:`
Github release 1.1.0 2020-11-05 16:41:56 +08:00			`bool mTransposeA;`
			`bool mTransposeB;`
Optimize for one-broadcast matmul 2023-03-17 17:04:38 +08:00			`int mAs;`
			`int mBs;`
			`int mCs;`
[MNN:Internal] Sync to 2.2.3 2022-12-24 09:42:39 +08:00			`Backend* mBackend = nullptr;`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00
			`std::shared_ptr<Tensor> mBiasTensor;`
[Sync] Sync Internal 2.2.2 2022-11-18 22:35:31 +08:00			`GemmBatchedTensor_F16_F16_Linear_AlignCuda_Row_Column_Sm75 mGemmBatchedF16F16LnAlign1RCSm75;`
[MNN:Sync] Sync Internal Gitlab: 2.5.1 2023-05-18 19:11:50 +08:00			`GemmTensor_F16_F16_Linear_AlignCuda_Sm75 mGemmF16F16LnAlign1Sm75;`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00			`GemmBatchedTensor_F32_F32_Linear_AlignCuda_Row_Column_Sm75 mGemmBatchedF32F32LnAlign1RCSm75;`
[MNN:Sync] Sync Internal Gitlab: 2.5.1 2023-05-18 19:11:50 +08:00			`GemmTensor_F32_F32_Linear_AlignCuda_Sm75 mGemmF32F32LnAlign1Sm75;`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00			`GemmBatchedTensor_F16_F32_Linear_AlignCuda_Row_Column_Sm75 mGemmBatchedF16F32LnAlign1RCSm75;`
[MNN:Sync] Sync Internal Gitlab: 2.5.1 2023-05-18 19:11:50 +08:00			`GemmTensor_F16_F32_Linear_AlignCuda_Sm75 mGemmF16F32LnAlign1Sm75;`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00
[Sync] Sync Internal 2.2.2 2022-11-18 22:35:31 +08:00			`GemmBatchedTensor_F16_F16_Linear_AlignTensor_Row_Column_Sm75 mGemmBatchedF16F16LnAlign8RCSm75;`
[MNN:Sync] Sync Internal Gitlab: 2.5.1 2023-05-18 19:11:50 +08:00			`GemmTensor_F16_F16_Linear_AlignTensor_Sm75 mGemmF16F16LnAlign8Sm75;`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00			`GemmBatchedTensor_F32_F32_Linear_AlignTensor_Row_Column_Sm75 mGemmBatchedF32F32LnAlign8RCSm75;`
[MNN:Sync] Sync Internal Gitlab: 2.5.1 2023-05-18 19:11:50 +08:00			`GemmTensor_F32_F32_Linear_AlignTensor_Sm75 mGemmF32F32LnAlign8Sm75;`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00			`GemmBatchedTensor_F16_F32_Linear_AlignTensor_Row_Column_Sm75 mGemmBatchedF16F32LnAlign8RCSm75;`
[MNN:Sync] Sync Internal Gitlab: 2.5.1 2023-05-18 19:11:50 +08:00			`GemmTensor_F16_F32_Linear_AlignTensor_Sm75 mGemmF16F32LnAlign8Sm75;`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00
[Sync] Sync Internal 2.2.2 2022-11-18 22:35:31 +08:00			`GemmBatchedTensor_F16_F16_Linear_AlignTensor_Row_Row_Sm75 mGemmBatchedF16F16LnAlign8RRSm75;`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00			`GemmBatchedTensor_F32_F32_Linear_AlignTensor_Row_Row_Sm75 mGemmBatchedF32F32LnAlign8RRSm75;`
			`GemmBatchedTensor_F16_F32_Linear_AlignTensor_Row_Row_Sm75 mGemmBatchedF16F32LnAlign8RRSm75;`

[Sync] Sync Internal 2.2.2 2022-11-18 22:35:31 +08:00			`GemmBatchedCuda_F16_F16_Linear_AlignCuda_Row_Column mGemmBatchedCudaF16F16LnAlign1RC;`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00			`GemmBatchedCuda_F32_F32_Linear_AlignCuda_Row_Column mGemmBatchedCudaF32F32LnAlign1RC;`
			`GemmBatchedCuda_F16_F32_Linear_AlignCuda_Row_Column mGemmBatchedCudaF16F32LnAlign1RC;`

[Sync] Sync Internal 2.2.2 2022-11-18 22:35:31 +08:00			`GemmBatchedCuda_F16_F16_Linear_AlignCuda_Row_Row mGemmBatchedCudaF16F16LnAlign1RR;`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00			`GemmBatchedCuda_F32_F32_Linear_AlignCuda_Row_Row mGemmBatchedCudaF32F32LnAlign1RR;`
			`GemmBatchedCuda_F16_F32_Linear_AlignCuda_Row_Row mGemmBatchedCudaF16F32LnAlign1RR;`

			`std::shared_ptr<Tensor> workspaceTensor;`
[MNN:Internal] Sync to 2.2.3 2022-12-24 09:42:39 +08:00			`void* mWorkspace;`
[Sync] Sync Internal Gitlab 2.2.1 2022-11-08 17:05:14 +08:00			`void* mTempMatA;`
			`void* mTempMatB;`
			`void* mBiasPtr = nullptr;`
			`bool mNeedATempBuffer = false;`
			`bool mNeedBTempBuffer = false;`
			`bool mUseRRLayout = false;`
			`bool mResizeSetArgument = false;`
			`bool mNeedConvertMatAB = false;`
			`CutlassGemmInfo mGemmInfo;`
			`int mBatch = 1;`
			`int mGpuComputeCap;`
[Sync] Sync Internal 2.2.2 2022-11-18 22:35:31 +08:00			`bool mFp16Infer = false;`
			`bool mFp32Infer = false;`
			`bool mFp16Fp32MixInfer = false;`
[MNN:Sync] Sync Internal Gitlab: 2.5.1 2023-05-18 19:11:50 +08:00			`bool mConvertGemmSplitK = false;`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`};`
Github release 1.1.0 2020-11-05 16:41:56 +08:00			`} // namespace CUDA`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`} // namespace MNN`

Github release 1.1.0 2020-11-05 16:41:56 +08:00			`#endif`