MNN/source/backend/cpu/CPUBackend.cpp

//
//  CPUBackend.cpp
//  MNN
//
//  Created by MNN on 2018/07/06.
//  Copyright © 2018, Alibaba Group Holding Limited
//

#include "backend/cpu/CPUBackend.hpp"
#include <cmath>
#include <mutex>
#include "core/BufferAllocator.hpp"
#include "backend/cpu/CPUConcat.hpp"
#include "backend/cpu/CPUTensorConvert.hpp"
#include "backend/cpu/compute/CommonOptFunction.h"
#include "core/TensorUtils.hpp"
#include "backend/cpu/ThreadPool.hpp"
#include "core/SizeComputer.hpp"
#ifdef _OPENMP
#include <omp.h>
#endif // _OPENMP
#include "backend/cpu/CPURuntime.hpp"

#define MAX_THREAD_NUMBER 32

//#define MNN_DUMP_MEMORY_USAGE
#define MNN_CPU_CHECK_NAN 1
namespace MNN {
#ifdef MNN_CODEGEN_REGISTER
void registerCPUOps();
#endif
static inline std::map<OpType, CPUBackend::Creator*>* getCreatorMap() {
    static std::once_flag of;
    static std::map<OpType, CPUBackend::Creator*>* ret = nullptr;
    std::call_once(of, [&]() { ret = new std::map<OpType, CPUBackend::Creator*>; });
    return ret;
}

bool CPUBackend::addCreator(OpType t, Creator* c) {
    auto map = getCreatorMap();
    if (map->find(t) != map->end()) {
        MNN_PRINT("Error: %d type has be added\n", t);
        return false;
    }
    map->insert(std::make_pair(t, c));
    return true;
}

CPUBackend::CPUBackend(int numberThread, BackendConfig::MemoryMode memory, BackendConfig::PowerMode power, size_t flags)
    : Backend(MNN_FORWARD_CPU), mThreadNumber(numberThread), mMemory(memory), mPower(power) {
    mThreadNumber = std::max(1, mThreadNumber);
    mThreadNumber = std::min(mThreadNumber, MAX_THREAD_NUMBER);
    mDynamicAllocator.reset(new BufferAllocator);
    mStaticAllocator.reset(new BufferAllocator);
    mCheckNAN = flags == MNN_CPU_CHECK_NAN;
#ifdef _OPENMP
    switch (power) {
        case BackendConfig::Power_Low:
            MNNSetCPUThreadsMode(MNN_CPU_MODE_LITTLE);
            break;
        case BackendConfig::Power_High:
            MNNSetCPUThreadsMode(MNN_CPU_MODE_POWER_FRI);
            break;
        default:
            break;
    }
#endif
#ifdef MNN_USE_THREAD_POOL
    mThreadNumber = ThreadPool::init(mThreadNumber);
    if (mThreadNumber > 1) {
        mTaskIndex = ThreadPool::acquireWorkIndex();
    } else {
        mTaskIndex = -1;
    }
    if (mTaskIndex >= 0 && mPower == BackendConfig::Power_High) {
        ThreadPool::active();
    }
#endif
    mFlops = MNNGetCPUFlops(mThreadNumber);
}

CPUBackend::~CPUBackend() {
#ifdef MNN_USE_THREAD_POOL
    if (mTaskIndex >= 0 && mPower == BackendConfig::Power_High) {
        ThreadPool::deactive();
    }
    ThreadPool::releaseWorkIndex(mTaskIndex);
#endif
}

void CPUBackend::onExecuteBegin() const {
#ifdef MNN_DUMP_MEMORY_USAGE
    {
        auto dynamicMemoryInMB = mDynamicAllocator->totalSize() / 1024.0f / 1024.0f;
        FUNC_PRINT_ALL(dynamicMemoryInMB, f);
        auto staticMemoryInMB = mStaticAllocator->totalSize() / 1024.0f / 1024.0f;
        FUNC_PRINT_ALL(staticMemoryInMB, f);
    }
#endif
#ifdef MNN_USE_THREAD_POOL
    if (mTaskIndex >= 0 && mPower != BackendConfig::Power_High) {
        ThreadPool::active();
    }
#else
#ifdef _OPENMP
    omp_set_dynamic(0);
    omp_set_num_threads(mThreadNumber);
#endif
#endif
}
void CPUBackend::onExecuteEnd() const {
#ifdef MNN_USE_THREAD_POOL
    if (mTaskIndex >= 0 && mPower != BackendConfig::Power_High) {
        ThreadPool::deactive();
    }
#endif
}

bool CPUBackend::onAcquireBuffer(const MNN::Tensor* nativeTensorConst, StorageType storageType) {
    if (nativeTensorConst == nullptr) {
        return false;
    }
    auto nativeTensor = (Tensor*)nativeTensorConst;
    auto& buffer      = nativeTensor->buffer();

    auto size = nativeTensor->size();

    // MNN_PRINT("Acquire size = %d\n", size);
    if (size <= 0) {
        MNN_ASSERT(false);
        return false;
    }
    switch (storageType) {
        case STATIC: {
            buffer.host = (uint8_t*)mStaticAllocator->alloc(size, false);
            break;
        }
        case DYNAMIC: {
            buffer.host = (uint8_t*)(mDynamicAllocator->alloc(size, false));
            break;
        }
        case DYNAMIC_SEPERATE: {
            buffer.host = (uint8_t*)(mDynamicAllocator->alloc(size, true));
            break;
        }
        default:
            break;
    }
    if (nullptr == buffer.host) {
        MNN_ERROR("Alloc buffer error for cpu backend\n");
        return false;
    }
    if (buffer.type.code == halide_type_handle) {
        ::memset(buffer.host, 0, size);
    }
    return true;
}

bool CPUBackend::onReleaseBuffer(const MNN::Tensor* nativeTensor, StorageType storageType) {
    if (nativeTensor == nullptr) {
        return false;
    }
    if (nullptr == nativeTensor->buffer().host) {
        return false;
    }
    if (STATIC == storageType) {
        mStaticAllocator->free(nativeTensor->buffer().host);
        return true;
    }
    if (DYNAMIC_SEPERATE == storageType) {
        return true;
    }
    mDynamicAllocator->free(nativeTensor->buffer().host);
    return true;
}
std::pair<float, bool> CPUBackend::onMeasure(const std::vector<Tensor*>& inputs, const std::vector<Tensor*>& outputs,
                                    const MNN::Op* op) {
    auto map  = getCreatorMap();
    auto iter = map->find(op->type());
    if (iter == map->end()) {
        MNN_PRINT("Don't support type %d, %s\n", op->type(), op->name()->c_str());
        return std::make_pair(0.0f, false);
    }
    auto computeFlops = SizeComputer::computeFlops(op, inputs, outputs);
    return std::make_pair(computeFlops / mFlops * 1000.0f, true);
}

/// get execution
Execution* CPUBackend::onCreate(const std::vector<Tensor*>& inputs, const std::vector<Tensor*>& outputs,
                                const MNN::Op* op) {
    auto map  = getCreatorMap();
    auto iter = map->find(op->type());
    if (iter == map->end()) {
        MNN_PRINT("Don't support type %d, %s\n", op->type(), op->name()->c_str());
        return nullptr;
    }
    auto exe = iter->second->onCreate(inputs, outputs, op, this);
    if (nullptr == exe) {
        MNN_PRINT("The Creator Don't support type %d, %s\n", op->type(), op->name()->c_str());
        return nullptr;
    }
    if (mCheckNAN) {
        class CheckNANExecution : public Execution {
        public:
            CheckNANExecution(Execution* exe) : Execution(exe->backend()) {
                mExecution.reset(exe);
                mValid = exe->valid();
            }
            virtual ~CheckNANExecution() {
                // Do nothing
            }
            virtual ErrorCode onResize(const std::vector<Tensor*>& inputs,
                                       const std::vector<Tensor*>& outputs) override {
                return mExecution->onResize(inputs, outputs);
            }

            virtual ErrorCode onReleaseCache() override {
                return mExecution->onReleaseCache();
            }

            virtual ErrorCode onExecute(const std::vector<Tensor*>& inputs,
                                        const std::vector<Tensor*>& outputs) override {
                for (auto tensor : inputs) {
                    if (halide_type_float != tensor->getType().code) {
                        return NO_ERROR;
                    }
                    auto size = tensor->elementSize();
                    auto ptr  = tensor->host<float>();
                    for (int i = 0; i < size; ++i) {
                        auto value = ptr[i];
                        if (std::isnan(value) || std::isinf(value)) {
                            return INVALID_VALUE;
                        }
                    }
                }
                auto code = mExecution->onExecute(inputs, outputs);
                if (NO_ERROR != code) {
                    return code;
                }
                for (auto tensor : outputs) {
                    if (halide_type_float != tensor->getType().code) {
                        return NO_ERROR;
                    }
                    auto size = tensor->elementSize();
                    auto ptr  = tensor->host<float>();
                    for (int i = 0; i < size; ++i) {
                        auto value = ptr[i];
                        if (std::isnan(value) || std::isinf(value)) {
                            return INVALID_VALUE;
                        }
                    }
                }
                return NO_ERROR;
            }

        private:
            std::unique_ptr<Execution> mExecution;
        };
        return new CheckNANExecution(exe);
    }
    return exe;
}

bool CPUBackend::onAllocateBuffer() {
    mStaticAllocator->release(false);
    return true;
}

bool CPUBackend::onClearBuffer() {
    mDynamicAllocator->release(true);
    mStaticAllocator->release(false);
    return true;
}
std::pair<int, int> CPUBackend::multiThreadDivide(int size) const {
    int sizeDivide = size / mThreadNumber;
    sizeDivide = UP_DIV(sizeDivide, 4) * 4;
    int scheduleNumber = 1;
    if (sizeDivide > 0) {
        scheduleNumber = UP_DIV(size, sizeDivide);
    }
    return std::make_pair(sizeDivide, scheduleNumber);
}
void CPUBackend::onCopyBuffer(const Tensor* srcTensor, const Tensor* dstTensor) const {
    auto& srcBuffer = srcTensor->buffer();
    auto& dstBuffer = dstTensor->buffer();

    MNN_ASSERT(srcBuffer.dimensions == dstBuffer.dimensions);
    MNN_ASSERT(srcBuffer.type == dstBuffer.type);
    if (srcTensor->getDimensionType() == dstTensor->getDimensionType()) {
        for (int i = 0; i < srcBuffer.dimensions; ++i) {
            MNN_ASSERT(srcBuffer.dim[i].extent <= dstBuffer.dim[i].extent);
        }
    }
    if (nullptr == srcBuffer.host || nullptr == dstBuffer.host) {
        return;
    }

    auto code = CPUTensorConverter::convert(srcTensor, dstTensor);
    if (NO_ERROR != code) {
        MNN_ERROR("Error in CPUBackend::onCopyBuffer\n");
    }
}

struct CPUBackendCreator : BackendCreator {
    Backend* onCreate(const Backend::Info& info) const override {
        auto power   = BackendConfig::Power_Normal;
        auto memory  = BackendConfig::Memory_Normal;
        size_t flags = 0;
        if (nullptr != info.user) {
            power  = info.user->power;
            memory = info.user->memory;
            flags  = info.user->flags;
        }
#ifdef MNN_CODEGEN_REGISTER
        static std::once_flag s_flag;
        std::call_once(s_flag, [&]() { registerCPUOps(); });
#endif
        return new CPUBackend(info.numThread, memory, power, flags);
    }
};

void registerCPUBackendCreator() {
    MNNInsertExtraBackendCreator(MNN_FORWARD_CPU, new CPUBackendCreator);
};
} // namespace MNN
beta 0.1.0 2019-04-17 10:49:11 +08:00			`//`
			`// CPUBackend.cpp`
			`// MNN`
			`//`
			`// Created by MNN on 2018/07/06.`
			`// Copyright © 2018, Alibaba Group Holding Limited`
			`//`

Update 2019-12-27 22:16:57 +08:00			`#include "backend/cpu/CPUBackend.hpp"`
beta 0.2.0.8 - add NaN check-up - add quantification support for ScaleAdd Op - add binary to eltwise optimization - add console logs for quantization tool - better document for quantization tool - replace redundant dimension flags with dimension format - optimize performance of TensorFlow Lite Quantized Convolution - fix axis support for ONNX softmax - fix get performance compile error on Windows 2019-08-22 20:13:46 +08:00			`#include <cmath>`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`#include <mutex>`
Update 2019-12-27 22:16:57 +08:00			`#include "core/BufferAllocator.hpp"`
			`#include "backend/cpu/CPUConcat.hpp"`
			`#include "backend/cpu/CPUTensorConvert.hpp"`
			`#include "backend/cpu/compute/CommonOptFunction.h"`
			`#include "core/TensorUtils.hpp"`
			`#include "backend/cpu/ThreadPool.hpp"`
			`#include "core/SizeComputer.hpp"`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`#ifdef _OPENMP`
			`#include <omp.h>`
			`#endif // _OPENMP`
Update 2019-12-27 22:16:57 +08:00			`#include "backend/cpu/CPURuntime.hpp"`
beta 0.1.0 2019-04-17 10:49:11 +08:00
			`#define MAX_THREAD_NUMBER 32`

			`//#define MNN_DUMP_MEMORY_USAGE`
beta 0.2.0.8 - add NaN check-up - add quantification support for ScaleAdd Op - add binary to eltwise optimization - add console logs for quantization tool - better document for quantization tool - replace redundant dimension flags with dimension format - optimize performance of TensorFlow Lite Quantized Convolution - fix axis support for ONNX softmax - fix get performance compile error on Windows 2019-08-22 20:13:46 +08:00			`#define MNN_CPU_CHECK_NAN 1`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`namespace MNN {`
fix backend/op/sizer register 2019-05-09 19:39:33 +08:00			`#ifdef MNN_CODEGEN_REGISTER`
			`void registerCPUOps();`
			`#endif`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`static inline std::map<OpType, CPUBackend::Creator> getCreatorMap() {`
			`static std::once_flag of;`
			`static std::map<OpType, CPUBackend::Creator> ret = nullptr;`
			`std::call_once(of, [&]() { ret = new std::map<OpType, CPUBackend::Creator*>; });`
			`return ret;`
			`}`

			`bool CPUBackend::addCreator(OpType t, Creator* c) {`
			`auto map = getCreatorMap();`
			`if (map->find(t) != map->end()) {`
			`MNN_PRINT("Error: %d type has be added\n", t);`
			`return false;`
			`}`
			`map->insert(std::make_pair(t, c));`
			`return true;`
			`}`

beta 0.2.0.8 - add NaN check-up - add quantification support for ScaleAdd Op - add binary to eltwise optimization - add console logs for quantization tool - better document for quantization tool - replace redundant dimension flags with dimension format - optimize performance of TensorFlow Lite Quantized Convolution - fix axis support for ONNX softmax - fix get performance compile error on Windows 2019-08-22 20:13:46 +08:00			`CPUBackend::CPUBackend(int numberThread, BackendConfig::MemoryMode memory, BackendConfig::PowerMode power, size_t flags)`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`: Backend(MNN_FORWARD_CPU), mThreadNumber(numberThread), mMemory(memory), mPower(power) {`
			`mThreadNumber = std::max(1, mThreadNumber);`
			`mThreadNumber = std::min(mThreadNumber, MAX_THREAD_NUMBER);`
			`mDynamicAllocator.reset(new BufferAllocator);`
			`mStaticAllocator.reset(new BufferAllocator);`
beta 0.2.0.8 - add NaN check-up - add quantification support for ScaleAdd Op - add binary to eltwise optimization - add console logs for quantization tool - better document for quantization tool - replace redundant dimension flags with dimension format - optimize performance of TensorFlow Lite Quantized Convolution - fix axis support for ONNX softmax - fix get performance compile error on Windows 2019-08-22 20:13:46 +08:00			`mCheckNAN = flags == MNN_CPU_CHECK_NAN;`
beta 0.2.0.3 - add quantization tool & cpu impl & demo/exec - add thread pool - add tests - fix onnx converter tensor name mismatch - optimize cpu performance with SSE for windows 2019-07-11 13:56:52 +08:00			`#ifdef _OPENMP`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`switch (power) {`
			`case BackendConfig::Power_Low:`
			`MNNSetCPUThreadsMode(MNN_CPU_MODE_LITTLE);`
			`break;`
			`case BackendConfig::Power_High:`
			`MNNSetCPUThreadsMode(MNN_CPU_MODE_POWER_FRI);`
			`break;`
			`default:`
			`break;`
			`}`
beta 0.2.0.3 - add quantization tool & cpu impl & demo/exec - add thread pool - add tests - fix onnx converter tensor name mismatch - optimize cpu performance with SSE for windows 2019-07-11 13:56:52 +08:00			`#endif`
			`#ifdef MNN_USE_THREAD_POOL`
beta 0.2.0.4 - bug fix for quantization tool - bug fix/performance update for thread pool - bug fix for converters - tutorial/doc update - more op support 2019-07-19 17:09:09 +08:00			`mThreadNumber = ThreadPool::init(mThreadNumber);`
			`if (mThreadNumber > 1) {`
			`mTaskIndex = ThreadPool::acquireWorkIndex();`
			`} else {`
			`mTaskIndex = -1;`
			`}`
			`if (mTaskIndex >= 0 && mPower == BackendConfig::Power_High) {`
			`ThreadPool::active();`
			`}`
beta 0.2.0.3 - add quantization tool & cpu impl & demo/exec - add thread pool - add tests - fix onnx converter tensor name mismatch - optimize cpu performance with SSE for windows 2019-07-11 13:56:52 +08:00			`#endif`
- dynamic computation graph (beta) - add supports (/express) - add tests - add benchmarks with it (/benchmark/exprModels) - Python - MNN engine and tools were submitted to pip - available on Windows/macOS/Linux - Engine/Converter - add supports for each op benchmarking - refactor optimizer by separating steps - CPU - add supports for Conv3D, Pool3D, ELU, ReverseSequence - fix ArgMax, Permute, Scale, BinaryOp, Slice, SliceTf - OpenCL - add half transform in CPU - add broadcast supports for binary - optimize Conv2D, Reshape, Eltwise, Gemm, etc. - OpenGL - add sub, real div supports for binary - add supports for unary - optimize Conv2D, Reshape - Vulkan - add max supports for eltwise - Metal - fix metallib missing problem - Train/Quantization - use express to refactor training codes 2019-09-26 21:02:07 +08:00			`mFlops = MNNGetCPUFlops(mThreadNumber);`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`}`

			`CPUBackend::~CPUBackend() {`
beta 0.2.0.4 - bug fix for quantization tool - bug fix/performance update for thread pool - bug fix for converters - tutorial/doc update - more op support 2019-07-19 17:09:09 +08:00			`#ifdef MNN_USE_THREAD_POOL`
			`if (mTaskIndex >= 0 && mPower == BackendConfig::Power_High) {`
			`ThreadPool::deactive();`
			`}`
			`ThreadPool::releaseWorkIndex(mTaskIndex);`
			`#endif`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`}`

			`void CPUBackend::onExecuteBegin() const {`
			`#ifdef MNN_DUMP_MEMORY_USAGE`
			`{`
			`auto dynamicMemoryInMB = mDynamicAllocator->totalSize() / 1024.0f / 1024.0f;`
			`FUNC_PRINT_ALL(dynamicMemoryInMB, f);`
			`auto staticMemoryInMB = mStaticAllocator->totalSize() / 1024.0f / 1024.0f;`
			`FUNC_PRINT_ALL(staticMemoryInMB, f);`
			`}`
			`#endif`
beta 0.2.0.4 - bug fix for quantization tool - bug fix/performance update for thread pool - bug fix for converters - tutorial/doc update - more op support 2019-07-19 17:09:09 +08:00			`#ifdef MNN_USE_THREAD_POOL`
			`if (mTaskIndex >= 0 && mPower != BackendConfig::Power_High) {`
			`ThreadPool::active();`
			`}`
			`#else`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`#ifdef _OPENMP`
			`omp_set_dynamic(0);`
			`omp_set_num_threads(mThreadNumber);`
			`#endif`
beta 0.2.0.3 - add quantization tool & cpu impl & demo/exec - add thread pool - add tests - fix onnx converter tensor name mismatch - optimize cpu performance with SSE for windows 2019-07-11 13:56:52 +08:00			`#endif`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`}`
beta 0.2.0.4 - bug fix for quantization tool - bug fix/performance update for thread pool - bug fix for converters - tutorial/doc update - more op support 2019-07-19 17:09:09 +08:00			`void CPUBackend::onExecuteEnd() const {`
			`#ifdef MNN_USE_THREAD_POOL`
			`if (mTaskIndex >= 0 && mPower != BackendConfig::Power_High) {`
			`ThreadPool::deactive();`
			`}`
			`#endif`
			`}`
beta 0.1.0 2019-04-17 10:49:11 +08:00
			`bool CPUBackend::onAcquireBuffer(const MNN::Tensor* nativeTensorConst, StorageType storageType) {`
Update 2019-12-27 22:16:57 +08:00			`if (nativeTensorConst == nullptr) {`
			`return false;`
			`}`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`auto nativeTensor = (Tensor*)nativeTensorConst;`
			`auto& buffer = nativeTensor->buffer();`

			`auto size = nativeTensor->size();`

			`// MNN_PRINT("Acquire size = %d\n", size);`
			`if (size <= 0) {`
			`MNN_ASSERT(false);`
			`return false;`
			`}`
			`switch (storageType) {`
			`case STATIC: {`
Sync. Fix OpenGL related building issues. Build the whole suite on Android CI (#580) * Sync code with latest internal version * Update CMake * Fix logging issues * Fix OpenGL Building * Bump CMakeLists version. Update Podspec * Update MetalLib Lookup logic * Fix Windows Build 2020-01-15 13:33:47 +08:00			`buffer.host = (uint8_t*)mStaticAllocator->alloc(size, false);`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`break;`
			`}`
			`case DYNAMIC: {`
			`buffer.host = (uint8_t*)(mDynamicAllocator->alloc(size, false));`
			`break;`
			`}`
			`case DYNAMIC_SEPERATE: {`
			`buffer.host = (uint8_t*)(mDynamicAllocator->alloc(size, true));`
			`break;`
			`}`
			`default:`
			`break;`
			`}`
			`if (nullptr == buffer.host) {`
			`MNN_ERROR("Alloc buffer error for cpu backend\n");`
			`return false;`
			`}`
			`if (buffer.type.code == halide_type_handle) {`
			`::memset(buffer.host, 0, size);`
			`}`
			`return true;`
			`}`

			`bool CPUBackend::onReleaseBuffer(const MNN::Tensor* nativeTensor, StorageType storageType) {`
Update 2019-12-27 22:16:57 +08:00			`if (nativeTensor == nullptr) {`
			`return false;`
			`}`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`if (nullptr == nativeTensor->buffer().host) {`
			`return false;`
			`}`
			`if (STATIC == storageType) {`
Sync. Fix OpenGL related building issues. Build the whole suite on Android CI (#580) * Sync code with latest internal version * Update CMake * Fix logging issues * Fix OpenGL Building * Bump CMakeLists version. Update Podspec * Update MetalLib Lookup logic * Fix Windows Build 2020-01-15 13:33:47 +08:00			`mStaticAllocator->free(nativeTensor->buffer().host);`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`return true;`
			`}`
			`if (DYNAMIC_SEPERATE == storageType) {`
			`return true;`
			`}`
			`mDynamicAllocator->free(nativeTensor->buffer().host);`
			`return true;`
			`}`
- dynamic computation graph (beta) - add supports (/express) - add tests - add benchmarks with it (/benchmark/exprModels) - Python - MNN engine and tools were submitted to pip - available on Windows/macOS/Linux - Engine/Converter - add supports for each op benchmarking - refactor optimizer by separating steps - CPU - add supports for Conv3D, Pool3D, ELU, ReverseSequence - fix ArgMax, Permute, Scale, BinaryOp, Slice, SliceTf - OpenCL - add half transform in CPU - add broadcast supports for binary - optimize Conv2D, Reshape, Eltwise, Gemm, etc. - OpenGL - add sub, real div supports for binary - add supports for unary - optimize Conv2D, Reshape - Vulkan - add max supports for eltwise - Metal - fix metallib missing problem - Train/Quantization - use express to refactor training codes 2019-09-26 21:02:07 +08:00			`std::pair<float, bool> CPUBackend::onMeasure(const std::vector<Tensor>& inputs, const std::vector<Tensor>& outputs,`
			`const MNN::Op* op) {`
			`auto map = getCreatorMap();`
			`auto iter = map->find(op->type());`
			`if (iter == map->end()) {`
			`MNN_PRINT("Don't support type %d, %s\n", op->type(), op->name()->c_str());`
			`return std::make_pair(0.0f, false);`
			`}`
			`auto computeFlops = SizeComputer::computeFlops(op, inputs, outputs);`
			`return std::make_pair(computeFlops / mFlops * 1000.0f, true);`
			`}`
beta 0.1.0 2019-04-17 10:49:11 +08:00
			`/// get execution`
			`Execution* CPUBackend::onCreate(const std::vector<Tensor>& inputs, const std::vector<Tensor>& outputs,`
			`const MNN::Op* op) {`
			`auto map = getCreatorMap();`
			`auto iter = map->find(op->type());`
			`if (iter == map->end()) {`
			`MNN_PRINT("Don't support type %d, %s\n", op->type(), op->name()->c_str());`
			`return nullptr;`
			`}`
			`auto exe = iter->second->onCreate(inputs, outputs, op, this);`
			`if (nullptr == exe) {`
			`MNN_PRINT("The Creator Don't support type %d, %s\n", op->type(), op->name()->c_str());`
			`return nullptr;`
			`}`
beta 0.2.0.8 - add NaN check-up - add quantification support for ScaleAdd Op - add binary to eltwise optimization - add console logs for quantization tool - better document for quantization tool - replace redundant dimension flags with dimension format - optimize performance of TensorFlow Lite Quantized Convolution - fix axis support for ONNX softmax - fix get performance compile error on Windows 2019-08-22 20:13:46 +08:00			`if (mCheckNAN) {`
			`class CheckNANExecution : public Execution {`
			`public:`
			`CheckNANExecution(Execution* exe) : Execution(exe->backend()) {`
			`mExecution.reset(exe);`
			`mValid = exe->valid();`
			`}`
			`virtual ~CheckNANExecution() {`
			`// Do nothing`
			`}`
			`virtual ErrorCode onResize(const std::vector<Tensor*>& inputs,`
			`const std::vector<Tensor*>& outputs) override {`
			`return mExecution->onResize(inputs, outputs);`
			`}`

			`virtual ErrorCode onReleaseCache() override {`
			`return mExecution->onReleaseCache();`
			`}`

			`virtual ErrorCode onExecute(const std::vector<Tensor*>& inputs,`
			`const std::vector<Tensor*>& outputs) override {`
			`for (auto tensor : inputs) {`
			`if (halide_type_float != tensor->getType().code) {`
			`return NO_ERROR;`
			`}`
			`auto size = tensor->elementSize();`
			`auto ptr = tensor->host<float>();`
			`for (int i = 0; i < size; ++i) {`
			`auto value = ptr[i];`
			`if (std::isnan(value) \|\| std::isinf(value)) {`
			`return INVALID_VALUE;`
			`}`
			`}`
			`}`
			`auto code = mExecution->onExecute(inputs, outputs);`
			`if (NO_ERROR != code) {`
			`return code;`
			`}`
			`for (auto tensor : outputs) {`
			`if (halide_type_float != tensor->getType().code) {`
			`return NO_ERROR;`
			`}`
			`auto size = tensor->elementSize();`
			`auto ptr = tensor->host<float>();`
			`for (int i = 0; i < size; ++i) {`
			`auto value = ptr[i];`
			`if (std::isnan(value) \|\| std::isinf(value)) {`
			`return INVALID_VALUE;`
			`}`
			`}`
			`}`
			`return NO_ERROR;`
			`}`

			`private:`
			`std::unique_ptr<Execution> mExecution;`
			`};`
			`return new CheckNANExecution(exe);`
			`}`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`return exe;`
			`}`

			`bool CPUBackend::onAllocateBuffer() {`
Sync. Fix OpenGL related building issues. Build the whole suite on Android CI (#580) * Sync code with latest internal version * Update CMake * Fix logging issues * Fix OpenGL Building * Bump CMakeLists version. Update Podspec * Update MetalLib Lookup logic * Fix Windows Build 2020-01-15 13:33:47 +08:00			`mStaticAllocator->release(false);`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`return true;`
			`}`

			`bool CPUBackend::onClearBuffer() {`
Sync. Fix OpenGL related building issues. Build the whole suite on Android CI (#580) * Sync code with latest internal version * Update CMake * Fix logging issues * Fix OpenGL Building * Bump CMakeLists version. Update Podspec * Update MetalLib Lookup logic * Fix Windows Build 2020-01-15 13:33:47 +08:00			`mDynamicAllocator->release(true);`
			`mStaticAllocator->release(false);`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`return true;`
			`}`
Update 2020-02-26 09:57:17 +08:00			`std::pair<int, int> CPUBackend::multiThreadDivide(int size) const {`
			`int sizeDivide = size / mThreadNumber;`
			`sizeDivide = UP_DIV(sizeDivide, 4) * 4;`
			`int scheduleNumber = 1;`
			`if (sizeDivide > 0) {`
			`scheduleNumber = UP_DIV(size, sizeDivide);`
			`}`
			`return std::make_pair(sizeDivide, scheduleNumber);`
			`}`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`void CPUBackend::onCopyBuffer(const Tensor* srcTensor, const Tensor* dstTensor) const {`
			`auto& srcBuffer = srcTensor->buffer();`
			`auto& dstBuffer = dstTensor->buffer();`

			`MNN_ASSERT(srcBuffer.dimensions == dstBuffer.dimensions);`
			`MNN_ASSERT(srcBuffer.type == dstBuffer.type);`
			`if (srcTensor->getDimensionType() == dstTensor->getDimensionType()) {`
			`for (int i = 0; i < srcBuffer.dimensions; ++i) {`
			`MNN_ASSERT(srcBuffer.dim[i].extent <= dstBuffer.dim[i].extent);`
			`}`
			`}`
- dynamic computation graph (beta) - add supports (/express) - add tests - add benchmarks with it (/benchmark/exprModels) - Python - MNN engine and tools were submitted to pip - available on Windows/macOS/Linux - Engine/Converter - add supports for each op benchmarking - refactor optimizer by separating steps - CPU - add supports for Conv3D, Pool3D, ELU, ReverseSequence - fix ArgMax, Permute, Scale, BinaryOp, Slice, SliceTf - OpenCL - add half transform in CPU - add broadcast supports for binary - optimize Conv2D, Reshape, Eltwise, Gemm, etc. - OpenGL - add sub, real div supports for binary - add supports for unary - optimize Conv2D, Reshape - Vulkan - add max supports for eltwise - Metal - fix metallib missing problem - Train/Quantization - use express to refactor training codes 2019-09-26 21:02:07 +08:00			`if (nullptr == srcBuffer.host \|\| nullptr == dstBuffer.host) {`
			`return;`
			`}`
beta 0.1.0 2019-04-17 10:49:11 +08:00
Update 2019-12-27 22:16:57 +08:00			`auto code = CPUTensorConverter::convert(srcTensor, dstTensor);`
			`if (NO_ERROR != code) {`
			`MNN_ERROR("Error in CPUBackend::onCopyBuffer\n");`
			`}`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`}`

			`struct CPUBackendCreator : BackendCreator {`
			`Backend* onCreate(const Backend::Info& info) const override {`
beta 0.2.0.8 - add NaN check-up - add quantification support for ScaleAdd Op - add binary to eltwise optimization - add console logs for quantization tool - better document for quantization tool - replace redundant dimension flags with dimension format - optimize performance of TensorFlow Lite Quantized Convolution - fix axis support for ONNX softmax - fix get performance compile error on Windows 2019-08-22 20:13:46 +08:00			`auto power = BackendConfig::Power_Normal;`
			`auto memory = BackendConfig::Memory_Normal;`
			`size_t flags = 0;`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`if (nullptr != info.user) {`
			`power = info.user->power;`
			`memory = info.user->memory;`
beta 0.2.0.8 - add NaN check-up - add quantification support for ScaleAdd Op - add binary to eltwise optimization - add console logs for quantization tool - better document for quantization tool - replace redundant dimension flags with dimension format - optimize performance of TensorFlow Lite Quantized Convolution - fix axis support for ONNX softmax - fix get performance compile error on Windows 2019-08-22 20:13:46 +08:00			`flags = info.user->flags;`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`}`
fix backend/op/sizer register 2019-05-09 19:39:33 +08:00			`#ifdef MNN_CODEGEN_REGISTER`
beta 0.1.1.1 - use code generate for op/backend/sizer register - add pose demo - fix docs & script - improve cpu softmax performance 80% - improve converter ops fuse 2019-05-08 15:44:57 +08:00			`static std::once_flag s_flag;`
fix backend/op/sizer register 2019-05-09 19:39:33 +08:00			`std::call_once(s_flag, [&]() { registerCPUOps(); });`
			`#endif`
beta 0.2.0.8 - add NaN check-up - add quantification support for ScaleAdd Op - add binary to eltwise optimization - add console logs for quantization tool - better document for quantization tool - replace redundant dimension flags with dimension format - optimize performance of TensorFlow Lite Quantized Convolution - fix axis support for ONNX softmax - fix get performance compile error on Windows 2019-08-22 20:13:46 +08:00			`return new CPUBackend(info.numThread, memory, power, flags);`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`}`
			`};`

beta 0.1.1.1 - use code generate for op/backend/sizer register - add pose demo - fix docs & script - improve cpu softmax performance 80% - improve converter ops fuse 2019-05-08 15:44:57 +08:00			`void registerCPUBackendCreator() {`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`MNNInsertExtraBackendCreator(MNN_FORWARD_CPU, new CPUBackendCreator);`
beta 0.1.1.1 - use code generate for op/backend/sizer register - add pose demo - fix docs & script - improve cpu softmax performance 80% - improve converter ops fuse 2019-05-08 15:44:57 +08:00			`};`
beta 0.1.0 2019-04-17 10:49:11 +08:00			`} // namespace MNN`