ONE/onert-micro_2onert-micro_2src_2execute_2kernels_2_mul_8cpp_source.html

/*

 * Copyright (c) 2024 Samsung Electronics Co., Ltd. All Rights Reserved

 *

 * Licensed under the Apache License, Version 2.0 (the "License");

 * you may not use this file except in compliance with the License.

 * You may obtain a copy of the License at

 *

 *    http://www.apache.org/licenses/LICENSE-2.0

 *

 * Unless required by applicable law or agreed to in writing, software

 * distributed under the License is distributed on an "AS IS" BASIS,

 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

 * See the License for the specific language governing permissions and

 * limitations under the License.

 */


#include "OMStatus.h"


#include "core/OMUtils.h"

#include "core/OMRuntimeShape.h"


#include "execute/OMUtils.h"

#include "execute/OMKernelExecutionBuilder.h"

#include "execute/OMRuntimeKernel.h"

#include "PALMul.h"


using namespace onert_micro;

using namespace onert_micro::execute;


namespace

{


constexpr uint32_t input1TensorIdx = 0;

constexpr uint32_t input2TensorIdx = 1;

constexpr uint32_t outputTensorIdx = 0;


// TODO: Remove duplicated code with Sub,Add

void calculateQuantParamsForMul(core::ArithmeticQuantParams &params, const circle::Tensor *input1,

                                const circle::Tensor *input2, const circle::Tensor *output,

                                circle::ActivationFunctionType act)

{

  long input1_zp;

  long input2_zp;

  long output_zp;


  float input1_scale;

  float input2_scale;

  float output_scale;


  // Read input1 quant params

  readQuantParams(input1, input1_zp, input1_scale);

  // Read input2 quant params

  readQuantParams(input2, input2_zp, input2_scale);

  // Read output quant params

  readQuantParams(output, output_zp, output_scale);


  params.input1_offset = static_cast<int32_t>(input1_zp);

  params.input2_offset = static_cast<int32_t>(input2_zp);

  params.output_offset = static_cast<int32_t>(output_zp);

  params.left_shift = (output->type() == circle::TensorType_INT16) ? 15 : 20;


  double real_multiplier = static_cast<double>(input1_scale) * static_cast<double>(input2_scale) /

                           static_cast<double>(output_scale);

  quantizeMultiplier(real_multiplier, &params.output_multiplier, &params.output_shift);


  calculateActivationRangeQuantized(act, output_zp, output_scale, output->type(),

                                    &params.quantized_activation_min,

                                    &params.quantized_activation_max);

}


} // namespace


// NOTE: doesnt currently support dynamic shapes

// TODO: reduce code duplication with Add, Sub

OMStatus onert_micro::execute::execute_kernel_CircleMul(const OMExecuteArgs &execute_args)

{

  core::OMRuntimeContext &runtime_context = execute_args.runtime_context;

  core::OMRuntimeStorage &runtime_storage = execute_args.runtime_storage;

  uint16_t op_index = execute_args.kernel_index;


  const circle::Tensor *input1;

  const circle::Tensor *input2;

  const circle::Tensor *output;


  uint8_t *input1_data;

  uint8_t *input2_data;

  uint8_t *output_data;


  const circle::MulOptions *options;

  // Read kernel

  {

    execute::OMRuntimeKernel runtime_kernel;

    runtime_kernel.readKernel(op_index, runtime_context);


    input1 = runtime_kernel.inputs[input1TensorIdx];

    input2 = runtime_kernel.inputs[input2TensorIdx];

    output = runtime_kernel.outputs[outputTensorIdx];

    assert(input1 != nullptr);

    assert(input2 != nullptr);

    assert(output != nullptr);


    runtime_kernel.getDataFromStorage(op_index, runtime_storage, runtime_context);


    input1_data = runtime_kernel.inputs_data[input1TensorIdx];

    input2_data = runtime_kernel.inputs_data[input2TensorIdx];

    output_data = runtime_kernel.outputs_data[outputTensorIdx];

    assert(input1_data != nullptr);

    assert(input2_data != nullptr);

    assert(output_data != nullptr);


    options = runtime_kernel.first_operator->builtin_options_as_MulOptions();

  }


  OMStatus status;


  core::OMRuntimeShape input1_shape(input1);

  core::OMRuntimeShape input2_shape(input2);

  core::OMRuntimeShape output_shape(output);


  core::BinaryArithmeticBroadcastParams params{};

  const bool need_broadcast = pal::processBroadcastShapes(input1_shape, input2_shape, &params);


  switch (input1->type())

  {

#ifndef DIS_FLOAT

    case circle::TensorType_FLOAT32:

    {

      status = execute::calculateActivationRange(options->fused_activation_function(),

                                                 &params.float_activation_min,

                                                 &params.float_activation_max);


      if (need_broadcast)

      {

        status = pal::BroadcastMul4DSlow(

          params, input1_shape, core::utils::castInputData<float>(input1_data), input2_shape,

          core::utils::castInputData<float>(input2_data), output_shape,

          core::utils::castOutputData<float>(output_data));

      }

      else

      {

        status =

          pal::Mul(params, input1_shape.flatSize(), core::utils::castInputData<float>(input1_data),

                   core::utils::castInputData<float>(input2_data),

                   core::utils::castOutputData<float>(output_data));

      }

    }

    break;

    case circle::TensorType_INT64:

    {

      status = execute::calculateActivationRange(options->fused_activation_function(),

                                                 &params.int64_activation_min,

                                                 &params.int64_activation_max);


      if (need_broadcast)

      {

        status = pal::BroadcastMul4DSlow(

          params, input1_shape, core::utils::castInputData<int64_t>(input1_data), input2_shape,

          core::utils::castInputData<int64_t>(input2_data), output_shape,

          core::utils::castOutputData<int64_t>(output_data));

      }

      else

      {

        status = pal::Mul(params, input1_shape.flatSize(),

                          core::utils::castInputData<int64_t>(input1_data),

                          core::utils::castInputData<int64_t>(input2_data),

                          core::utils::castOutputData<int64_t>(output_data));

      }

    }

    break;

    case circle::TensorType_INT32:

    {

      status = execute::calculateActivationRange(options->fused_activation_function(),

                                                 &params.int32_activation_min,

                                                 &params.int32_activation_max);


      if (need_broadcast)

      {

        status = pal::BroadcastMul4DSlow(

          params, input1_shape, core::utils::castInputData<int32_t>(input1_data), input2_shape,

          core::utils::castInputData<int32_t>(input2_data), output_shape,

          core::utils::castOutputData<int32_t>(output_data));

      }

      else

      {

        status = pal::Mul(params, input1_shape.flatSize(),

                          core::utils::castInputData<int32_t>(input1_data),

                          core::utils::castInputData<int32_t>(input2_data),

                          core::utils::castOutputData<int32_t>(output_data));

      }

    }

    break;

#endif // DIS_FLOAT

#ifndef DIS_QUANT

    case circle::TensorType_INT8:

    {

      core::ArithmeticQuantParams add_params{};


      calculateQuantParamsForMul(add_params, input1, input2, output,

                                 options->fused_activation_function());


      if (need_broadcast)

      {

        status = pal::BroadcastMul6DSlow(

          add_params, input1_shape, core::utils::castInputData<int8_t>(input1_data), input2_shape,

          core::utils::castInputData<int8_t>(input2_data), output_shape,

          core::utils::castOutputData<int8_t>(output_data));

      }

      else

      {

        assert(input1_shape.flatSize() == input2_shape.flatSize());

        assert(input1_shape.flatSize() == output_shape.flatSize());

        status = pal::Mul(add_params, input1_shape.flatSize(),

                          core::utils::castInputData<int8_t>(input1_data),

                          core::utils::castInputData<int8_t>(input2_data),

                          core::utils::castOutputData<int8_t>(output_data));

      }

    }

    break;

#endif // DIF_QUANT

    default:

    {

      status = UnsupportedType;

      assert(false && "Unsupported type.");

    }

  }


  return status;

}

OMKernelExecutionBuilder.h

OMRuntimeKernel.h

OMRuntimeShape.h

OMStatus.h

luci_interpreter::RuntimeShape::flatSize
int flatSize() const
Definition Tensor.h:45

onert_micro::core::OMRuntimeContext
Definition OMRuntimeContext.h:37

onert_micro::core::OMRuntimeShape
Definition OMRuntimeShape.h:34

onert_micro::core::OMRuntimeStorage
Definition OMRuntimeStorage.h:34

onert_micro::execute::OMRuntimeKernel
Definition OMRuntimeKernel.h:35

onert_micro::execute::OMRuntimeKernel::outputs_data
uint8_t * outputs_data[maxOutputSize]
Definition OMRuntimeKernel.h:55

onert_micro::execute::OMRuntimeKernel::first_operator
const circle::Operator * first_operator
Definition OMRuntimeKernel.h:63

onert_micro::execute::OMRuntimeKernel::getDataFromStorage
OMStatus getDataFromStorage(uint16_t op_index, core::OMRuntimeStorage &storage, core::OMRuntimeContext &context)
Definition OMRuntimeKernel.cpp:67

onert_micro::execute::OMRuntimeKernel::inputs_data
uint8_t * inputs_data[maxInputSize]
Definition OMRuntimeKernel.h:54

onert_micro::execute::OMRuntimeKernel::readKernel
OMStatus readKernel(uint16_t op_index, core::OMRuntimeContext &runtime_context)
Definition OMRuntimeKernel.cpp:22

onert_micro::execute::OMRuntimeKernel::outputs
const circle::Tensor * outputs[maxOutputSize]
Definition OMRuntimeKernel.h:52

onert_micro::execute::OMRuntimeKernel::inputs
const circle::Tensor * inputs[maxInputSize]
Definition OMRuntimeKernel.h:51

OMUtils.h

OMUtils.h

output_shape
const luci_interpreter::RuntimeShape output_shape
Definition PALComparisons.h:32

TensorIndexTISO::input1TensorIdx
constexpr uint32_t input1TensorIdx
Definition ReadKernelDataCommon.cpp:26

TensorIndexTISO::outputTensorIdx
constexpr uint32_t outputTensorIdx
Definition ReadKernelDataCommon.cpp:28

TensorIndexTISO::input2TensorIdx
constexpr uint32_t input2TensorIdx
Definition ReadKernelDataCommon.cpp:27

gen_h5_explicit_inputs_all.output
output
Definition gen_h5_explicit_inputs_all.py:96

luci_interpreter::test_kernel::add_float_with_broadcasting::input1_data
const std::vector< float > input1_data
Definition FloatAddKernel.h:79

luci_interpreter::test_kernel::add_float_with_broadcasting::input2_data
const std::vector< float > input2_data
Definition FloatAddKernel.h:81

onert_micro::execute::pal::BroadcastMul6DSlow
OMStatus BroadcastMul6DSlow(const core::ArithmeticQuantParams &params, const core::OMRuntimeShape &input1_shape, const T *input1_data, const core::OMRuntimeShape &input2_shape, const T *input2_data, const core::OMRuntimeShape &output_shape, T *output_data)
Definition PALMulCommon.h:55

onert_micro::execute::pal::processBroadcastShapes
bool processBroadcastShapes(const core::OMRuntimeShape &shape0, const core::OMRuntimeShape &shape1, core::BinaryArithmeticBroadcastParams *params)
Definition ProcessBroadcastShapes.h:155

onert_micro::execute::pal::Mul
OMStatus Mul(const core::ArithmeticQuantParams &params, const uint32_t flat_size, const int8_t *input1_data, const int8_t *input2_data, int8_t *output_data)
Definition PALMul.h:33

onert_micro::execute::pal::BroadcastMul4DSlow
OMStatus BroadcastMul4DSlow(const core::BinaryArithmeticBroadcastParams &params, const core::OMRuntimeShape &input1_shape, const T *input1_data, const core::OMRuntimeShape &input2_shape, const T *input2_data, const core::OMRuntimeShape &output_shape, T *output_data)
Definition PALMulCommon.h:44

onert_micro::execute
Definition ArgCommon.h:33

onert_micro::execute::quantizeMultiplier
void quantizeMultiplier(double double_multiplier, int32_t *quantized_multiplier, int *shift)
Definition OMUtils.cpp:23

onert_micro::execute::readQuantParams
void readQuantParams(const circle::Tensor *tensor, long &zero_point, float &scale)
Definition OMUtils.cpp:143

onert_micro::execute::calculateActivationRangeQuantized
OMStatus calculateActivationRangeQuantized(circle::ActivationFunctionType activation, int32_t output_zero_point, float output_scale, circle::TensorType data_type, int32_t *activation_min, int32_t *activation_max)
Definition OMUtils.cpp:112

onert_micro::execute::calculateActivationRange
OMStatus calculateActivationRange(circle::ActivationFunctionType activation, T *activation_min, T *activation_max)
Definition OMUtils.h:36

onert_micro
Definition OMMemoryManager.h:26

onert_micro::OMStatus
OMStatus
Definition OMStatus.h:24

onert_micro::UnsupportedType
@ UnsupportedType
Definition OMStatus.h:26

onnx_legalizer.options
options
Definition onnx_legalizer.py:1070

part_eval_one.output_data
output_data
Definition part_eval_one.py:112

onert_micro::core::ArithmeticQuantParams
Definition OMKernelData.h:111

onert_micro::core::ArithmeticQuantParams::output_offset
int32_t output_offset
Definition OMKernelData.h:121

onert_micro::core::ArithmeticQuantParams::quantized_activation_min
int32_t quantized_activation_min
Definition OMKernelData.h:123

onert_micro::core::ArithmeticQuantParams::left_shift
int left_shift
Definition OMKernelData.h:114

onert_micro::core::ArithmeticQuantParams::quantized_activation_max
int32_t quantized_activation_max
Definition OMKernelData.h:122

onert_micro::core::ArithmeticQuantParams::output_shift
int output_shift
Definition OMKernelData.h:120

onert_micro::core::ArithmeticQuantParams::input2_offset
int32_t input2_offset
Definition OMKernelData.h:113

onert_micro::core::ArithmeticQuantParams::input1_offset
int32_t input1_offset
Definition OMKernelData.h:112

onert_micro::core::ArithmeticQuantParams::output_multiplier
int32_t output_multiplier
Definition OMKernelData.h:119

onert_micro::core::BinaryArithmeticBroadcastParams
Definition OMKernelData.h:127

onert_micro::execute::OMExecuteArgs
Definition OMExecuteArgs.h:31

onert_micro::execute::OMExecuteArgs::kernel_index
uint16_t kernel_index
Definition OMExecuteArgs.h:34

onert_micro::execute::OMExecuteArgs::runtime_context
core::OMRuntimeContext & runtime_context
Definition OMExecuteArgs.h:33

onert_micro::execute::OMExecuteArgs::runtime_storage
core::OMRuntimeStorage & runtime_storage
Definition OMExecuteArgs.h:32