ONE/onert-micro_2onert-micro_2src_2train_2kernels_2_g_r_u_8cpp_source.html

/*

 * Copyright (c) 2024 Samsung Electronics Co., Ltd. All Rights Reserved

 *

 * Licensed under the Apache License, Version 2.0 (the "License");

 * you may not use this file except in compliance with the License.

 * You may obtain a copy of the License at

 *

 *    http://www.apache.org/licenses/LICENSE-2.0

 *

 * Unless required by applicable law or agreed to in writing, software

 * distributed under the License is distributed on an "AS IS" BASIS,

 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

 * See the License for the specific language governing permissions and

 * limitations under the License.

 */


#include "OMStatus.h"


#include "core/OMUtils.h"

#include "core/OMDataType.h"

#include "core/memory/OMMemoryManager.h"


#include "train/OMBackpropExecutionBuilder.h"

#include "execute/OMRuntimeKernel.h"


#include "PALGRUWeightGrad.h"


using namespace onert_micro;

using namespace onert_micro::train;


namespace

{


constexpr uint32_t inputTensorIdx = 0;

constexpr uint32_t hiddenHiddenTensorIdx = 1;

constexpr uint32_t hiddenHiddenBiasTensorIdx = 2;

constexpr uint32_t hiddenInputTensorIdx = 3;

constexpr uint32_t hiddenInputBiasTensorIdx = 4;

constexpr uint32_t stateTensorIdx = 5;


constexpr uint32_t outputTensorIdx = 0;


} // namespace


OMStatus onert_micro::train::train_kernel_CircleGRU(const OMBackpropExecuteArgs &args)

{

  // Check is it last layer for training

  core::OMRuntimeContext &runtime_context = args.backward_context;

  core::OMRuntimeStorage &backward_storage = args.backward_storage;

  core::OMRuntimeStorage &forward_storage = args.forward_storage;

  uint16_t op_index = args.kernel_index;


  execute::OMRuntimeKernel runtime_kernel;

  runtime_kernel.readKernel(op_index, runtime_context);


  const circle::Tensor *input = runtime_kernel.inputs[inputTensorIdx];

  const circle::Tensor *weight_input = runtime_kernel.inputs[hiddenInputTensorIdx];

  const circle::Tensor *weight_hidden = runtime_kernel.inputs[hiddenHiddenTensorIdx];

  const circle::Tensor *output = runtime_kernel.outputs[outputTensorIdx];


  assert(input != nullptr);

  assert(output != nullptr);


  OMStatus status = Ok;


  // Read forward

  status = runtime_kernel.getDataFromStorage(op_index, forward_storage, runtime_context);

  if (status != Ok)

    return status;

  uint8_t *input_data = runtime_kernel.inputs_data[inputTensorIdx];

  uint8_t *weight_input_data = runtime_kernel.inputs_data[hiddenInputTensorIdx];

  uint8_t *weight_hidden_data = runtime_kernel.inputs_data[hiddenHiddenTensorIdx];

  uint8_t *bias_input_data = runtime_kernel.inputs_data[hiddenInputBiasTensorIdx];

  uint8_t *bias_hidden_data = runtime_kernel.inputs_data[hiddenHiddenBiasTensorIdx];

  uint8_t *intermediate_buffer = runtime_kernel.inputs_data[stateTensorIdx];

  // Bias_data can be nullptr

  assert(input_data != nullptr);

  assert(weight_input_data != nullptr);

  assert(weight_hidden_data != nullptr);

  assert(intermediate_buffer != nullptr);


  // Read backward

  status = runtime_kernel.getDataFromStorage(op_index, backward_storage, runtime_context);

  uint8_t *output_grad_data = runtime_kernel.outputs_data[outputTensorIdx];

  uint8_t *weight_input_grad_data = runtime_kernel.inputs_data[hiddenInputTensorIdx];

  uint8_t *weight_hidden_grad_data = runtime_kernel.inputs_data[hiddenHiddenTensorIdx];

  uint8_t *bias_input_grad_data = runtime_kernel.inputs_data[hiddenInputBiasTensorIdx];

  uint8_t *bias_hidden_grad_data = runtime_kernel.inputs_data[hiddenHiddenBiasTensorIdx];

  uint8_t *state_grad_data = runtime_kernel.inputs_data[stateTensorIdx];

  uint8_t *input_grad_data = runtime_kernel.inputs_data[inputTensorIdx];

  // Bias_data and input_grad_data can be nullptr

  // Note: input_grad_data can be nullptr due to it can be last trainable node

  assert(output_grad_data != nullptr);

  assert(weight_input_grad_data != nullptr);

  assert(weight_hidden_grad_data != nullptr);

  assert(state_grad_data != nullptr);


  // Obtain shapes

  core::OMRuntimeShape input_shape(input);

  core::OMRuntimeShape output_shape(output);

  core::OMRuntimeShape weight_input_shape(weight_input);

  core::OMRuntimeShape weight_hidden_shape(weight_hidden);


  // Init output shape for FullyConnected layers

  core::OMRuntimeShape output_shape_fc(2);

  output_shape_fc.setDim(0, 1);

  output_shape_fc.setDim(1, weight_hidden_shape.dims(0));


  // Allocate memory for outputs temporary gradients for FullyConnected layers

  uint8_t *left_fc_output_grad_buffer;

  uint8_t *right_fc_output_grad_buffer;

  // Checking during import

  assert(weight_hidden_shape.dims(0) == weight_input_shape.dims(0));

  size_t allocation_size = sizeof(core::OMDataType(input->type())) * weight_hidden_shape.dims(0);

  status =

    core::memory::OMMemoryManager::allocateMemory(allocation_size, &left_fc_output_grad_buffer);

  if (status != Ok)

    return status;

  status =

    core::memory::OMMemoryManager::allocateMemory(allocation_size, &right_fc_output_grad_buffer);

  if (status != Ok)

    return status;


  assert(left_fc_output_grad_buffer != nullptr and right_fc_output_grad_buffer != nullptr);


  // Currently support only float training

  if (input->type() != circle::TensorType_FLOAT32)

    return UnsupportedType;


  status =

    pal::GRUWeightGrads(core::utils::castInputData<float>(output_grad_data),

                        core::utils::castInputData<float>(weight_input_data),

                        core::utils::castOutputData<float>(weight_input_grad_data),

                        core::utils::castInputData<float>(weight_hidden_data),

                        core::utils::castOutputData<float>(weight_hidden_grad_data),

                        core::utils::castInputData<float>(bias_input_data),

                        core::utils::castOutputData<float>(bias_input_grad_data),

                        core::utils::castInputData<float>(bias_hidden_data),

                        core::utils::castOutputData<float>(bias_hidden_grad_data),

                        core::utils::castInputData<float>(input_data),

                        core::utils::castOutputData<float>(input_grad_data),

                        core::utils::castOutputData<float>(state_grad_data), input_shape,

                        output_shape, weight_input_shape, weight_hidden_shape, output_shape_fc,

                        core::utils::castOutputData<float>(intermediate_buffer),

                        core::utils::castOutputData<float>(left_fc_output_grad_buffer),

                        core::utils::castOutputData<float>(right_fc_output_grad_buffer));


  // TODO: add input grads calculation


  // Deallocate

  core::memory::OMMemoryManager::deallocateMemory(intermediate_buffer);

  core::memory::OMMemoryManager::deallocateMemory(left_fc_output_grad_buffer);

  core::memory::OMMemoryManager::deallocateMemory(right_fc_output_grad_buffer);


  forward_storage.removeTensorFromTensorIndexToData(runtime_kernel.inputs_index[stateTensorIdx]);


  return status;

}

OMBackpropExecutionBuilder.h

OMDataType.h

OMMemoryManager.h

OMRuntimeKernel.h

OMStatus.h

PALGRUWeightGrad.h

onert_micro::core::OMRuntimeContext
Definition OMRuntimeContext.h:37

onert_micro::core::OMRuntimeShape
Definition OMRuntimeShape.h:34

onert_micro::core::OMRuntimeStorage
Definition OMRuntimeStorage.h:34

onert_micro::core::OMRuntimeStorage::removeTensorFromTensorIndexToData
OMStatus removeTensorFromTensorIndexToData(uint16_t tensor_index)
Definition OMRuntimeStorage.cpp:29

onert_micro::execute::OMRuntimeKernel
Definition OMRuntimeKernel.h:35

onert_micro::execute::OMRuntimeKernel::outputs_data
uint8_t * outputs_data[maxOutputSize]
Definition OMRuntimeKernel.h:55

onert_micro::execute::OMRuntimeKernel::getDataFromStorage
OMStatus getDataFromStorage(uint16_t op_index, core::OMRuntimeStorage &storage, core::OMRuntimeContext &context)
Definition OMRuntimeKernel.cpp:67

onert_micro::execute::OMRuntimeKernel::inputs_data
uint8_t * inputs_data[maxInputSize]
Definition OMRuntimeKernel.h:54

onert_micro::execute::OMRuntimeKernel::readKernel
OMStatus readKernel(uint16_t op_index, core::OMRuntimeContext &runtime_context)
Definition OMRuntimeKernel.cpp:22

onert_micro::execute::OMRuntimeKernel::outputs
const circle::Tensor * outputs[maxOutputSize]
Definition OMRuntimeKernel.h:52

onert_micro::execute::OMRuntimeKernel::inputs_index
int32_t inputs_index[maxInputSize]
Definition OMRuntimeKernel.h:57

onert_micro::execute::OMRuntimeKernel::inputs
const circle::Tensor * inputs[maxInputSize]
Definition OMRuntimeKernel.h:51

OMUtils.h

output_shape
const luci_interpreter::RuntimeShape output_shape
Definition PALComparisons.h:32

TensorIndexTISO::outputTensorIdx
constexpr uint32_t outputTensorIdx
Definition ReadKernelDataCommon.cpp:28

gen_h5_explicit_inputs_all.output
output
Definition gen_h5_explicit_inputs_all.py:96

infer.args
args
Definition infer.py:21

infer.input_data
list input_data
Definition infer.py:29

mir_caffe::CaffeOpType::input
@ input

onert_micro::core::OMDataType
OMDataType
"scalar" value type
Definition OMDataType.h:35

onert_micro::train::pal::GRUWeightGrads
OMStatus GRUWeightGrads(const float *output_grad_data, const float *weight_input_data, float *weight_input_grad_data, const float *weight_hidden_data, float *weight_hidden_grad_data, const float *bias_input_data, float *bias_input_grad_data, const float *bias_hidden_data, float *bias_hidden_grad_data, const float *input_data, float *input_grad_data, float *state_grad_data, const core::OMRuntimeShape &input_shape, const core::OMRuntimeShape &output_shape, const core::OMRuntimeShape &weight_input_shape, const core::OMRuntimeShape &weight_hidden_shape, const core::OMRuntimeShape &output_shape_fc, float *intermediate_buffer, float *left_fc_output_grad_buffer, float *right_fc_output_grad_buffer)
Definition PALGRUWeightGrad.h:130

onert_micro::train
Definition PALConv2DInputGrad.h:28

onert_micro
Definition OMMemoryManager.h:26

onert_micro::OMStatus
OMStatus
Definition OMStatus.h:24

onert_micro::Ok
@ Ok
Definition OMStatus.h:25

onert_micro::UnsupportedType
@ UnsupportedType
Definition OMStatus.h:26

onert_micro::core::memory::OMMemoryManager::deallocateMemory
static OMStatus deallocateMemory(uint8_t *data)
Definition OMMemoryManager.cpp:62

onert_micro::core::memory::OMMemoryManager::allocateMemory
static OMStatus allocateMemory(uint32_t size, uint8_t **data)
Definition OMMemoryManager.cpp:31

onert_micro::train::OMBackpropExecuteArgs
Definition OMBackpropExecuteArgs.h:35