ONE/compute_2cker_2include_2cker_2operation_2_fully_connected_8h_source.html

/*

 * Copyright (c) 2019 Samsung Electronics Co., Ltd. All Rights Reserved

 * Copyright 2017 The TensorFlow Authors. All Rights Reserved.

 *

 * Licensed under the Apache License, Version 2.0 (the "License");

 * you may not use this file except in compliance with the License.

 * You may obtain a copy of the License at

 *

 *      http://www.apache.org/licenses/LICENSE-2.0

 *

 * Unless required by applicable law or agreed to in writing, software

 * distributed under the License is distributed on an "AS IS" BASIS,

 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

 * See the License for the specific language governing permissions and

 * limitations under the License.

 */


#ifndef __NNFW_CKER_FULLY_CONNECTED_H__

#define __NNFW_CKER_FULLY_CONNECTED_H__


#include <ruy/context.h>

#include "cker/operation/FullyConnectedDense16x1.h"

#include "cker/operation/FullyConnectedSparse16x1.h"

#include "cker/operation/optimized/Gemm.h"

#include "cker/Shape.h"

#include "cker/Types.h"

#include "cker/Utils.h"

#include "cker/TensorUtils.h"

#include "cker/neon/neon_check.h"


namespace nnfw

{

namespace cker

{


class FCTempArena

{

public:


  FCTempArena(void) : prepared(false), input_quantized(), scaling_factors(), accum_scratch()

  {

    // DO NOTHING

  }


  void prepare(const Shape &input_shape, const Shape &weights_shape)

  {

    auto input_size = input_shape.FlatSize();

    input_quantized.resize(input_size);


    assert(weights_shape.DimensionsCount() == 2);

    int batch_size = input_size / weights_shape.Dims(1);

    scaling_factors.resize(batch_size);

    prepared = true;

  }


public:

  bool prepared;

  std::vector<int8_t> input_quantized;

  std::vector<float> scaling_factors;

  std::vector<int32_t> accum_scratch;

};


#if defined(CKER_X86_PLATFORM)


// From tensorflow/tensorflow/lite/kernels/internal/optimized/optimized_ops.h

inline void FullyConnected(const FullyConnectedParams &params, const Shape &input_shape,

                           const float *input_data, const Shape &weights_shape,

                           const float *weights_data, const Shape &,

                           const float *optional_bias_data, const Shape &output_shape,

                           float *output_data)

{

  const int dims_count = weights_shape.DimensionsCount();

  const int input_rows = weights_shape.Dims(dims_count - 1);

  MatrixParams<float> rhs_params;

  rhs_params.order = Order::kColMajor;

  rhs_params.rows = input_rows;

  rhs_params.cols = input_shape.FlatSize() / input_rows;

  rhs_params.cache_policy = optimized::DefaultCachePolicy(params.rhs_cacheable);


  MatrixParams<float> lhs_params;

  lhs_params.order = Order::kRowMajor;

  lhs_params.cols = weights_shape.Dims(dims_count - 1);

  lhs_params.rows = FlatSizeSkipDim(weights_shape, dims_count - 1);

  lhs_params.cache_policy = optimized::DefaultCachePolicy(params.lhs_cacheable);

  MatrixParams<float> dst_params;

  dst_params.order = Order::kColMajor;

  dst_params.rows = output_shape.Dims(output_shape.DimensionsCount() - 1);

  dst_params.cols = FlatSizeSkipDim(output_shape, output_shape.DimensionsCount() - 1);

  GemmParams<float, float> gemm_params;

  gemm_params.bias = optional_bias_data;

  gemm_params.clamp_min = params.float_activation_min;

  gemm_params.clamp_max = params.float_activation_max;

  optimized::Gemm(lhs_params, weights_data, rhs_params, input_data, dst_params, output_data,

                  gemm_params);

}


#else // CKER_X86_PLATFORM


inline void FullyConnected(const FullyConnectedParams &params, const Shape &input_shape,

                           const float *input_data, const Shape &weights_shape,

                           const float *weights_data, const Shape &, const float *bias_data,

                           const Shape &, float *output_data)

{

  int total_input_size = input_shape.FlatSize();

  int input_size = weights_shape.Dims(1);

  const int batch_size = total_input_size / input_size;

  const int num_units = weights_shape.Dims(0);


  // Output = bias if bias tensor exists.

  if (bias_data)

  {

    VectorBatchVectorAssign(bias_data, num_units, batch_size, output_data);

  }

  else

  {

    ZeroVector(output_data, batch_size * num_units);

  }


  // Compute output += weight * input

  MatrixBatchVectorMultiplyAccumulate(weights_data, num_units, input_size, input_data, batch_size,

                                      output_data, /*result_stride=*/1);


  if (params.activation != FusedActivationFunctionType::kNone)

  {

    // Apply activation function

    ApplyActivationToVector(output_data, batch_size * num_units, params.activation, output_data);

  }

}


#endif // CKER_X86_PLATFORM


inline void FullyConnected(const FullyConnectedParams &params,

                           [[maybe_unused]] const Shape &input_shape, const uint8_t *input_data,

                           const Shape &filter_shape, const uint8_t *filter_data,

                           [[maybe_unused]] const Shape &bias_shape, const int32_t *bias_data,

                           const Shape &output_shape, uint8_t *output_data)

{

  const int32_t input_offset = params.input_offset;

  const int32_t filter_offset = params.weights_offset;

  const int32_t output_offset = params.output_offset;

  const int32_t output_multiplier = params.output_multiplier;

  const int output_shift = params.output_shift;

  const int32_t output_activation_min = params.quantized_activation_min;

  const int32_t output_activation_max = params.quantized_activation_max;

  assert(filter_shape.DimensionsCount() >= 2);

  assert(output_shape.DimensionsCount() >= 1);


  assert(output_activation_min <= output_activation_max);

  // TODO(benoitjacob): This really should be:

  //     const int batches = ArraySize(output_dims, 1);

  // but the current --variable_batch hack consists in overwriting the 3rd

  // dimension with the runtime batch size, as we don't keep track for each

  // array of which dimension is the batch dimension in it.

  const int output_dim_count = output_shape.DimensionsCount();

  const int filter_dim_count = filter_shape.DimensionsCount();

  const int batches = FlatSizeSkipDim(output_shape, output_dim_count - 1);

  const int output_depth =

    MatchingDim(filter_shape, filter_dim_count - 2, output_shape, output_dim_count - 1);

  const int accum_depth = filter_shape.Dims(filter_dim_count - 1);

  for (int b = 0; b < batches; ++b)

  {

    for (int out_c = 0; out_c < output_depth; ++out_c)

    {

      int32_t acc = 0;

      for (int d = 0; d < accum_depth; ++d)

      {

        int32_t input_val = input_data[b * accum_depth + d];

        int32_t filter_val = filter_data[out_c * accum_depth + d];

        acc += (filter_val + filter_offset) * (input_val + input_offset);

      }

      if (bias_data)

      {

        acc += bias_data[out_c];

      }

      acc = MultiplyByQuantizedMultiplier(acc, output_multiplier, output_shift);

      acc += output_offset;

      acc = std::max(acc, output_activation_min);

      acc = std::min(acc, output_activation_max);

      output_data[out_c + output_depth * b] = static_cast<uint8_t>(acc);

    }

  }

}


inline void FullyConnectedHybrid(const FullyConnectedParams &params, const Shape &input_shape,

                                 const float *input_data, const Shape &filter_shape,

                                 const int8_t *filter_data, const Shape &, const float *bias_data,

                                 [[maybe_unused]] const Shape &output_shape, float *output_data,

                                 FCTempArena &temp_arena,

                                 [[maybe_unused]] ruy::Context *ruy_context)

{

  int total_input_size = input_shape.FlatSize();

  const int input_size = filter_shape.Dims(1);

  const int batch_size = total_input_size / input_size;

  const int num_units = filter_shape.Dims(0);


  // Output = bias if bias tensor exists.

  if (bias_data)

  {

    VectorBatchVectorAssign(bias_data, num_units, batch_size, output_data);

  }

  else

  {

    ZeroVector(output_data, batch_size * num_units);

  }


  // Save matrix multiplication computation for all zero input.

  if (IsZeroVector(input_data, total_input_size))

  {

    ApplyActivationToVector(output_data, batch_size * num_units, params.activation, output_data);

    return;

  }


  // Quantize input from float to uint8 + quantization params (scaling factor).

  float unused_min, unused_max;

  float *scaling_factors_ptr = temp_arena.scaling_factors.data();

  int8_t *quant_data = temp_arena.input_quantized.data();


  // Quantize each batch independently.

  for (int b = 0; b < batch_size; ++b)

  {

    const int offset = b * input_size;

    SymmetricQuantizeFloats(input_data + offset, input_size, quant_data + offset, &unused_min,

                            &unused_max, &scaling_factors_ptr[b]);

    // Incorporate scaling of the filter.

    scaling_factors_ptr[b] *= params.weights_scale;

  }


// Compute output += weight * quantized_input

#ifdef USE_RUY_GEMV

  auto output_size = output_shape.FlatSize();

  temp_arena.accum_scratch.resize(output_size);

  int32_t *scratch = temp_arena.accum_scratch.data();

  MatrixBatchVectorMultiplyAccumulate(filter_data, num_units, input_size, quant_data,

                                      scaling_factors_ptr, batch_size, scratch, output_data,

                                      /*result_stride=*/1, ruy_context);

#else

  MatrixBatchVectorMultiplyAccumulate(filter_data, num_units, input_size, quant_data,

                                      scaling_factors_ptr, batch_size, output_data,

                                      /*result_stride=*/1);

#endif


  // Apply activation function to floats.

  if (params.activation != FusedActivationFunctionType::kNone)

  {

    // Apply activation function

    ApplyActivationToVector(output_data, batch_size * num_units, params.activation, output_data);

  }

  return;

}


inline void FullyConnectedSparseWeightRandom(

  const FullyConnectedParams &params, [[maybe_unused]] const Shape &input_shape,

  const float *input_data, const Shape &weights_shape, const float *weights_data,

  [[maybe_unused]] const Shape &bias_shape, const float *bias_data, const Shape &output_shape,

  float *output_data, const uint16_t *w1_segments, const uint16_t *w1_indices)

{


  assert(weights_shape.DimensionsCount() == 2);

  assert(output_shape.DimensionsCount() == 2);


  const int output_dims_count = output_shape.DimensionsCount();

  const int weights_dims_count = weights_shape.DimensionsCount();

  const int batches = FlatSizeSkipDim(output_shape, output_dims_count - 1);

  const int output_depth =

    MatchingDim(weights_shape, weights_dims_count - 2, output_shape, output_dims_count - 1);

  const int accum_depth = weights_shape.Dims(weights_dims_count - 1);


  if (bias_data)

  {

    VectorBatchVectorAssign(bias_data, output_depth, batches, output_data);

  }

  else

  {

    ZeroVector(output_data, batches * output_depth);

  }

  for (int b = 0; b < batches; ++b)

  {

    for (int idx_0 = 0; idx_0 < output_depth; ++idx_0)

    {

      for (int pw1 = w1_segments[idx_0]; pw1 < w1_segments[idx_0 + 1]; ++pw1)

      {

        int idx_1 = w1_indices[pw1];

        output_data[b * output_depth + idx_0] +=

          weights_data[pw1] * input_data[b * accum_depth + idx_1];

      }

    }

  }

  if (params.activation != FusedActivationFunctionType::kNone)

  {

    // Apply activation function

    ApplyActivationToVector(output_data, batches * output_depth, params.activation, output_data);

  }

}


} // namespace cker

} // namespace nnfw


#endif // __NNFW_CKER_FULLY_CONNECTED_H__

FullyConnectedDense16x1.h

FullyConnectedSparse16x1.h

neon_check.h

nnfw::cker::FCTempArena
Definition FullyConnected.h:37

nnfw::cker::FCTempArena::input_quantized
std::vector< int8_t > input_quantized
Definition FullyConnected.h:57

nnfw::cker::FCTempArena::prepared
bool prepared
Definition FullyConnected.h:56

nnfw::cker::FCTempArena::scaling_factors
std::vector< float > scaling_factors
Definition FullyConnected.h:58

nnfw::cker::FCTempArena::accum_scratch
std::vector< int32_t > accum_scratch
Definition FullyConnected.h:59

nnfw::cker::FCTempArena::prepare
void prepare(const Shape &input_shape, const Shape &weights_shape)
Definition FullyConnected.h:44

nnfw::cker::FCTempArena::FCTempArena
FCTempArena(void)
Definition FullyConnected.h:39

nnfw::cker::Shape
Definition Shape.h:32

nnfw::cker::Shape::DimensionsCount
int32_t DimensionsCount() const
Definition Shape.h:91

nnfw::cker::Shape::Dims
int32_t Dims(int i) const
Definition Shape.h:92

nnfw::cker::Shape::FlatSize
int FlatSize() const
Definition Shape.h:181

Shape.h

TensorUtils.h

Types.h

Utils.h

Gemm.h

offset
__global uchar * offset(const Image *img, int x, int y)
Definition helpers.h:540

output_shape
const luci_interpreter::RuntimeShape output_shape
Definition PALComparisons.h:32

nnfw::cker::ZeroVector
void ZeroVector(float *vector, int v_size)
Definition TensorUtils.h:160

nnfw::cker::MatchingDim
int MatchingDim(const Shape &shape1, int index1, const Shape &shape2, int index2)
Definition Shape.h:220

nnfw::cker::Order::kRowMajor
@ kRowMajor

nnfw::cker::Order::kColMajor
@ kColMajor

nnfw::cker::FullyConnectedSparseWeightRandom
void FullyConnectedSparseWeightRandom(const FullyConnectedParams &params, const Shape &input_shape, const float *input_data, const Shape &weights_shape, const float *weights_data, const Shape &bias_shape, const float *bias_data, const Shape &output_shape, float *output_data, const uint16_t *w1_segments, const uint16_t *w1_indices)
Definition FullyConnected.h:250

nnfw::cker::MatrixBatchVectorMultiplyAccumulate
void MatrixBatchVectorMultiplyAccumulate(const int8_t *matrix, const int m_rows, const int m_cols, const int8_t *vector, const float *scaling_factors, int n_batch, float *result, int result_stride)
Definition TensorUtils.h:127

nnfw::cker::FlatSizeSkipDim
int FlatSizeSkipDim(const Shape &shape, int skip_dim)
Definition Shape.h:253

nnfw::cker::ApplyActivationToVector
void ApplyActivationToVector(const float *vector, int v_size, FusedActivationFunctionType activation, float *result)
Definition TensorUtils.h:109

nnfw::cker::FullyConnectedHybrid
void FullyConnectedHybrid(const FullyConnectedParams &params, const Shape &input_shape, const float *input_data, const Shape &filter_shape, const int8_t *filter_data, const Shape &, const float *bias_data, const Shape &output_shape, float *output_data, FCTempArena &temp_arena, ruy::Context *ruy_context)
Definition FullyConnected.h:183

nnfw::cker::FullyConnected
void FullyConnected(const FullyConnectedParams &params, const Shape &input_shape, const float *input_data, const Shape &weights_shape, const float *weights_data, const Shape &, const float *bias_data, const Shape &, float *output_data)
Definition FullyConnected.h:98

nnfw::cker::SymmetricQuantizeFloats
void SymmetricQuantizeFloats(const float *values, const int size, int8_t *quantized_values, float *min, float *max, float *scaling_factor)
Definition TensorUtils.h:120

nnfw::cker::VectorBatchVectorAssign
void VectorBatchVectorAssign(const float *vector, int v_size, int n_batch, float *batch_vector)
Definition TensorUtils.h:44

nnfw::cker::FusedActivationFunctionType::kNone
@ kNone

nnfw::cker::MultiplyByQuantizedMultiplier
int32_t MultiplyByQuantizedMultiplier(int32_t x, int32_t quantized_multiplier, int shift)
Definition Utils.h:96

nnfw::cker::IsZeroVector
bool IsZeroVector(const float *vector, int v_size)
Definition TensorUtils.h:104

nnfw
Definition topk_v2.h:30

nnfw::cker::FullyConnectedParams
Definition Types.h:256

nnfw::cker::FullyConnectedParams::output_multiplier
int32_t output_multiplier
Definition Types.h:264

nnfw::cker::FullyConnectedParams::rhs_cacheable
bool rhs_cacheable
Definition Types.h:274

nnfw::cker::FullyConnectedParams::lhs_cacheable
bool lhs_cacheable
Definition Types.h:273

nnfw::cker::FullyConnectedParams::activation
FusedActivationFunctionType activation
Definition Types.h:257

nnfw::cker::FullyConnectedParams::float_activation_max
float float_activation_max
Definition Types.h:271

nnfw::cker::FullyConnectedParams::weights_offset
int32_t weights_offset
Definition Types.h:261

nnfw::cker::FullyConnectedParams::quantized_activation_min
int32_t quantized_activation_min
Definition Types.h:267

nnfw::cker::FullyConnectedParams::float_activation_min
float float_activation_min
Definition Types.h:270

nnfw::cker::FullyConnectedParams::quantized_activation_max
int32_t quantized_activation_max
Definition Types.h:268

nnfw::cker::FullyConnectedParams::input_offset
int32_t input_offset
Definition Types.h:260

nnfw::cker::FullyConnectedParams::output_shift
int output_shift
Definition Types.h:265

nnfw::cker::FullyConnectedParams::output_offset
int32_t output_offset
Definition Types.h:263

nnfw::cker::FullyConnectedParams::weights_scale
float weights_scale
Definition Types.h:262

nnfw::cker::GemmParams
Definition Types.h:509

nnfw::cker::GemmParams::clamp_max
DstScalar clamp_max
Definition Types.h:537

nnfw::cker::GemmParams::bias
const AccumScalar * bias
Definition Types.h:531

nnfw::cker::GemmParams::clamp_min
DstScalar clamp_min
Definition Types.h:533

nnfw::cker::MatrixParams
Definition Types.h:439

nnfw::cker::MatrixParams::cols
int cols
Definition Types.h:446

nnfw::cker::MatrixParams::rows
int rows
Definition Types.h:444

nnfw::cker::MatrixParams::order
Order order
Definition Types.h:442

nnfw::cker::MatrixParams::cache_policy
CachePolicy cache_policy
Definition Types.h:456