lite

25d7fde8 · gaoqiong · 8439d29f · 25d7fde8 · 25d7fde8 · 25d7fde8
Commit 25d7fde8 authored Jul 25, 2023 by gaoqiong
20 changed files
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/tile.h
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/tile.h
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/tile_impl.cu
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/tile_impl.cu
@@ -10,7 +10,7 @@ namespace rocm {
 #ifdef USE_ROCM
 constexpr int num_elements_per_thread = 2;
-constexpr int num_threads_per_block = 512;
+constexpr int num_threads_per_block = 256;
 #else
 constexpr int num_elements_per_thread = GridDim::maxElementsPerThread;
 constexpr int num_threads_per_block = GridDim::maxThreadsPerBlock;

--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/tile_impl.h
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/tile_impl.h
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/transpose.cc
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/transpose.cc
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/transpose.h
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/transpose.h
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/transpose_impl.cu
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/transpose_impl.cu
@@ -133,6 +133,7 @@ bool CanDoTranspose4DParallelizeMultipleElementsPerThreadInInnermostDim(const hi
                                                                        const gsl::span<const int64_t>& input_dims,
                                                                        const gsl::span<const size_t>& permutations,
                                                                        dim3& grid_size, dim3& block_size) {
+  //printf("maxThreadsPerBlock:%d \n",prop.maxThreadsPerBlock);
  if (rank == 4 &&
      // the permutations is not on the last dimension.
      permutations[3] == 3) {
@@ -142,7 +143,9 @@ bool CanDoTranspose4DParallelizeMultipleElementsPerThreadInInnermostDim(const hi
    // dims[2]: block.y + grid.x
    // dims[1]: grid.y
    // dims[0]: grid.z
-    if (input_dims[3] / num_elements_per_thread <= prop.maxThreadsPerBlock &&
+    const int maxThreadsPerBlock = prop.maxThreadsPerBlock;
+    if (input_dims[3] / num_elements_per_thread <= maxThreadsPerBlock &&
        (input_dims[3] % num_elements_per_thread) == 0 &&
        input_dims[1] <= prop.maxGridSize[1] &&
        input_dims[0] <= prop.maxGridSize[2]) {
@@ -150,7 +153,7 @@ bool CanDoTranspose4DParallelizeMultipleElementsPerThreadInInnermostDim(const hi
      // 1. block_size_x * block_size_y <= prop.maxThreadsPerBlock
      // 2. block_size_y * num_block_ext >= input_dims[2]
      int64_t block_size_x = input_dims[3] / num_elements_per_thread;
-      int64_t max_block_size_y = prop.maxThreadsPerBlock / block_size_x;
+      int64_t max_block_size_y = maxThreadsPerBlock / block_size_x;
      int64_t block_size_y = min(input_dims[2], max_block_size_y);
      int64_t num_block_ext = CeilDiv(input_dims[2], block_size_y);
@@ -255,14 +258,15 @@ bool CanDoTranspose4DParallelizeOneElementPerThread(const hipDeviceProp_t& prop,
    // dims[2]: block.y + grid.x
    // dims[1]: grid.y
    // dims[0]: grid.z
-    if (input_dims[3] <= prop.maxThreadsPerBlock &&
+    const int maxThreadsPerBlock = prop.maxThreadsPerBlock;
+    if (input_dims[3] <= maxThreadsPerBlock &&
        input_dims[1] <= prop.maxGridSize[1] &&
        input_dims[0] <= prop.maxGridSize[2]) {
      // There are 2 constrains when luanching the kernels
      // 1. block_size_x * block_size_y <= prop.maxThreadsPerBlock
      // 2. block_size_y * num_block_ext >= input_dims[2]
      int64_t block_size_x = input_dims[3];
-      int64_t max_block_size_y = prop.maxThreadsPerBlock / block_size_x;
+      int64_t max_block_size_y = maxThreadsPerBlock / block_size_x;
      int64_t block_size_y = std::min(input_dims[2], max_block_size_y);
      int64_t num_block_ext = CeilDiv(input_dims[2], block_size_y);

--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/transpose_impl.h
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/transpose_impl.h
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/trilu.cc
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/trilu.cc
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/trilu.h
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/trilu.h
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/trilu_impl.cu
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/trilu_impl.cu
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/trilu_impl.h
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/trilu_impl.h
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/unsqueeze.cc
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/unsqueeze.cc
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/unsqueeze.h
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/unsqueeze.h
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/upsample.cc
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/upsample.cc
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/upsample.h
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/upsample.h
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/upsample_impl.cu
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/upsample_impl.cu
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/upsample_impl.h
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/upsample_impl.h
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/where.cc
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/where.cc
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/where.h
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/where.h
--- a/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/where_impl.cu
+++ b/build/Linux/Release/amdgpu/onnxruntime/core/providers/rocm/tensor/where_impl.cu