testing on v100

e69b1970 · ChLiu Chao · eb68e34c · e69b1970 · e69b1970 · e69b1970
Commit e69b1970 authored Apr 09, 2020 by ChLiu Chao
7 changed files
--- a/composable_kernel/include/kernel_algorithm/gridwise_convolution_implicit_gemm_v4r1_nchw_kcyx_nkhw_lds_double_buffer.hpp
+++ b/composable_kernel/include/kernel_algorithm/gridwise_convolution_implicit_gemm_v4r1_nchw_kcyx_nkhw_lds_double_buffer.hpp
@@ -164,6 +164,7 @@ struct GridwiseConvolutionImplicitGemm_v4r1_nchw_kcyx_nkhw_lds_double_buffer
        constexpr index_t KBlockWork = K / KPerBlock;
        constexpr index_t BBlockWork = B / BPerBlock;

+#if 0
        constexpr auto block_work_desc =
            make_cluster_descriptor(Sequence<KBlockWork, BBlockWork>{});

@@ -171,6 +172,16 @@ struct GridwiseConvolutionImplicitGemm_v4r1_nchw_kcyx_nkhw_lds_double_buffer

        const index_t k_block_data_on_global = block_work_id[0] * KPerBlock;
        const index_t b_block_data_on_global = block_work_id[1] * BPerBlock;
+#else
+        constexpr auto block_work_desc =
+            make_cluster_descriptor(Sequence<BBlockWork, KBlockWork>{});
+
+        const auto block_work_id = block_work_desc.CalculateClusterIndex(get_block_1d_id());
+
+        const index_t b_block_data_on_global = block_work_id[0] * BPerBlock;
+        const index_t k_block_data_on_global = block_work_id[1] * KPerBlock;
+#endif
+

        // input tensor
        //     global tensor in global memory

--- a/composable_kernel/include/kernel_algorithm/gridwise_convolution_implicit_gemm_v4r4_nchw_kcyx_nkhw.hpp
+++ b/composable_kernel/include/kernel_algorithm/gridwise_convolution_implicit_gemm_v4r4_nchw_kcyx_nkhw.hpp
@@ -75,6 +75,7 @@ struct GridwiseConvolutionImplicitGemm_v4r4_nchw_kcyx_nkhw
        constexpr index_t ConvDilationH = ConvDilations{}[0];
        constexpr index_t ConvDilationW = ConvDilations{}[1];

+#if 0
        // sanity-check for vectorized memory load
        static_assert((Wo == 1 || (ConvStrideW == 1 || GemmBBlockCopySrcDataPerRead_GemmN == 1)) &&
                          (X == 1 || ConvDilationW % GemmBBlockCopySrcDataPerRead_GemmN == 0) &&
@@ -82,6 +83,7 @@ struct GridwiseConvolutionImplicitGemm_v4r4_nchw_kcyx_nkhw
                          InRightPads{}[1] % GemmBBlockCopySrcDataPerRead_GemmN == 0,
                      "wrong! aligment requirement for vectorized global load of input tensor will "
                      "be violated");
+#endif

        // weight tensor
        constexpr auto wei_e_k_global_desc = reorder_tensor_descriptor_given_upper2lower(

--- a/composable_kernel/include/tensor_operation/gridwise_gemm.hpp
+++ b/composable_kernel/include/tensor_operation/gridwise_gemm.hpp
@@ -111,6 +111,7 @@ struct GridwiseGemmTransposedANormalBNormalC_v1
        constexpr index_t MBlockWork = M / MPerBlock;
        constexpr index_t NBlockWork = N / NPerBlock;

+#if 1
        constexpr auto block_work_desc =
            make_cluster_descriptor(Sequence<MBlockWork, NBlockWork>{});

@@ -118,6 +119,15 @@ struct GridwiseGemmTransposedANormalBNormalC_v1

        const index_t m_block_data_on_global = block_work_id[0] * MPerBlock;
        const index_t n_block_data_on_global = block_work_id[1] * NPerBlock;
+#else
+        constexpr auto block_work_desc =
+            make_cluster_descriptor(Sequence<NBlockWork, MBlockWork>{});
+
+        const auto block_work_id = block_work_desc.CalculateClusterIndex(get_block_1d_id());
+
+        const index_t n_block_data_on_global = block_work_id[0] * NPerBlock;
+        const index_t m_block_data_on_global = block_work_id[1] * MPerBlock;
+#endif

        // A matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment

--- a/driver/include/device_convolution_backward_data_implicit_gemm_v4r1_nchw_kcyx_nkhw.hpp
+++ b/driver/include/device_convolution_backward_data_implicit_gemm_v4r1_nchw_kcyx_nkhw.hpp
-#pragma once
+1111gma once
 #include <unistd.h>
 #include "device.hpp"
 #include "tensor.hpp"

--- a/driver/include/device_convolution_implicit_gemm_v4r1_nchw_kcyx_nkhw.hpp
+++ b/driver/include/device_convolution_implicit_gemm_v4r1_nchw_kcyx_nkhw.hpp
--- a/driver/include/device_convolution_implicit_gemm_v4r4_nchw_kcyx_nkhw.hpp
+++ b/driver/include/device_convolution_implicit_gemm_v4r4_nchw_kcyx_nkhw.hpp
--- a/driver/src/conv_driver.cpp
+++ b/driver/src/conv_driver.cpp