refactor

6c37035f · Chao Liu · 3a7fd7d6 · 6c37035f · 6c37035f · 6c37035f
Commit 6c37035f authored May 23, 2021 by Chao Liu
4 changed files
--- a/composable_kernel/include/driver/driver_dynamic_gemm_v1.hpp
+++ b/composable_kernel/include/driver/driver_dynamic_gemm_v1.hpp
@@ -4,8 +4,7 @@
 #include "common_header.hpp"
 #include "dynamic_tensor_descriptor.hpp"
 #include "dynamic_tensor_descriptor_helper.hpp"
-#include "gridwise_dynamic_gemm.hpp"
-#include "gridwise_operation_wrapper.hpp"
+#include "gridwise_dynamic_gemm_v1r1.hpp"

 namespace ck {

@@ -52,19 +51,19 @@ template <index_t BlockSize,
          typename CGlobalIteratorHacks,
          typename AGlobalMoveSliceWindowIteratorHacks,
          typename BGlobalMoveSliceWindowIteratorHacks>
-__host__ float launch_kernel_dynamic_gemm_v1(const FloatAB* p_a_global,
-                                             const FloatAB* p_b_global,
-                                             FloatC* p_c_global,
-                                             const AGlobalDesc& a_k_m_global_desc,
-                                             const BGlobalDesc& b_k_n_global_desc,
-                                             const CGlobalDesc& c_m0_m1_n0_n1_global_desc,
-                                             const CBlockClusterDesc& c_block_cluster_desc,
-                                             AGlobalIteratorHacks,
-                                             BGlobalIteratorHacks,
-                                             CGlobalIteratorHacks,
-                                             AGlobalMoveSliceWindowIteratorHacks,
-                                             BGlobalMoveSliceWindowIteratorHacks,
-                                             index_t nrepeat)
+__host__ float launch_kernel_dynamic_gemm_v1r1(const FloatAB* p_a_global,
+                                               const FloatAB* p_b_global,
+                                               FloatC* p_c_global,
+                                               const AGlobalDesc& a_k_m_global_desc,
+                                               const BGlobalDesc& b_k_n_global_desc,
+                                               const CGlobalDesc& c_m0_m1_n0_n1_global_desc,
+                                               const CBlockClusterDesc& c_block_cluster_desc,
+                                               AGlobalIteratorHacks,
+                                               BGlobalIteratorHacks,
+                                               CGlobalIteratorHacks,
+                                               AGlobalMoveSliceWindowIteratorHacks,
+                                               BGlobalMoveSliceWindowIteratorHacks,
+                                               index_t nrepeat)

 {
    constexpr auto I0 = Number<0>{};
@@ -91,49 +90,49 @@ __host__ float launch_kernel_dynamic_gemm_v1(const FloatAB* p_a_global,

    // GEMM
    using gridwise_gemm =
-        GridwiseDynamicGemm_km_kn_m0m1n0n1_v1<BlockSize,
-                                              FloatAB,
-                                              FloatAcc,
-                                              FloatC,
-                                              CGlobalMemoryDataOperation,
-                                              AGlobalDesc,
-                                              BGlobalDesc,
-                                              CGlobalDesc,
-                                              CBlockClusterDesc,
-                                              MPerBlock,
-                                              NPerBlock,
-                                              KPerBlock,
-                                              MPerThread,
-                                              NPerThread,
-                                              KPerThread,
-                                              MLevel0Cluster,
-                                              NLevel0Cluster,
-                                              MLevel1Cluster,
-                                              NLevel1Cluster,
-                                              ABlockTransferThreadSliceLengths_K_M,
-                                              ABlockTransferThreadClusterLengths_K_M,
-                                              ABlockTransferThreadClusterArrangeOrder,
-                                              ABlockTransferSrcAccessOrder,
-                                              ABlockTransferSrcVectorDim,
-                                              ABlockTransferSrcScalarPerVector,
-                                              ABlockTransferDstScalarPerVector_M,
-                                              AThreadTransferSrcResetCoordinateAfterRun,
-                                              BBlockTransferThreadSliceLengths_K_N,
-                                              BBlockTransferThreadClusterLengths_K_N,
-                                              BBlockTransferThreadClusterArrangeOrder,
-                                              BBlockTransferSrcAccessOrder,
-                                              BBlockTransferSrcVectorDim,
-                                              BBlockTransferSrcScalarPerVector,
-                                              BBlockTransferDstScalarPerVector_N,
-                                              BThreadTransferSrcResetCoordinateAfterRun,
-                                              CThreadTransferSrcDstAccessOrder,
-                                              CThreadTransferSrcDstVectorDim,
-                                              CThreadTransferDstScalarPerVector,
-                                              AGlobalIteratorHacks,
-                                              BGlobalIteratorHacks,
-                                              CGlobalIteratorHacks,
-                                              AGlobalMoveSliceWindowIteratorHacks,
-                                              BGlobalMoveSliceWindowIteratorHacks>;
+        GridwiseDynamicGemm_km_kn_m0m1n0n1_v1r1<BlockSize,
+                                                FloatAB,
+                                                FloatAcc,
+                                                FloatC,
+                                                CGlobalMemoryDataOperation,
+                                                AGlobalDesc,
+                                                BGlobalDesc,
+                                                CGlobalDesc,
+                                                CBlockClusterDesc,
+                                                MPerBlock,
+                                                NPerBlock,
+                                                KPerBlock,
+                                                MPerThread,
+                                                NPerThread,
+                                                KPerThread,
+                                                MLevel0Cluster,
+                                                NLevel0Cluster,
+                                                MLevel1Cluster,
+                                                NLevel1Cluster,
+                                                ABlockTransferThreadSliceLengths_K_M,
+                                                ABlockTransferThreadClusterLengths_K_M,
+                                                ABlockTransferThreadClusterArrangeOrder,
+                                                ABlockTransferSrcAccessOrder,
+                                                ABlockTransferSrcVectorDim,
+                                                ABlockTransferSrcScalarPerVector,
+                                                ABlockTransferDstScalarPerVector_M,
+                                                AThreadTransferSrcResetCoordinateAfterRun,
+                                                BBlockTransferThreadSliceLengths_K_N,
+                                                BBlockTransferThreadClusterLengths_K_N,
+                                                BBlockTransferThreadClusterArrangeOrder,
+                                                BBlockTransferSrcAccessOrder,
+                                                BBlockTransferSrcVectorDim,
+                                                BBlockTransferSrcScalarPerVector,
+                                                BBlockTransferDstScalarPerVector_N,
+                                                BThreadTransferSrcResetCoordinateAfterRun,
+                                                CThreadTransferSrcDstAccessOrder,
+                                                CThreadTransferSrcDstVectorDim,
+                                                CThreadTransferDstScalarPerVector,
+                                                AGlobalIteratorHacks,
+                                                BGlobalIteratorHacks,
+                                                CGlobalIteratorHacks,
+                                                AGlobalMoveSliceWindowIteratorHacks,
+                                                BGlobalMoveSliceWindowIteratorHacks>;

    const auto GridSize = (M / MPerBlock) * (N / NPerBlock);

@@ -146,16 +145,16 @@ __host__ float launch_kernel_dynamic_gemm_v1(const FloatAB* p_a_global,

    if(has_main_k_block_loop && has_double_tail_k_block_loop)
    {
-        const auto kernel = kernel_dynamic_gemm_v1<gridwise_gemm,
-                                                   FloatAB,
-                                                   FloatAB,
-                                                   FloatC,
-                                                   remove_reference_t<AGlobalDesc>,
-                                                   remove_reference_t<BGlobalDesc>,
-                                                   remove_reference_t<CGlobalDesc>,
-                                                   remove_reference_t<CBlockClusterDesc>,
-                                                   true,
-                                                   true>;
+        const auto kernel = kernel_dynamic_gemm_v1r1<gridwise_gemm,
+                                                     FloatAB,
+                                                     FloatAB,
+                                                     FloatC,
+                                                     remove_reference_t<AGlobalDesc>,
+                                                     remove_reference_t<BGlobalDesc>,
+                                                     remove_reference_t<CGlobalDesc>,
+                                                     remove_reference_t<CBlockClusterDesc>,
+                                                     true,
+                                                     true>;

        ave_time = launch_and_time_kernel(kernel,
                                          nrepeat,
@@ -173,16 +172,16 @@ __host__ float launch_kernel_dynamic_gemm_v1(const FloatAB* p_a_global,
    }
    else if(has_main_k_block_loop && !has_double_tail_k_block_loop)
    {
-        const auto kernel = kernel_dynamic_gemm_v1<gridwise_gemm,
-                                                   FloatAB,
-                                                   FloatAB,
-                                                   FloatC,
-                                                   remove_reference_t<AGlobalDesc>,
-                                                   remove_reference_t<BGlobalDesc>,
-                                                   remove_reference_t<CGlobalDesc>,
-                                                   remove_reference_t<CBlockClusterDesc>,
-                                                   true,
-                                                   false>;
+        const auto kernel = kernel_dynamic_gemm_v1r1<gridwise_gemm,
+                                                     FloatAB,
+                                                     FloatAB,
+                                                     FloatC,
+                                                     remove_reference_t<AGlobalDesc>,
+                                                     remove_reference_t<BGlobalDesc>,
+                                                     remove_reference_t<CGlobalDesc>,
+                                                     remove_reference_t<CBlockClusterDesc>,
+                                                     true,
+                                                     false>;

        ave_time = launch_and_time_kernel(kernel,
                                          nrepeat,
@@ -200,16 +199,16 @@ __host__ float launch_kernel_dynamic_gemm_v1(const FloatAB* p_a_global,
    }
    else if(!has_main_k_block_loop && has_double_tail_k_block_loop)
    {
-        const auto kernel = kernel_dynamic_gemm_v1<gridwise_gemm,
-                                                   FloatAB,
-                                                   FloatAB,
-                                                   FloatC,
-                                                   remove_reference_t<AGlobalDesc>,
-                                                   remove_reference_t<BGlobalDesc>,
-                                                   remove_reference_t<CGlobalDesc>,
-                                                   remove_reference_t<CBlockClusterDesc>,
-                                                   false,
-                                                   true>;
+        const auto kernel = kernel_dynamic_gemm_v1r1<gridwise_gemm,
+                                                     FloatAB,
+                                                     FloatAB,
+                                                     FloatC,
+                                                     remove_reference_t<AGlobalDesc>,
+                                                     remove_reference_t<BGlobalDesc>,
+                                                     remove_reference_t<CGlobalDesc>,
+                                                     remove_reference_t<CBlockClusterDesc>,
+                                                     false,
+                                                     true>;

        ave_time = launch_and_time_kernel(kernel,
                                          nrepeat,
@@ -227,16 +226,16 @@ __host__ float launch_kernel_dynamic_gemm_v1(const FloatAB* p_a_global,
    }
    else
    {
-        const auto kernel = kernel_dynamic_gemm_v1<gridwise_gemm,
-                                                   FloatAB,
-                                                   FloatAB,
-                                                   FloatC,
-                                                   remove_reference_t<AGlobalDesc>,
-                                                   remove_reference_t<BGlobalDesc>,
-                                                   remove_reference_t<CGlobalDesc>,
-                                                   remove_reference_t<CBlockClusterDesc>,
-                                                   false,
-                                                   false>;
+        const auto kernel = kernel_dynamic_gemm_v1r1<gridwise_gemm,
+                                                     FloatAB,
+                                                     FloatAB,
+                                                     FloatC,
+                                                     remove_reference_t<AGlobalDesc>,
+                                                     remove_reference_t<BGlobalDesc>,
+                                                     remove_reference_t<CGlobalDesc>,
+                                                     remove_reference_t<CBlockClusterDesc>,
+                                                     false,
+                                                     false>;

        ave_time = launch_and_time_kernel(kernel,
                                          nrepeat,
@@ -269,16 +268,16 @@ __host__ float launch_kernel_dynamic_gemm_v1(const FloatAB* p_a_global,

    if(has_main_k_block_loop && has_double_tail_k_block_loop)
    {
-        const auto kernel = kernel_dynamic_gemm_v1<gridwise_gemm,
-                                                   FloatAB,
-                                                   FloatAB,
-                                                   FloatC,
-                                                   remove_reference_t<AGlobalDesc>,
-                                                   remove_reference_t<BGlobalDesc>,
-                                                   remove_reference_t<CGlobalDesc>,
-                                                   remove_reference_t<CBlockClusterDesc>,
-                                                   true,
-                                                   true>;
+        const auto kernel = kernel_dynamic_gemm_v1r1<gridwise_gemm,
+                                                     FloatAB,
+                                                     FloatAB,
+                                                     FloatC,
+                                                     remove_reference_t<AGlobalDesc>,
+                                                     remove_reference_t<BGlobalDesc>,
+                                                     remove_reference_t<CGlobalDesc>,
+                                                     remove_reference_t<CBlockClusterDesc>,
+                                                     true,
+                                                     true>;

        ave_time = launch_and_time_kernel(
            kernel,
@@ -297,16 +296,16 @@ __host__ float launch_kernel_dynamic_gemm_v1(const FloatAB* p_a_global,
    }
    else if(has_main_k_block_loop && !has_double_tail_k_block_loop)
    {
-        const auto kernel = kernel_dynamic_gemm_v1<gridwise_gemm,
-                                                   FloatAB,
-                                                   FloatAB,
-                                                   FloatC,
-                                                   remove_reference_t<AGlobalDesc>,
-                                                   remove_reference_t<BGlobalDesc>,
-                                                   remove_reference_t<CGlobalDesc>,
-                                                   remove_reference_t<CBlockClusterDesc>,
-                                                   true,
-                                                   false>;
+        const auto kernel = kernel_dynamic_gemm_v1r1<gridwise_gemm,
+                                                     FloatAB,
+                                                     FloatAB,
+                                                     FloatC,
+                                                     remove_reference_t<AGlobalDesc>,
+                                                     remove_reference_t<BGlobalDesc>,
+                                                     remove_reference_t<CGlobalDesc>,
+                                                     remove_reference_t<CBlockClusterDesc>,
+                                                     true,
+                                                     false>;

        ave_time = launch_and_time_kernel(
            kernel,
@@ -325,16 +324,16 @@ __host__ float launch_kernel_dynamic_gemm_v1(const FloatAB* p_a_global,
    }
    else if(!has_main_k_block_loop && has_double_tail_k_block_loop)
    {
-        const auto kernel = kernel_dynamic_gemm_v1<gridwise_gemm,
-                                                   FloatAB,
-                                                   FloatAB,
-                                                   FloatC,
-                                                   remove_reference_t<AGlobalDesc>,
-                                                   remove_reference_t<BGlobalDesc>,
-                                                   remove_reference_t<CGlobalDesc>,
-                                                   remove_reference_t<CBlockClusterDesc>,
-                                                   false,
-                                                   true>;
+        const auto kernel = kernel_dynamic_gemm_v1r1<gridwise_gemm,
+                                                     FloatAB,
+                                                     FloatAB,
+                                                     FloatC,
+                                                     remove_reference_t<AGlobalDesc>,
+                                                     remove_reference_t<BGlobalDesc>,
+                                                     remove_reference_t<CGlobalDesc>,
+                                                     remove_reference_t<CBlockClusterDesc>,
+                                                     false,
+                                                     true>;

        ave_time = launch_and_time_kernel(
            kernel,
@@ -353,16 +352,16 @@ __host__ float launch_kernel_dynamic_gemm_v1(const FloatAB* p_a_global,
    }
    else
    {
-        const auto kernel = kernel_dynamic_gemm_v1<gridwise_gemm,
-                                                   FloatAB,
-                                                   FloatAB,
-                                                   FloatC,
-                                                   remove_reference_t<AGlobalDesc>,
-                                                   remove_reference_t<BGlobalDesc>,
-                                                   remove_reference_t<CGlobalDesc>,
-                                                   remove_reference_t<CBlockClusterDesc>,
-                                                   false,
-                                                   false>;
+        const auto kernel = kernel_dynamic_gemm_v1r1<gridwise_gemm,
+                                                     FloatAB,
+                                                     FloatAB,
+                                                     FloatC,
+                                                     remove_reference_t<AGlobalDesc>,
+                                                     remove_reference_t<BGlobalDesc>,
+                                                     remove_reference_t<CGlobalDesc>,
+                                                     remove_reference_t<CBlockClusterDesc>,
+                                                     false,
+                                                     false>;

        ave_time = launch_and_time_kernel(
            kernel,

--- a/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm.hpp
+++ b/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm.hpp
@@ -27,13 +27,13 @@ __global__ void
 #if CK_USE_LAUNCH_BOUNDS
    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
 #endif
-        kernel_dynamic_gemm_v1(const FloatA* __restrict__ p_a_global,
-                               const FloatB* __restrict__ p_b_global,
-                               FloatC* __restrict__ p_c_global,
-                               const AGlobalDesc a_k_m_global_desc,
-                               const BGlobalDesc b_k_n_global_desc,
-                               const CGlobalDesc c_m0_m1_n0_n1_global_desc,
-                               const CBlockClusterDesc c_block_cluster_desc)
+        kernel_dynamic_gemm_v1r1(const FloatA* __restrict__ p_a_global,
+                                 const FloatB* __restrict__ p_b_global,
+                                 FloatC* __restrict__ p_c_global,
+                                 const AGlobalDesc a_k_m_global_desc,
+                                 const BGlobalDesc b_k_n_global_desc,
+                                 const CGlobalDesc c_m0_m1_n0_n1_global_desc,
+                                 const CBlockClusterDesc c_block_cluster_desc)
 {
    GridwiseGemm::Run(p_a_global,
                      p_b_global,
@@ -63,13 +63,13 @@ __global__ void
 #if CK_USE_LAUNCH_BOUNDS
    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
 #endif
-        kernel_dynamic_gemm_v1(const FloatA* __restrict__ p_a_global,
-                               const FloatB* __restrict__ p_b_global,
-                               FloatC* __restrict__ p_c_global,
-                               const void __CONSTANT__* p_a_k_m_global_desc,
-                               const void __CONSTANT__* p_b_k_n_global_desc,
-                               const void __CONSTANT__* p_c_m0_m1_n0_n1_global_desc,
-                               const void __CONSTANT__* p_c_block_cluster_desc)
+        kernel_dynamic_gemm_v1r1(const FloatA* __restrict__ p_a_global,
+                                 const FloatB* __restrict__ p_b_global,
+                                 FloatC* __restrict__ p_c_global,
+                                 const void __CONSTANT__* p_a_k_m_global_desc,
+                                 const void __CONSTANT__* p_b_k_n_global_desc,
+                                 const void __CONSTANT__* p_c_m0_m1_n0_n1_global_desc,
+                                 const void __CONSTANT__* p_c_block_cluster_desc)
 {
    // first cast void __CONSTANT__ void* to void*
    // second cast void* to Desc*
@@ -139,7 +139,7 @@ template <index_t BlockSize,
          typename CGlobalIteratorHacks,
          typename AGlobalMoveSliceWindowIteratorHacks,
          typename BGlobalMoveSliceWindowIteratorHacks>
-struct GridwiseDynamicGemm_km_kn_m0m1n0n1_v1
+struct GridwiseDynamicGemm_km_kn_m0m1n0n1_v1r1
 {
    __host__ __device__ static constexpr index_t GetSharedMemoryNumberOfByte()
    {

--- a/driver/include/device_dynamic_convolution_forward_implicit_gemm_v4r4_nchw_kcyx_nkhw.hpp
+++ b/driver/include/device_dynamic_convolution_forward_implicit_gemm_v4r4_nchw_kcyx_nkhw.hpp
@@ -2,7 +2,7 @@
 #include "device.hpp"
 #include "host_tensor.hpp"
 #include "transform_forward_convolution_into_gemm_v4r4_nchw_kcyx_nkhw.hpp"
-#include "driver_dynamic_gemm_v1.hpp"
+#include "driver_dynamic_gemm_v1r1.hpp"

 template <class TInWei,
          ck::index_t InWeiVectorSize,
@@ -490,7 +490,7 @@ void device_dynamic_convolution_forward_implicit_gemm_v4r4_nchw_kcyx_nkhw(

    for(index_t i = 0; i < 5; ++i)
    {
-        float ave_time = launch_kernel_dynamic_gemm_v1<
+        float ave_time = launch_kernel_dynamic_gemm_v1r1<
            BlockSize,
            typename vector_type<TInWei, InWeiVectorSize>::type,
            TAcc,

--- a/driver/include/device_dynamic_convolution_forward_implicit_gemm_v4r4_nhwc_kyxc_nhwk.hpp
+++ b/driver/include/device_dynamic_convolution_forward_implicit_gemm_v4r4_nhwc_kyxc_nhwk.hpp
@@ -2,7 +2,7 @@
 #include "device.hpp"
 #include "host_tensor.hpp"
 #include "transform_forward_convolution_into_gemm_v4r4_nhwc_kyxc_nhwk.hpp"
-#include "driver_dynamic_gemm_v1.hpp"
+#include "driver_dynamic_gemm_v1r1.hpp"

 template <class TInWei,
          ck::index_t InWeiVectorSize,
@@ -396,7 +396,7 @@ void device_dynamic_convolution_forward_implicit_gemm_v4r4_nhwc_kyxc_nhwk(

    for(index_t i = 0; i < 5; ++i)
    {
-        float ave_time = launch_kernel_dynamic_gemm_v1<
+        float ave_time = launch_kernel_dynamic_gemm_v1r1<
            BlockSize,
            typename vector_type<TInWei, InWeiVectorSize>::type,
            TAcc,