turned on other operations

308146e7 · Jianfeng yan · 8e3c41a5 · 308146e7 · 308146e7 · 308146e7
Commit 308146e7 authored May 03, 2022 by Jianfeng yan
3 changed files
--- a/include/ck/tensor_operation/gpu/device/device_conv2d_backward_weight_xdl_c_shuffle_nhwc_kyxc_nhwk.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_conv2d_backward_weight_xdl_c_shuffle_nhwc_kyxc_nhwk.hpp
@@ -3,7 +3,6 @@

 #include <iostream>
 #include <sstream>
-#include "batched_gemm_util.hpp"
 #include "device.hpp"
 #include "device_base.hpp"
 #include "device_conv_backward_weight.hpp"
@@ -13,7 +12,6 @@
 #include "tensor_descriptor.hpp"
 #include "tensor_descriptor_helper.hpp"
 #include "gridwise_gemm_xdlops_v2r4r2.hpp"
-#include "batched_gemm_util.hpp"

 namespace ck {
 namespace tensor_operation {
@@ -27,34 +25,33 @@ template <typename InDataType,
          typename InElementwiseOperation,
          typename WeiElementwiseOperation,
          typename OutElementwiseOperation,
-          index_t NumGemmKPrefetchStage,
-          index_t BlockSize,
-          index_t MPerBlock,
-          index_t NPerBlock,
-          index_t K0PerBlock,
-          index_t AK1,
+          ck::index_t BlockSize,
+          ck::index_t MPerBlock,
+          ck::index_t NPerBlock,
+          ck::index_t K0PerBlock,
+          ck::index_t K1,
          ck::index_t MPerXdl,
          ck::index_t NPerXdl,
          ck::index_t MXdlPerWave,
          ck::index_t NXdlPerWave,
-          typename ABlockTransferThreadClusterLengths_AK0_M_AK1,
+          typename ABlockTransferThreadClusterLengths_K0_M_K1,
          typename ABlockTransferThreadClusterArrangeOrder,
          typename ABlockTransferSrcAccessOrder,
-          index_t ABlockTransferSrcVectorDim,
-          index_t ABlockTransferSrcScalarPerVector,
-          index_t ABlockTransferDstScalarPerVector_AK1,
-          bool ABlockLdsExtraM,
-          typename BBlockTransferThreadClusterLengths_BK0_N_BK1,
+          ck::index_t ABlockTransferSrcVectorDim,
+          ck::index_t ABlockTransferSrcScalarPerVector,
+          ck::index_t ABlockTransferDstScalarPerVector_K1,
+          bool ABlockLdsAddExtraM,
+          typename BBlockTransferThreadClusterLengths_K0_N_K1,
          typename BBlockTransferThreadClusterArrangeOrder,
          typename BBlockTransferSrcAccessOrder,
-          index_t BBlockTransferSrcVectorDim,
-          index_t BBlockTransferSrcScalarPerVector,
-          index_t BBlockTransferDstScalarPerVector_BK1,
-          bool BBlockLdsExtraN,
+          ck::index_t BBlockTransferSrcVectorDim,
+          ck::index_t BBlockTransferSrcScalarPerVector,
+          ck::index_t BBlockTransferDstScalarPerVector_K1,
+          bool BBlockLdsAddExtraN,
          index_t CShuffleMXdlPerWavePerShuffle,
          index_t CShuffleNXdlPerWavePerShuffle,
-          typename CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
-          index_t CShuffleBlockTransferScalarPerVector_NPerBlock>
+          typename CBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
+          index_t CBlockTransferScalarPerVector_NWaveNPerXdl>
 struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_N_Ho_Wo_K
    : public DeviceConvBwdWeight<InElementwiseOperation,
                                 WeiElementwiseOperation,
@@ -95,7 +92,7 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_
                                                    std::vector<ck::index_t> conv_filter_dilations,
                                                    std::vector<ck::index_t> input_left_pads,
                                                    std::vector<ck::index_t> input_right_pads,
-                                                    ck::index_t k_batch)
+                                                    ck::index_t batch_k)
    {
        using namespace ck;

@@ -120,40 +117,35 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_
        const index_t InRightPadH = input_right_pads[0];
        const index_t InRightPadW = input_right_pads[1];

-        const index_t GemmKTotal     = N * Ho * Wo;
-        const index_t GemmM          = K;
-        const index_t GemmN          = C * X * Y;
-        const index_t GemmAKPerBatch = GemmAK0 * GemmAK1Number;
-        const index_t GemmBKPerBatch = GemmBK0 * GemmBK1Number;
+        const index_t GemmKTotal = N * Ho * Wo;
+        const index_t GemmM      = K;
+        const index_t GemmN      = C * X * Y;

-        const index_t GemmAK0 =
-            math::integer_divide_ceil(GemmKTotal, GemmAK1Number * K0PerBlock * k_batch) *
+        const index_t GemmKBatch = batch_k;
+        const index_t GemmK0 =
+            math::integer_divide_ceil(GemmKTotal, GemmK1Number * K0PerBlock * GemmKBatch) *
            K0PerBlock;
-        const index_t GemmBK0 =
-            math::integer_divide_ceil(GemmKTotal, GemmBK1Number * K0PerBlock * k_batch) *
-            K0PerBlock;
-        const index_t GemmAKPad = GemmKBatch * GemmAK0 * GemmAK1Number;
-        const index_t GemmBKPad = GemmKBatch * GemmBK0 * GemmBK1Number;
+        const index_t GemmKPad = GemmKBatch * GemmK0 * GemmK1Number;

-        const auto out_gemmk_gemmm_grid_desc =
+        const auto out_gemmktotal_gemmm_grid_desc =
            make_naive_tensor_descriptor_packed(make_tuple(N * Ho * Wo, K));
        const auto in_n_hi_wi_c_grid_desc =
            make_naive_tensor_descriptor_packed(make_tuple(N, Hi, Wi, C));

        // A: output tensor
        const auto out_gemmkpad_gemmm_grid_desc = transform_tensor_descriptor(
-            out_gemmk_gemmm_grid_desc,
-            make_tuple(make_right_pad_transform(GemmKTotal, GemmAKPad - GemmKTotal),
+            out_gemmktotal_gemmm_grid_desc,
+            make_tuple(make_right_pad_transform(GemmKTotal, GemmKPad - GemmKTotal),
                       make_pass_through_transform(GemmM)),
            make_tuple(Sequence<0>{}, Sequence<1>{}),
            make_tuple(Sequence<0>{}, Sequence<1>{}));

-        const auto out_gemmk0_gemmm_gemmk1_grid_desc = transform_tensor_descriptor(
+        const auto out_gemmkbatch_gemmk0_gemmm_gemmk1_grid_desc = transform_tensor_descriptor(
            out_gemmkpad_gemmm_grid_desc,
-            make_tuple(make_unmerge_transform(make_tuple(GemmAK0, GemmAK1Number)),
+            make_tuple(make_unmerge_transform(make_tuple(GemmKBatch, GemmK0, GemmK1Number)),
                       make_pass_through_transform(GemmM)),
            make_tuple(Sequence<0>{}, Sequence<1>{}),
-            make_tuple(Sequence<0, 2>{}, Sequence<1>{}));
+            make_tuple(Sequence<0, 1, 3>{}, Sequence<2>{}));

        // B: input tensor
        const auto in_n_hip_wip_c_grid_desc = transform_tensor_descriptor(
@@ -184,24 +176,24 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_

        const auto in_gemmkpad_gemmn_grid_desc = transform_tensor_descriptor(
            in_gemmktotal_gemmn_grid_desc,
-            make_tuple(make_right_pad_transform(GemmKTotal, GemmBKPad - GemmKTotal),
+            make_tuple(make_right_pad_transform(GemmKTotal, GemmKPad - GemmKTotal),
                       make_pass_through_transform(GemmN)),
            make_tuple(Sequence<0>{}, Sequence<1>{}),
            make_tuple(Sequence<0>{}, Sequence<1>{}));

-        const auto in_gemmk0_gemmn_gemmk1_grid_desc = transform_tensor_descriptor(
+        const auto in_gemmkbatch_gemmk0_gemmn_gemmk1_grid_desc = transform_tensor_descriptor(
            in_gemmkpad_gemmn_grid_desc,
-            make_tuple(make_unmerge_transform(make_tuple(GemmBK0, GemmBK1Number)),
+            make_tuple(make_unmerge_transform(make_tuple(GemmKBatch, GemmK0, GemmK1Number)),
                       make_pass_through_transform(GemmN)),
            make_tuple(Sequence<0>{}, Sequence<1>{}),
-            make_tuple(Sequence<0, 2>{}, Sequence<1>{}));
+            make_tuple(Sequence<0, 1, 3>{}, Sequence<2>{}));

        // C: weight tensor
        const auto wei_gemmm_gemmn_grid_desc =
            make_naive_tensor_descriptor_packed(make_tuple(K, Y * X * C));

-        return make_tuple(out_gemmk0_gemmm_gemmk1_grid_desc,
-                          in_gemmk0_gemmn_gemmk1_grid_desc,
+        return make_tuple(out_gemmkbatch_gemmk0_gemmm_gemmk1_grid_desc,
+                          in_gemmkbatch_gemmk0_gemmn_gemmk1_grid_desc,
                          wei_gemmm_gemmn_grid_desc);
    }

@@ -213,97 +205,93 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_
    using CGridDesc_M_N     = remove_cvref_t<decltype(ABCGridDescs{}[I2])>;

    // GridwiseGemm
-    using GridwiseGemm = GridwiseGemm_k0mk1_k0nk1_mn_xdl_cshuffle_v1<
+    using GridwiseGemm = GridwiseGemm_bk0mk1_bk0nk1_mn_xdlops_v2r4r2<
+        BlockSize,
        ADataType, // TODO: distinguish A/B datatype
-        GemmAccDataType,
-        CShuffleDataType,
+        AccDataType,
        CDataType,
+        InMemoryDataOperationEnum::Set,
+        AGridDesc_K0_M_K1,
+        BGridDesc_K0_N_K1,
+        CGridDesc_M_N,
        AElementwiseOperation,
        BElementwiseOperation,
        CElementwiseOperation,
-        InMemoryDataOperationEnum::Set,
-        AGridDesc_AK0_M_AK1,
-        BGridDesc_BK0_N_BK1,
-        CGridDesc_M_N,
-        NumGemmKPrefetchStage,
-        BlockSize,
        MPerBlock,
        NPerBlock,
-        KPerBlock,
-        AK1,
-        BK1,
-        MPerXDL,
-        NPerXDL,
+        K0PerBlock,
+        MPerXdl,
+        NPerXdl,
+        K1,
        MXdlPerWave,
        NXdlPerWave,
-        ABlockTransferThreadClusterLengths_AK0_M_AK1,
+        ABlockTransferThreadClusterLengths_K0_M_K1,
        ABlockTransferThreadClusterArrangeOrder,
        ABlockTransferSrcAccessOrder,
        ABlockTransferSrcVectorDim,
        ABlockTransferSrcScalarPerVector,
-        ABlockTransferDstScalarPerVector_AK1,
-        false,
-        ABlockLdsExtraM,
-        BBlockTransferThreadClusterLengths_BK0_N_BK1,
+        ABlockTransferDstScalarPerVector_K1,
+        false, // AThreadTransferSrcResetCoordinateAfterRun,
+        ABlockLdsAddExtraM,
+        BBlockTransferThreadClusterLengths_K0_N_K1,
        BBlockTransferThreadClusterArrangeOrder,
        BBlockTransferSrcAccessOrder,
        BBlockTransferSrcVectorDim,
        BBlockTransferSrcScalarPerVector,
-        BBlockTransferDstScalarPerVector_BK1,
-        false,
-        BBlockLdsExtraN,
+        BBlockTransferDstScalarPerVector_K1,
+        false, // BThreadTransferSrcResetCoordinateAfterRun,
+        BBlockLdsAddExtraN,
        CShuffleMXdlPerWavePerShuffle,
        CShuffleNXdlPerWavePerShuffle,
+        CBlockTransferScalarPerVector_NWaveNPerXdl,
        CBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock>;
-    CShuffleBlockTransferScalarPerVector_NPerBlock > ;

-    using GridwiseGemmAtomicAdd = GridwiseGemm_k0mk1_k0nk1_mn_xdl_cshuffle_v1<
+    using GridwiseGemmAtomicAdd = GridwiseGemm_bk0mk1_bk0nk1_mn_xdlops_v2r4r2<
+        BlockSize,
        ADataType, // TODO: distinguish A/B datatype
-        GemmAccDataType,
-        CShuffleDataType,
+        AccDataType,
        CDataType,
+        InMemoryDataOperationEnum::AtomicAdd,
+        AGridDesc_K0_M_K1,
+        BGridDesc_K0_N_K1,
+        CGridDesc_M_N,
        AElementwiseOperation,
        BElementwiseOperation,
        CElementwiseOperation,
-        InMemoryDataOperationEnum::AtomicAdd,
-        AGridDesc_AK0_M_AK1,
-        BGridDesc_BK0_N_BK1,
-        CGridDesc_M_N,
-        NumGemmKPrefetchStage,
-        BlockSize,
        MPerBlock,
        NPerBlock,
-        KPerBlock,
-        AK1,
-        BK1,
-        MPerXDL,
-        NPerXDL,
+        K0PerBlock,
+        MPerXdl,
+        NPerXdl,
+        K1,
        MXdlPerWave,
        NXdlPerWave,
-        ABlockTransferThreadClusterLengths_AK0_M_AK1,
+        ABlockTransferThreadClusterLengths_K0_M_K1,
        ABlockTransferThreadClusterArrangeOrder,
        ABlockTransferSrcAccessOrder,
        ABlockTransferSrcVectorDim,
        ABlockTransferSrcScalarPerVector,
-        ABlockTransferDstScalarPerVector_AK1,
-        false,
-        ABlockLdsExtraM,
-        BBlockTransferThreadClusterLengths_BK0_N_BK1,
+        ABlockTransferDstScalarPerVector_K1,
+        false, // AThreadTransferSrcResetCoordinateAfterRun,
+        ABlockLdsAddExtraM,
+        BBlockTransferThreadClusterLengths_K0_N_K1,
        BBlockTransferThreadClusterArrangeOrder,
        BBlockTransferSrcAccessOrder,
        BBlockTransferSrcVectorDim,
        BBlockTransferSrcScalarPerVector,
-        BBlockTransferDstScalarPerVector_BK1,
-        false,
-        BBlockLdsExtraN,
+        BBlockTransferDstScalarPerVector_K1,
+        false, // BThreadTransferSrcResetCoordinateAfterRun,
+        BBlockLdsAddExtraN,
        CShuffleMXdlPerWavePerShuffle,
        CShuffleNXdlPerWavePerShuffle,
+        CBlockTransferScalarPerVector_NWaveNPerXdl,
        CBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock>;
-    CShuffleBlockTransferScalarPerVector_NPerBlock > ;
+    // Argument
+    using CGridDesc_MBlock_MPerBlock_NBlock_NPerBlock =
+        decltype(GridwiseGemm::MakeCGridDesc_MBlock_MPerBlock_NBlock_NPerBlock(CGridDesc_M_N{}));

    using Block2CTileMap =
-        decltype(BatchedGemmUtil::MakeBlock2CTileMap<MPerBlock, NPerBlock>(1, 1, 1));
-
+        decltype(GridwiseGemm::MakeCBlockClusterAdaptor(CGridDesc_M_N{}, 1, 1, 1));
    struct Argument : public BaseArgument
    {
        Argument(const InDataType* p_in_grid,
@@ -328,8 +316,8 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_
            : p_a_grid_{p_out_grid},
              p_b_grid_{p_in_grid},
              p_c_grid_{p_wei_grid},
-              a_grid_desc_k0_m_k1_{},
-              b_grid_desc_k0_n_k1_{},
+              a_grid_desc_kbatch_k0_m_k1_{},
+              b_grid_desc_kbatch_k0_n_k1_{},
              c_grid_desc_m_n_{},
              c_grid_desc_mblock_mperblock_nblock_nperblock_{},
              block_2_ctile_map_{},
@@ -361,36 +349,31 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_
                                                                          input_right_pads,
                                                                          k_batch_);

-            a_grid_desc_k0_m_k1_ = descs[I0];
-            b_grid_desc_k0_n_k1_ = descs[I1];
-            c_grid_desc_m_n_     = descs[I2];
+            a_grid_desc_kbatch_k0_m_k1_ = descs[I0];
+            b_grid_desc_kbatch_k0_n_k1_ = descs[I1];
+            c_grid_desc_m_n_            = descs[I2];

-            if(GridwiseGemm::CheckValidity(
-                   a_grid_desc_k0_m_k1_, b_grid_desc_k0_n_k1_, c_grid_desc_m_n_, M01_, N01_))
+            if(GridwiseGemm::CheckValidity(a_grid_desc_kbatch_k0_m_k1_,
+                                           b_grid_desc_kbatch_k0_n_k1_,
+                                           c_grid_desc_m_n_,
+                                           M01_,
+                                           N01_))
            {
                c_grid_desc_mblock_mperblock_nblock_nperblock_ =
-                    GridwiseGemm::MakeCGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock(
-                        c_grid_desc_m_n_);
-
-                block_2_ctile_map_ = BatchedGemmUtil::MakeBlock2CTileMap<MPerBlock, NPerBlock>(
-                    k_batch_,
-                    c_grid_desc_m_n_.GetLength(I0),
-                    c_grid_desc_m_n_.GetLength(I1),
-                    M01_,
-                    N01_);
+                    GridwiseGemm::MakeCGridDesc_MBlock_MPerBlock_NBlock_NPerBlock(c_grid_desc_m_n_);
+
+                block_2_ctile_map_ =
+                    GridwiseGemm::MakeCBlockClusterAdaptor(c_grid_desc_m_n_, M01, N01, k_batch_);
            }
        }

        const ADataType* p_a_grid_;
        const BDataType* p_b_grid_;
        CDataType* p_c_grid_;
-        index_t k_batch_;
-        AGridDesc_K0_M_K1 a_grid_desc_k0_m_k1_;
-        BGridDesc_K0_N_K1 b_grid_desc_k0_n_k1_;
+        AGridDesc_K0_M_K1 a_grid_desc_kbatch_k0_m_k1_;
+        BGridDesc_K0_N_K1 b_grid_desc_kbatch_k0_n_k1_;
        CGridDesc_M_N c_grid_desc_m_n_;
-        typename GridwiseGemm::CGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock
-            c_grid_desc_mblock_mperblock_nblock_nperblock_;
-        BatchedGemmUtil::ComputePtrOffsetOfStridedBatch compute_ptr_offset_of_batch_;
+        CGridDesc_MBlock_MPerBlock_NBlock_NPerBlock c_grid_desc_mblock_mperblock_nblock_nperblock_;
        Block2CTileMap block_2_ctile_map_;
        index_t M01_;
        index_t N01_;
@@ -416,14 +399,17 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_

        void ShowInfo(const Argument& arg)
        {
-            std::cout << "k_batch = " << arg.BatchCount_ << "\n";
-            std::cout << "arg.a_grid_desc_k0_m_k1_{" << arg.a_grid_desc_k0_m_k1_.GetLength(I0)
-                      << ", " << arg.a_grid_desc_k0_m_k1_.GetLength(I1) << ", "
-                      << arg.a_grid_desc_k0_m_k1_.GetLength(I2) << "}" << std::endl;
-
-            std::cout << "arg.b_grid_desc_k0_n_k1_{" << arg.b_grid_desc_k0_n_k1_.GetLength(I0)
-                      << ", " << arg.b_grid_desc_k0_n_k1_.GetLength(I1) << ", "
-                      << arg.b_grid_desc_k0_n_k1_.GetLength(I2) << "}" << std::endl;
+            std::cout << "arg.a_grid_desc_kbatch_k0_m_k1_{"
+                      << arg.a_grid_desc_kbatch_k0_m_k1_.GetLength(I0) << ", "
+                      << arg.a_grid_desc_kbatch_k0_m_k1_.GetLength(I1) << ", "
+                      << arg.a_grid_desc_kbatch_k0_m_k1_.GetLength(I2) << ", "
+                      << arg.a_grid_desc_kbatch_k0_m_k1_.GetLength(I3) << "}" << std::endl;
+
+            std::cout << "arg.b_grid_desc_kbatch_k0_n_k1_{"
+                      << arg.b_grid_desc_kbatch_k0_n_k1_.GetLength(I0) << ", "
+                      << arg.b_grid_desc_kbatch_k0_n_k1_.GetLength(I1) << ", "
+                      << arg.b_grid_desc_kbatch_k0_n_k1_.GetLength(I2) << ", "
+                      << arg.b_grid_desc_kbatch_k0_n_k1_.GetLength(I3) << "}" << std::endl;

            std::cout << "arg.c_grid_desc_m_n_{ " << arg.c_grid_desc_m_n_.GetLength(I0) << ", "
                      << arg.c_grid_desc_m_n_.GetLength(I1) << "}" << std::endl;
@@ -432,8 +418,8 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_
        float Run(const Argument& arg, int nrepeat = 1)
        {
            ShowInfo(arg);
-            if(!GridwiseGemm::CheckValidity(arg.a_grid_desc_k0_m_k1_,
-                                            arg.b_grid_desc_k0_n_k1_,
+            if(!GridwiseGemm::CheckValidity(arg.a_grid_desc_kbatch_k0_m_k1_,
+                                            arg.b_grid_desc_kbatch_k0_n_k1_,
                                            arg.c_grid_desc_m_n_,
                                            arg.M01_,
                                            arg.N01_))
@@ -441,11 +427,10 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_
                throw std::runtime_error(
                    "wrong! GridwiseGemm_km_kn_m0m1n0n1_xdlops_v3r1 has invalid setting");
            }
-            const auto k_batch = arg.k_batch_;
-            const index_t grid_size =
-                GridwiseGemm::CalculateGridSize(arg.c_grid_desc_m_n_) * k_batch;
+            const auto kbatch       = arg.a_grid_desc_kbatch_k0_m_k1_.GetLength(I0);
+            const index_t grid_size = GridwiseGemm::CalculateGridSize(arg.c_grid_desc_m_n_, kbatch);

-            const auto K0 = arg.a_grid_desc_ak0_m_ak1_.GetLength(I0);
+            const auto K0 = arg.a_grid_desc_kbatch_k0_m_k1_.GetLength(I1);

            const bool has_main_k0_block_loop = GridwiseGemm::CalculateHasMainK0BlockLoop(K0);

@@ -463,8 +448,8 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_
                                               arg.p_a_grid_,
                                               arg.p_b_grid_,
                                               arg.p_c_grid_,
-                                               arg.a_grid_desc_k0_m_k1_,
-                                               arg.b_grid_desc_k0_n_k1_,
+                                               arg.a_grid_desc_kbatch_k0_m_k1_,
+                                               arg.b_grid_desc_kbatch_k0_n_k1_,
                                               arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
                                               arg.a_element_op_,
                                               arg.b_element_op_,
@@ -472,7 +457,7 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_
                                               arg.block_2_ctile_map_);
                }

-                if(k_batch > 1 || nrepeat <= 0)
+                if(kbatch > 1 || nrepeat <= 0)
                {
                    hipGetErrorString(hipMemset(
                        arg.p_c_grid_,
@@ -487,8 +472,8 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_
                                  arg.p_a_grid_,
                                  arg.p_b_grid_,
                                  arg.p_c_grid_,
-                                  arg.a_grid_desc_k0_m_k1_,
-                                  arg.b_grid_desc_k0_n_k1_,
+                                  arg.a_grid_desc_kbatch_k0_m_k1_,
+                                  arg.b_grid_desc_kbatch_k0_n_k1_,
                                  arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
                                  arg.a_element_op_,
                                  arg.b_element_op_,
@@ -499,38 +484,36 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_

            if(has_main_k0_block_loop)
            {
-                if(k_batch == 1)
+                if(kbatch == 1)
                {
-                    const auto kernel = kernel_batched_gemm_xdl_cshuffle_v1<
+                    const auto kernel = kernel_gemm_xdlops_v2r4r2<
                        GridwiseGemm,
                        ADataType, // TODO: distiguish A/B datatype
                        CDataType,
-                        AElementwiseOperation,
-                        BElementwiseOperation,
-                        CElementwiseOperation,
-                        DeviceOp::AGridDesc_AK0_M_AK1,
-                        DeviceOp::BGridDesc_BK0_N_BK1,
-                        typename GridwiseGemm::CGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock,
-                        ComputePtrOffsetOfStridedBatch,
-                        Block2CTileMap,
+                        remove_reference_t<DeviceOp::AGridDesc_K0_M_K1>,
+                        remove_reference_t<DeviceOp::BGridDesc_K0_N_K1>,
+                        remove_reference_t<DeviceOp::CGridDesc_MBlock_MPerBlock_NBlock_NPerBlock>,
+                        OutElementwiseOperation,
+                        InElementwiseOperation,
+                        WeiElementwiseOperation,
+                        remove_reference_t<DeviceOp::Block2CTileMap>,
                        true>;

                    Run(kernel);
                }
                else
                {
-                    const auto kernel = kernel_batched_gemm_xdl_cshuffle_v1<
+                    const auto kernel = kernel_gemm_xdlops_v2r4r2<
                        GridwiseGemmAtomicAdd,
                        ADataType, // TODO: distiguish A/B datatype
                        CDataType,
-                        AElementwiseOperation,
-                        BElementwiseOperation,
-                        CElementwiseOperation,
-                        DeviceOp::AGridDesc_AK0_M_AK1,
-                        DeviceOp::BGridDesc_BK0_N_BK1,
-                        typename GridwiseGemm::CGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock,
-                        ComputePtrOffsetOfStridedBatch,
-                        Block2CTileMap,
+                        remove_reference_t<DeviceOp::AGridDesc_K0_M_K1>,
+                        remove_reference_t<DeviceOp::BGridDesc_K0_N_K1>,
+                        remove_reference_t<DeviceOp::CGridDesc_MBlock_MPerBlock_NBlock_NPerBlock>,
+                        OutElementwiseOperation,
+                        InElementwiseOperation,
+                        WeiElementwiseOperation,
+                        remove_reference_t<DeviceOp::Block2CTileMap>,
                        true>;

                    Run(kernel);
@@ -538,38 +521,36 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_
            }
            else
            {
-                if(k_batch == 1)
+                if(kbatch == 1)
                {
-                    const auto kernel = kernel_batched_gemm_xdl_cshuffle_v1<
+                    const auto kernel = kernel_gemm_xdlops_v2r4r2<
                        GridwiseGemm,
                        ADataType, // TODO: distiguish A/B datatype
                        CDataType,
-                        AElementwiseOperation,
-                        BElementwiseOperation,
-                        CElementwiseOperation,
-                        DeviceOp::AGridDesc_AK0_M_AK1,
-                        DeviceOp::BGridDesc_BK0_N_BK1,
-                        typename GridwiseGemm::CGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock,
-                        ComputePtrOffsetOfStridedBatch,
-                        Block2CTileMap,
+                        remove_reference_t<DeviceOp::AGridDesc_K0_M_K1>,
+                        remove_reference_t<DeviceOp::BGridDesc_K0_N_K1>,
+                        remove_reference_t<DeviceOp::CGridDesc_MBlock_MPerBlock_NBlock_NPerBlock>,
+                        OutElementwiseOperation,
+                        InElementwiseOperation,
+                        WeiElementwiseOperation,
+                        remove_reference_t<DeviceOp::Block2CTileMap>,
                        false>;

                    Run(kernel);
                }
                else
                {
-                    const auto kernel = kernel_batched_gemm_xdl_cshuffle_v1<
+                    const auto kernel = kernel_gemm_xdlops_v2r4r2<
                        GridwiseGemmAtomicAdd,
                        ADataType, // TODO: distiguish A/B datatype
                        CDataType,
-                        AElementwiseOperation,
-                        BElementwiseOperation,
-                        CElementwiseOperation,
-                        DeviceOp::AGridDesc_AK0_M_AK1,
-                        DeviceOp::BGridDesc_BK0_N_BK1,
-                        typename GridwiseGemm::CGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock,
-                        ComputePtrOffsetOfStridedBatch,
-                        Block2CTileMap,
+                        remove_reference_t<DeviceOp::AGridDesc_K0_M_K1>,
+                        remove_reference_t<DeviceOp::BGridDesc_K0_N_K1>,
+                        remove_reference_t<DeviceOp::CGridDesc_MBlock_MPerBlock_NBlock_NPerBlock>,
+                        OutElementwiseOperation,
+                        InElementwiseOperation,
+                        WeiElementwiseOperation,
+                        remove_reference_t<DeviceOp::Block2CTileMap>,
                        false>;

                    Run(kernel);
@@ -602,14 +583,14 @@ struct DeviceConv2dBwdWeightXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_
        }

        // vector store C matrix into global memory
-        if(!(arg.Conv_C_ % CShuffleBlockTransferScalarPerVector_NPerBlock == 0))
+        if(!(arg.Conv_C_ % CBlockTransferScalarPerVector_NWaveNPerXdl == 0))
        {
            return false;
        }

        // Gridwise GEMM size
-        return GridwiseGemm::CheckValidity(arg.a_grid_desc_k0_m_k1_,
-                                           arg.b_grid_desc_k0_n_k1_,
+        return GridwiseGemm::CheckValidity(arg.a_grid_desc_kbatch_k0_m_k1_,
+                                           arg.b_grid_desc_kbatch_k0_n_k1_,
                                           arg.c_grid_desc_m_n_,
                                           arg.M01_,
                                           arg.N01_);

--- a/profiler/CMakeLists.txt
+++ b/profiler/CMakeLists.txt
@@ -24,40 +24,40 @@ include_directories(BEFORE
 set(PROFILER_SOURCE
    src/profiler.cpp
    src/profile_gemm.cpp
-    # src/profile_gemm_bias_2d.cpp
-    # src/profile_gemm_bias_relu.cpp
-    # src/profile_gemm_bias_relu_add.cpp
-    # src/profile_gemm_reduce.cpp
-    # src/profile_batched_gemm.cpp
-    # src/profile_conv_fwd_bias_relu.cpp
-    # src/profile_conv_fwd_bias_relu_add.cpp
-    # src/profile_conv_fwd_bias_relu_atomic_add.cpp
-    # src/profile_convnd_fwd.cpp
-    # src/profile_convnd_bwd_data.cpp
-    # src/profile_reduce.cpp
-    # src/profile_grouped_gemm.cpp
-    # src/profile_conv_bwd_weight.cpp
-    # src/profile_batched_gemm_reduce.cpp
+    src/profile_gemm_bias_2d.cpp
+    src/profile_gemm_bias_relu.cpp
+    src/profile_gemm_bias_relu_add.cpp
+    src/profile_gemm_reduce.cpp
+    src/profile_batched_gemm.cpp
+    src/profile_conv_fwd_bias_relu.cpp
+    src/profile_conv_fwd_bias_relu_add.cpp
+    src/profile_conv_fwd_bias_relu_atomic_add.cpp
+    src/profile_convnd_fwd.cpp
+    src/profile_convnd_bwd_data.cpp
+    src/profile_reduce.cpp
+    src/profile_grouped_gemm.cpp
+    src/profile_conv_bwd_weight.cpp
+    src/profile_batched_gemm_reduce.cpp
 )

 add_executable(ckProfiler ${PROFILER_SOURCE})

 target_link_libraries(ckProfiler PRIVATE host_tensor)
-# target_link_libraries(ckProfiler PRIVATE conv_fwd_util)
-# target_link_libraries(ckProfiler PRIVATE device_gemm_reduce_instance)
+target_link_libraries(ckProfiler PRIVATE conv_fwd_util)
+target_link_libraries(ckProfiler PRIVATE device_gemm_reduce_instance)
 target_link_libraries(ckProfiler PRIVATE device_gemm_instance)
-# target_link_libraries(ckProfiler PRIVATE device_gemm_bias2d_instance)
-# target_link_libraries(ckProfiler PRIVATE device_gemm_bias_relu_instance)
-# target_link_libraries(ckProfiler PRIVATE device_gemm_bias_relu_add_instance)
-# target_link_libraries(ckProfiler PRIVATE device_batched_gemm_instance)
-# target_link_libraries(ckProfiler PRIVATE device_conv1d_fwd_instance)
-# target_link_libraries(ckProfiler PRIVATE device_conv2d_fwd_instance)
-# target_link_libraries(ckProfiler PRIVATE device_conv3d_fwd_instance)
-# target_link_libraries(ckProfiler PRIVATE device_conv2d_fwd_bias_relu_instance)
-# target_link_libraries(ckProfiler PRIVATE device_conv2d_fwd_bias_relu_add_instance)
-# target_link_libraries(ckProfiler PRIVATE device_conv2d_fwd_bias_relu_atomic_add_instance)
-# target_link_libraries(ckProfiler PRIVATE device_convnd_bwd_data_instance)
-# target_link_libraries(ckProfiler PRIVATE device_reduce_instance)
-# target_link_libraries(ckProfiler PRIVATE device_grouped_gemm_instance)
-# target_link_libraries(ckProfiler PRIVATE device_conv2d_bwd_weight_instance)
-# target_link_libraries(ckProfiler PRIVATE device_batched_gemm_reduce_instance)
+target_link_libraries(ckProfiler PRIVATE device_gemm_bias2d_instance)
+target_link_libraries(ckProfiler PRIVATE device_gemm_bias_relu_instance)
+target_link_libraries(ckProfiler PRIVATE device_gemm_bias_relu_add_instance)
+target_link_libraries(ckProfiler PRIVATE device_batched_gemm_instance)
+target_link_libraries(ckProfiler PRIVATE device_conv1d_fwd_instance)
+target_link_libraries(ckProfiler PRIVATE device_conv2d_fwd_instance)
+target_link_libraries(ckProfiler PRIVATE device_conv3d_fwd_instance)
+target_link_libraries(ckProfiler PRIVATE device_conv2d_fwd_bias_relu_instance)
+target_link_libraries(ckProfiler PRIVATE device_conv2d_fwd_bias_relu_add_instance)
+target_link_libraries(ckProfiler PRIVATE device_conv2d_fwd_bias_relu_atomic_add_instance)
+target_link_libraries(ckProfiler PRIVATE device_convnd_bwd_data_instance)
+target_link_libraries(ckProfiler PRIVATE device_reduce_instance)
+target_link_libraries(ckProfiler PRIVATE device_grouped_gemm_instance)
+target_link_libraries(ckProfiler PRIVATE device_conv2d_bwd_weight_instance)
+target_link_libraries(ckProfiler PRIVATE device_batched_gemm_reduce_instance)
--- a/profiler/src/profiler.cpp
+++ b/profiler/src/profiler.cpp
@@ -7,19 +7,19 @@
 #include "profile_convnd_fwd.hpp"

 int profile_gemm(int, char*[]);
-// int profile_gemm_bias_2d(int, char*[]);
-// int profile_gemm_bias_relu(int, char*[]);
-// int profile_gemm_bias_relu_add(int, char*[]);
-// int profile_gemm_reduce(int, char*[]);
-// int profile_batched_gemm(int, char*[]);
-// int profile_grouped_gemm(int, char*[]);
-// int profile_conv_fwd_bias_relu(int, char*[]);
-// int profile_conv_fwd_bias_relu_add(int, char*[]);
-// int profile_conv_fwd_bias_relu_atomic_add(int, char*[]);
-// int profile_convnd_bwd_data(int, char*[], int);
-// int profile_reduce(int, char*[]);
-// int profile_conv_bwd_weight(int, char*[]);
-// int profile_batched_gemm_reduce(int, char*[]);
+int profile_gemm_bias_2d(int, char*[]);
+int profile_gemm_bias_relu(int, char*[]);
+int profile_gemm_bias_relu_add(int, char*[]);
+int profile_gemm_reduce(int, char*[]);
+int profile_batched_gemm(int, char*[]);
+int profile_grouped_gemm(int, char*[]);
+int profile_conv_fwd_bias_relu(int, char*[]);
+int profile_conv_fwd_bias_relu_add(int, char*[]);
+int profile_conv_fwd_bias_relu_atomic_add(int, char*[]);
+int profile_convnd_bwd_data(int, char*[], int);
+int profile_reduce(int, char*[]);
+int profile_conv_bwd_weight(int, char*[]);
+int profile_batched_gemm_reduce(int, char*[]);

 int main(int argc, char* argv[])
 {
@@ -27,70 +27,70 @@ int main(int argc, char* argv[])
    {
        return profile_gemm(argc, argv);
    }
-    // else if(strcmp(argv[1], "gemm_bias_2d") == 0)
-    // {
-    //     return profile_gemm_bias_2d(argc, argv);
-    // }
-    // else if(strcmp(argv[1], "gemm_bias_relu") == 0)
-    // {
-    //     return profile_gemm_bias_relu(argc, argv);
-    // }
-    // else if(strcmp(argv[1], "gemm_bias_relu_add") == 0)
-    // {
-    //     return profile_gemm_bias_relu_add(argc, argv);
-    // }
-    // else if(strcmp(argv[1], "gemm_reduce") == 0)
-    // {
-    //     return profile_gemm_reduce(argc, argv);
-    // }
-    // else if(strcmp(argv[1], "batched_gemm") == 0)
-    // {
-    //     return profile_batched_gemm(argc, argv);
-    // }
-    // else if(strcmp(argv[1], "batched_gemm_reduce") == 0)
-    // {
-    //     return profile_batched_gemm_reduce(argc, argv);
-    // }
-    // else if(strcmp(argv[1], "grouped_gemm") == 0)
-    // {
-    //     profile_grouped_gemm(argc, argv);
-    // }
-    // else if(strcmp(argv[1], "conv_fwd") == 0)
-    // {
-    //     return ck::profiler::profile_convnd_fwd(argc, argv);
-    // }
-    // else if(strcmp(argv[1], "conv_fwd_bias_relu") == 0)
-    // {
-    //     return profile_conv_fwd_bias_relu(argc, argv);
-    // }
-    // else if(strcmp(argv[1], "conv_fwd_bias_relu_add") == 0)
-    // {
-    //     return profile_conv_fwd_bias_relu_add(argc, argv);
-    // }
-    // else if(strcmp(argv[1], "conv_fwd_bias_relu_atomic_add") == 0)
-    // {
-    //     return profile_conv_fwd_bias_relu_atomic_add(argc, argv);
-    // }
-    // else if(strcmp(argv[1], "conv1d_bwd_data") == 0)
-    // {
-    //     return profile_convnd_bwd_data(argc, argv, 1);
-    // }
-    // else if(strcmp(argv[1], "conv2d_bwd_data") == 0)
-    // {
-    //     return profile_convnd_bwd_data(argc, argv, 2);
-    // }
-    // else if(strcmp(argv[1], "conv3d_bwd_data") == 0)
-    // {
-    //     return profile_convnd_bwd_data(argc, argv, 3);
-    // }
-    // else if(strcmp(argv[1], "reduce") == 0)
-    // {
-    //     return profile_reduce(argc, argv);
-    // }
-    // else if(strcmp(argv[1], "conv2d_bwd_weight") == 0)
-    // {
-    //     return profile_conv_bwd_weight(argc, argv);
-    // }
+    else if(strcmp(argv[1], "gemm_bias_2d") == 0)
+    {
+        return profile_gemm_bias_2d(argc, argv);
+    }
+    else if(strcmp(argv[1], "gemm_bias_relu") == 0)
+    {
+        return profile_gemm_bias_relu(argc, argv);
+    }
+    else if(strcmp(argv[1], "gemm_bias_relu_add") == 0)
+    {
+        return profile_gemm_bias_relu_add(argc, argv);
+    }
+    else if(strcmp(argv[1], "gemm_reduce") == 0)
+    {
+        return profile_gemm_reduce(argc, argv);
+    }
+    else if(strcmp(argv[1], "batched_gemm") == 0)
+    {
+        return profile_batched_gemm(argc, argv);
+    }
+    else if(strcmp(argv[1], "batched_gemm_reduce") == 0)
+    {
+        return profile_batched_gemm_reduce(argc, argv);
+    }
+    else if(strcmp(argv[1], "grouped_gemm") == 0)
+    {
+        profile_grouped_gemm(argc, argv);
+    }
+    else if(strcmp(argv[1], "conv_fwd") == 0)
+    {
+        return ck::profiler::profile_convnd_fwd(argc, argv);
+    }
+    else if(strcmp(argv[1], "conv_fwd_bias_relu") == 0)
+    {
+        return profile_conv_fwd_bias_relu(argc, argv);
+    }
+    else if(strcmp(argv[1], "conv_fwd_bias_relu_add") == 0)
+    {
+        return profile_conv_fwd_bias_relu_add(argc, argv);
+    }
+    else if(strcmp(argv[1], "conv_fwd_bias_relu_atomic_add") == 0)
+    {
+        return profile_conv_fwd_bias_relu_atomic_add(argc, argv);
+    }
+    else if(strcmp(argv[1], "conv1d_bwd_data") == 0)
+    {
+        return profile_convnd_bwd_data(argc, argv, 1);
+    }
+    else if(strcmp(argv[1], "conv2d_bwd_data") == 0)
+    {
+        return profile_convnd_bwd_data(argc, argv, 2);
+    }
+    else if(strcmp(argv[1], "conv3d_bwd_data") == 0)
+    {
+        return profile_convnd_bwd_data(argc, argv, 3);
+    }
+    else if(strcmp(argv[1], "reduce") == 0)
+    {
+        return profile_reduce(argc, argv);
+    }
+    else if(strcmp(argv[1], "conv2d_bwd_weight") == 0)
+    {
+        return profile_conv_bwd_weight(argc, argv);
+    }
    else
    {
        // clang-format off