format

0c9cdbce · aska-0096 · 0517cf08 · 0c9cdbce · 0c9cdbce · 0c9cdbce
Commit 0c9cdbce authored Jan 30, 2023 by aska-0096
4 changed files
--- a/example/29_batched_gemm_bias_e_permute/batched_gemm_bias_e_permute_wmma_fp16.cpp
+++ b/example/29_batched_gemm_bias_e_permute/batched_gemm_bias_e_permute_wmma_fp16.cpp
@@ -49,51 +49,50 @@ static constexpr auto ABSpec = ck::tensor_operation::device::TensorSpecializatio
 static constexpr auto DESpec = ck::tensor_operation::device::TensorSpecialization::Default;
 using DeviceOpInstanceKKNN =
-    ck::tensor_operation::device::DeviceBatchedContractionMultipleD_Wmma_CShuffle<
+    ck::tensor_operation::device::DeviceBatchedContractionMultipleD_Wmma_CShuffle<NumDimG,
-        NumDimG,
+                                                                                  NumDimM,
-        NumDimM,
+                                                                                  NumDimN,
-        NumDimN,
+                                                                                  NumDimK,
-        NumDimK,
+                                                                                  ADataType,
-        ADataType,
+                                                                                  BDataType,
-        BDataType,
+                                                                                  DsDataType,
-        DsDataType,
+                                                                                  EDataType,
-        EDataType,
+                                                                                  AccDataType,
-        AccDataType,
+                                                                                  CShuffleDataType,
-        CShuffleDataType,
+                                                                                  AElementOp,
-        AElementOp,
+                                                                                  BElementOp,
-        BElementOp,
+                                                                                  CDEElementOp,
-        CDEElementOp,
+                                                                                  GemmSpec,
-        GemmSpec,
+                                                                                  ABSpec,
-        ABSpec,
+                                                                                  ABSpec,
-        ABSpec,
+                                                                                  DESpec,
-        DESpec,
+                                                                                  256,
-        256,
+                                                                                  128,
-        128,
+                                                                                  256,
-        256,
+                                                                                  8,
-        8,
+                                                                                  8,
-        8,
+                                                                                  16,
-        16,
+                                                                                  16,
-        16,
+                                                                                  4,
-        4,
+                                                                                  4,
-        4,
+                                                                                  S<4, 64, 1>,
-        S<4, 64, 1>,
+                                                                                  S<1, 0, 2>,
-        S<1, 0, 2>,
+                                                                                  S<1, 0, 2>,
-        S<1, 0, 2>,
+                                                                                  2,
-        2,
+                                                                                  8,
-        8,
+                                                                                  8,
-        8,
+                                                                                  true,
-        true,
+                                                                                  S<4, 64, 1>,
-        S<4, 64, 1>,
+                                                                                  S<1, 0, 2>,
-        S<1, 0, 2>,
+                                                                                  S<1, 0, 2>,
-        S<1, 0, 2>,
+                                                                                  2,
-        2,
+                                                                                  8,
-        8,
+                                                                                  8,
-        8,
+                                                                                  true,
-        true,
+                                                                                  1,
-        1,
+                                                                                  1,
-        1,
+                                                                                  S<1, 32, 1, 8>,
-        S<1, 32, 1, 8>,
+                                                                                  8>;
-        8>;
 using DeviceOpInstance = DeviceOpInstanceKKNN;
@@ -311,7 +310,8 @@ int main(int argc, char* argv[])
    DeviceMem a_device_buf(sizeof(ADataType) * a_gs_ms_ks.mDesc.GetElementSpaceSize());
    DeviceMem b_device_buf(sizeof(BDataType) * b_gs_ns_ks.mDesc.GetElementSpaceSize());
    DeviceMem d_device_buf(sizeof(DDataType) * d_gs_ms_ns.mDesc.GetElementSpaceSize());
-    DeviceMem e_device_buf(sizeof(EDataType) * e_gs_ms_ns_device_result.mDesc.GetElementSpaceSize());
+    DeviceMem e_device_buf(sizeof(EDataType) *
+                           e_gs_ms_ns_device_result.mDesc.GetElementSpaceSize());
    a_device_buf.ToDevice(a_gs_ms_ks.mData.data());
    b_device_buf.ToDevice(b_gs_ns_ks.mData.data());
@@ -363,7 +363,7 @@ int main(int argc, char* argv[])
    ck::index_t K = ck::accumulate_n<ck::index_t>(
        a_gs_ms_ks_lengths.begin() + NumDimG + NumDimM, NumDimK, 1, std::multiplies<>{});
-    std::cout<<"GMNK="<<G<<", "<<M<<", "<<N<<", "<<K<<std::endl;
+    std::cout << "GMNK=" << G << ", " << M << ", " << N << ", " << K << std::endl;
    std::size_t flop      = std::size_t(2) * G * M * N * K;
    std::size_t num_btype = sizeof(ADataType) * G * M * K + sizeof(BDataType) * G * K * N +
                            sizeof(DDataType) * G * M * N + sizeof(EDataType) * G * M * N;

--- a/include/ck/tensor_operation/gpu/device/impl/device_batched_contraction_multiple_d_wmma_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_batched_contraction_multiple_d_wmma_cshuffle.hpp
@@ -393,10 +393,10 @@ struct DeviceBatchedContractionMultipleD_Wmma_CShuffle
    }
    // Gridwise descriptor, mapping to whole given provblem.
-    using AGridDesc_M_K    = decltype(MakeAGridDescriptor_M_K({}, {}));
+    using AGridDesc_M_K  = decltype(MakeAGridDescriptor_M_K({}, {}));
-    using BGridDesc_N_K    = decltype(MakeBGridDescriptor_N_K({}, {}));
+    using BGridDesc_N_K  = decltype(MakeBGridDescriptor_N_K({}, {}));
-    using DsGridDesc_M_N   = remove_cvref_t<decltype(MakeDsGridDescriptor_M_N({}, {}))>;
+    using DsGridDesc_M_N = remove_cvref_t<decltype(MakeDsGridDescriptor_M_N({}, {}))>;
-    using EGridDesc_M_N    = decltype(MakeEGridDescriptor_M_N({}, {}));
+    using EGridDesc_M_N  = decltype(MakeEGridDescriptor_M_N({}, {}));
    using DsGridDesc_G_M_N = remove_cvref_t<decltype(MakeDsGridDescriptor_G_M_N({}, {}))>;
    using EGridDesc_G_M_N  = decltype(MakeEGridDescriptor_G_M_N({}, {}));
@@ -604,10 +604,12 @@ struct DeviceBatchedContractionMultipleD_Wmma_CShuffle
                DeviceOp::MakeAGridDescriptor_M_K(a_gs_ms_ks_lengths, a_gs_ms_ks_strides);
            b_grid_desc_n_k_ =
                DeviceOp::MakeBGridDescriptor_N_K(b_gs_ns_ks_lengths, b_gs_ns_ks_strides);
-            ds_grid_desc_m_n_ = DeviceOp::MakeDsGridDescriptor_M_N(ds_gs_ms_ns_lengths, ds_gs_ms_ns_strides);
+            ds_grid_desc_m_n_ =
+                DeviceOp::MakeDsGridDescriptor_M_N(ds_gs_ms_ns_lengths, ds_gs_ms_ns_strides);
-            e_grid_desc_m_n_ = DeviceOp::MakeEGridDescriptor_M_N(e_gs_ms_ns_lengths, e_gs_ms_ns_strides);
+            e_grid_desc_m_n_ =
+                DeviceOp::MakeEGridDescriptor_M_N(e_gs_ms_ns_lengths, e_gs_ms_ns_strides);
            a_grid_desc_k0_m_k1_ = DeviceOp::MakeAGridDescriptor_K0_M_K1(a_grid_desc_m_k_);
            b_grid_desc_k0_n_k1_ = DeviceOp::MakeBGridDescriptor_K0_N_K1(b_grid_desc_n_k_);
@@ -619,8 +621,7 @@ struct DeviceBatchedContractionMultipleD_Wmma_CShuffle
                    ds_grid_desc_m_n_);
            e_grid_desc_mblock_mperblock_nblock_nperblock =
-                GridwiseOp::MakeEGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock(
+                GridwiseOp::MakeEGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock(e_grid_desc_m_n_);
-                    e_grid_desc_m_n_);
            // for sanity check of vector memory access
            a_mz_stride_ = a_gs_ms_ks_strides[NumDimG + NumDimM - 1];
@@ -696,9 +697,11 @@ struct DeviceBatchedContractionMultipleD_Wmma_CShuffle
        {
            const index_t G = arg.e_grid_desc_g_m_n_.GetLength(I0);
-            const index_t grid_size = arg.block_2_ctile_map_.CalculateGridSize(arg.e_grid_desc_m_n_) * G;
+            const index_t grid_size =
+                arg.block_2_ctile_map_.CalculateGridSize(arg.e_grid_desc_m_n_) * G;
-            const auto K = arg.a_grid_desc_k0_m_k1_.GetLength(I0) * arg.a_grid_desc_k0_m_k1_.GetLength(I2);
+            const auto K =
+                arg.a_grid_desc_k0_m_k1_.GetLength(I0) * arg.a_grid_desc_k0_m_k1_.GetLength(I2);
            auto launch_kernel = [&](auto has_main_k_block_loop) {
                constexpr bool has_main_loop = has_main_k_block_loop.value;

--- a/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_d_wmma_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_d_wmma_cshuffle.hpp
@@ -136,8 +136,8 @@ template <index_t NDimSpatial,
          index_t CShuffleNRepeatPerShuffle,
          typename CDEShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
          index_t CDEShuffleBlockTransferScalarPerVector_NPerBlock,
-          index_t NumGemmKPrefetchStage = 1,
+          index_t NumGemmKPrefetchStage   = 1,
-          LoopScheduler LoopSched = make_default_loop_scheduler(),
+          LoopScheduler LoopSched         = make_default_loop_scheduler(),
          ck::PipelineVersion PipelineVer = ck::PipelineVersion::v1>
 struct DeviceGroupedConvFwdMultipleD_Wmma_CShuffle
    : public DeviceGroupedConvFwdMultipleD<NDimSpatial,
@@ -157,10 +157,10 @@ struct DeviceGroupedConvFwdMultipleD_Wmma_CShuffle
    static constexpr index_t NumDTensor = DsDataType::Size();
-    static constexpr auto I0 = Number<0>{};
+    static constexpr auto I0           = Number<0>{};
-    static constexpr auto I1 = Number<1>{};
+    static constexpr auto I1           = Number<1>{};
-    static constexpr auto I2 = Number<2>{};
+    static constexpr auto I2           = Number<2>{};
-    static constexpr auto I3 = Number<3>{};
+    static constexpr auto I3           = Number<3>{};
    static constexpr index_t KPerBlock = K0PerBlock * K1;
    static constexpr auto conv_to_gemm_transformer =
@@ -262,11 +262,11 @@ struct DeviceGroupedConvFwdMultipleD_Wmma_CShuffle
        const auto AK1 = K1;
        const auto AK0 = K / AK1;
-        return transform_tensor_descriptor(
+        return transform_tensor_descriptor(a_grid_desc_m_k,
-            a_grid_desc_m_k,
+                                           make_tuple(make_unmerge_transform(make_tuple(AK0, AK1)),
-            make_tuple(make_unmerge_transform(make_tuple(AK0, AK1)), make_pass_through_transform(M)),
+                                                      make_pass_through_transform(M)),
-            make_tuple(Sequence<1>{}, Sequence<0>{}),
+                                           make_tuple(Sequence<1>{}, Sequence<0>{}),
-            make_tuple(Sequence<0, 2>{}, Sequence<1>{}));
+                                           make_tuple(Sequence<0, 2>{}, Sequence<1>{}));
    }
    // B desc for source in blockwise copy
@@ -280,11 +280,11 @@ struct DeviceGroupedConvFwdMultipleD_Wmma_CShuffle
        const auto BK1 = K1;
        const auto BK0 = K / BK1;
-        return transform_tensor_descriptor(
+        return transform_tensor_descriptor(b_grid_desc_n_k,
-            b_grid_desc_n_k,
+                                           make_tuple(make_unmerge_transform(make_tuple(BK0, BK1)),
-            make_tuple(make_unmerge_transform(make_tuple(BK0, BK1)), make_pass_through_transform(N)),
+                                                      make_pass_through_transform(N)),
-            make_tuple(Sequence<1>{}, Sequence<0>{}),
+                                           make_tuple(Sequence<1>{}, Sequence<0>{}),
-            make_tuple(Sequence<0, 2>{}, Sequence<1>{}));
+                                           make_tuple(Sequence<0, 2>{}, Sequence<1>{}));
    }
    using AGridDesc_AK0_M_AK1 = decltype(DeviceOp::MakeAGridDescriptor_AK0_M_AK1(AGridDesc_M_K{}));
@@ -390,10 +390,8 @@ struct DeviceGroupedConvFwdMultipleD_Wmma_CShuffle
              ds_grid_desc_m_n_{},
              e_grid_desc_m_n_{DeviceOp::MakeEGridDescriptor_M_N<ELayout>(e_g_n_k_wos_lengths,
                                                                          e_g_n_k_wos_strides)},
-              a_grid_desc_ak0_m_ak1_{
+              a_grid_desc_ak0_m_ak1_{DeviceOp::MakeAGridDescriptor_AK0_M_AK1(a_grid_desc_m_k_)},
-                  DeviceOp::MakeAGridDescriptor_AK0_M_AK1(a_grid_desc_m_k_)},
+              b_grid_desc_bk0_n_bk1_{DeviceOp::MakeBGridDescriptor_BK0_N_BK1(b_grid_desc_n_k_)},
-              b_grid_desc_bk0_n_bk1_{
-                  DeviceOp::MakeBGridDescriptor_BK0_N_BK1(b_grid_desc_n_k_)},
              ds_grid_desc_mblock_mperblock_nblock_nperblock_{},
              e_grid_desc_mblock_mperblock_nblock_nperblock_{},
              block_2_etile_map_{GridwiseOp::MakeDefaultBlock2CTileMap(e_grid_desc_m_n_, M01, N01)},
@@ -432,12 +430,12 @@ struct DeviceGroupedConvFwdMultipleD_Wmma_CShuffle
            });
            // D desc
-            ds_grid_desc_m_n_ = DeviceOp::MakeDsGridDescriptor_M_N(ds_g_n_k_wos_lengths, ds_g_n_k_wos_strides);
+            ds_grid_desc_m_n_ =
+                DeviceOp::MakeDsGridDescriptor_M_N(ds_g_n_k_wos_lengths, ds_g_n_k_wos_strides);
            // populate desc for Ds/E
            e_grid_desc_mblock_mperblock_nblock_nperblock_ =
-                GridwiseOp::MakeEGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock(
+                GridwiseOp::MakeEGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock(e_grid_desc_m_n_);
-                    e_grid_desc_m_n_);
            ds_grid_desc_mblock_mperblock_nblock_nperblock_ =
                GridwiseOp::MakeDsGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock(
                    ds_grid_desc_m_n_);
@@ -471,7 +469,7 @@ struct DeviceGroupedConvFwdMultipleD_Wmma_CShuffle
        BGridDesc_BK0_N_BK1 b_grid_desc_bk0_n_bk1_;
        typename GridwiseOp::DsGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock
            ds_grid_desc_mblock_mperblock_nblock_nperblock_;
-        typename GridwiseOp::EGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock 
+        typename GridwiseOp::EGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock
            e_grid_desc_mblock_mperblock_nblock_nperblock_;
        // block-to-e-tile map
@@ -722,10 +720,10 @@ struct DeviceGroupedConvFwdMultipleD_Wmma_CShuffle
        // check Gridwise GEMM
        return GridwiseOp::CheckValidity(arg.a_grid_desc_ak0_m_ak1_,
-                                        arg.b_grid_desc_bk0_n_bk1_,
+                                         arg.b_grid_desc_bk0_n_bk1_,
-                                        arg.ds_grid_desc_m_n_,
+                                         arg.ds_grid_desc_m_n_,
-                                        arg.e_grid_desc_m_n_,
+                                         arg.e_grid_desc_m_n_,
-                                        arg.block_2_etile_map_);
+                                         arg.block_2_etile_map_);
    }
    bool IsSupportedArgument(const BaseArgument* p_arg) override

--- a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_multiple_d_wmma_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_multiple_d_wmma_cshuffle.hpp
@@ -148,14 +148,14 @@ __global__ void
            const Block2CTileMap block_2_etile_map)
 {
 #if(!defined(__HIP_DEVICE_COMPILE__) || defined(__gfx1100__))
-    //printf("entry kernel launch");
+    // printf("entry kernel launch");
    __shared__ char p_shared[GridwiseOp::GetSharedMemoryNumberOfByte()];
    const index_t num_blocks_per_batch =
        __builtin_amdgcn_readfirstlane(get_grid_size() / batch_count);
    const index_t g_idx = __builtin_amdgcn_readfirstlane(get_block_1d_id() / num_blocks_per_batch);
-    //printf("before compute_ptr_offset call");
+    // printf("before compute_ptr_offset call");
    const long_index_t a_batch_offset = __builtin_amdgcn_readfirstlane(
        static_cast<long_index_t>(compute_ptr_offset_of_batch.GetAPtrOffset(g_idx)));
    const long_index_t b_batch_offset = __builtin_amdgcn_readfirstlane(
@@ -167,15 +167,15 @@ __global__ void
    static constexpr index_t NumDTensor =
        DsGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock::Size();
    DsPointer p_ds_grid_grp;
-    //printf("before allocate pointer d");
+    // printf("before allocate pointer d");
    static_for<0, NumDTensor, 1>{}(
        [&](auto i) { p_ds_grid_grp(i) = p_ds_grid[i] + ds_batch_offset[i]; });
-    //printf("before entry");
+    // printf("before entry");
    GridwiseOp::template Run<HasMainKBlockLoop>(p_a_grid + a_batch_offset,
                                                p_b_grid + b_batch_offset,
@@ -529,7 +529,7 @@ struct GridwiseGemmMultipleD_k0mk1_k0nk1_mn_wmma_cshuffle
    template <typename DsGridDesc_M_N_>
    __host__ __device__ static constexpr auto
    MakeDsGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock(const DsGridDesc_M_N_& ds_grid_desc_m_n)
-    {   
+    {
        return generate_tuple(
            [&](auto i) {
                return MakeEGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock(ds_grid_desc_m_n[i]);
@@ -570,7 +570,7 @@ struct GridwiseGemmMultipleD_k0mk1_k0nk1_mn_wmma_cshuffle
                               const CDEElementwiseOperation& cde_element_op,
                               const Block2CTileMap& block_2_ctile_map)
    {
-        //printf("safe entry");
+        // printf("safe entry");
        // clang-format off
 /*******************************************************************************/
 // Memory buffer zone.