change d0 loader to d0 operater

958f028f · letaoqin · fa94a220 · 958f028f
Commit 958f028f authored Sep 08, 2023 by letaoqin
Show whitespace changes
Inline Side-by-side

Showing with 32 additions and 31 deletions

include/ck/tensor_operation/gpu/grid/gridwise_batched_mha_bwd_xdl_cshuffle_qloop_b2t_v2.hpp ...id/gridwise_batched_mha_bwd_xdl_cshuffle_qloop_b2t_v2.hpp +32 -31

No files found.
--- a/include/ck/tensor_operation/gpu/grid/gridwise_batched_mha_bwd_xdl_cshuffle_qloop_b2t_v2.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_batched_mha_bwd_xdl_cshuffle_qloop_b2t_v2.hpp
@@ -1348,7 +1348,7 @@ struct GridwiseBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2
    using D0GridDescriptor_M0_N0_M1_M2_N1_M3 =
        remove_cvref_t<decltype(MakeD0GridDescriptor_M0_N0_M1_M2_N1_M3(D0GridDesc_M_N{}))>;

-    struct D0Loader
+    struct D0Operator
    {
        template <typename DataType>
        struct TypeTransform
@@ -1368,13 +1368,13 @@ struct GridwiseBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2
        static_assert(NPerXdl == 32);
        static_assert(D0BlockTransferSrcScalarPerVector * NThreadClusterLengths <= NPerBlock,
                      "D0BlockTransferSrcScalarPerVector * NThreadClusterLengths <= NPerBlock");
-        __host__ __device__ static constexpr auto GetD0BlockWriteDescriptor_M0_N0_M1_M2_N1_M3()
+        __host__ __device__ static constexpr auto GetD0BlockGlobalDescriptor_M0_N0_M1_M2_N1_M3()
        {
            // B1 matrix in LDS memory, dst of blockwise copy
            return make_naive_tensor_descriptor_packed(
                make_tuple(I1, I1, I1, D0M1, Number<NPerBlock>{}, D0M2));
        }
-        __host__ __device__ static constexpr auto GetD0BlockReadDescriptor_N0_N1_M0_M1_M2()
+        __host__ __device__ static constexpr auto GetD0BlockVgprDescriptor_N0_N1_M0_M1_M2()
        {
            constexpr auto d0_raw_m0_n_m1 =
                make_naive_tensor_descriptor_packed(make_tuple(D0M1, Number<NPerBlock>{}, D0M2));
@@ -1389,10 +1389,10 @@ struct GridwiseBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2
                make_tuple(Sequence<2, 3>{}, Sequence<0, 1>{}, Sequence<4>{}));
            return d0_n0_n1_m0_m1_m2;
        }
-        static constexpr auto d0_block_write_desc_m0_n0_m1_m2_n1_m3 =
-            GetD0BlockWriteDescriptor_M0_N0_M1_M2_N1_M3();
-        static constexpr auto d0_block_read_desc_n0_n1_m0_m1_m2 =
-            GetD0BlockReadDescriptor_N0_N1_M0_M1_M2();
+        static constexpr auto d0_block_global_desc_m0_n0_m1_m2_n1_m3 =
+            GetD0BlockGlobalDescriptor_M0_N0_M1_M2_N1_M3();
+        static constexpr auto d0_block_vgpr_desc_n0_n1_m0_m1_m2 =
+            GetD0BlockVgprDescriptor_N0_N1_M0_M1_M2();

        static constexpr auto d0_thread_desc_ =
            make_naive_tensor_descriptor_packed(make_tuple(I1, I1, I4, I1, D0M2));
@@ -1413,7 +1413,7 @@ struct GridwiseBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2
            typename TypeTransform<D0DataType>::Type,         // SrcData
            typename TypeTransform<D0DataType>::Type,         // DstData
            D0GridDescriptor_M0_N0_M1_M2_N1_M3,               // SrcDesc
-            decltype(d0_block_write_desc_m0_n0_m1_m2_n1_m3), // DstDesc
+            decltype(d0_block_global_desc_m0_n0_m1_m2_n1_m3), // DstDesc
            Sequence<0, 1, 2, 3, 5, 4>,                       // SrcDimAccessOrder
            Sequence<0, 1, 2, 4, 3, 5>,                       // DstDimAccessOrder
            4,                                                // SrcVectorDim
@@ -1429,7 +1429,7 @@ struct GridwiseBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2
        using D0ThreadCopy =
            ThreadwiseTensorSliceTransfer_v4<typename TypeTransform<D0DataType>::Type,    // SrcData
                                             typename TypeTransform<D0DataType>::Type,    // DstData
-                                             decltype(d0_block_read_desc_n0_n1_m0_m1_m2), // SrcDesc
+                                             decltype(d0_block_vgpr_desc_n0_n1_m0_m1_m2), // SrcDesc
                                             decltype(d0_thread_desc_),                   // DstDesc
                                             Sequence<1, 1, 4, 1, 4>, // SliceLengths
                                             Sequence<0, 1, 2, 3, 4>, // DimAccessOrder
@@ -1477,10 +1477,11 @@ struct GridwiseBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2
            sizeof(GemmDataType) / sizeof(FloatGemmAcc);

        static constexpr auto d0_block_space_size_aligned = math::integer_least_multiple(
-            D0Loader::d0_block_write_desc_m0_n0_m1_m2_n1_m3.GetElementSpaceSize(), max_lds_align);
+            D0Operator::d0_block_global_desc_m0_n0_m1_m2_n1_m3.GetElementSpaceSize(),
+            max_lds_align);
        static constexpr auto d0_block_space_offset =
            k_block_space_size_aligned.value * sizeof(GemmDataType) /
-            D0Loader::template TypeTransform<D0DataType>::Size;
+            D0Operator::template TypeTransform<D0DataType>::Size;

        // LDS allocation for C shuffle in LDS
        static constexpr auto c_shuffle_block_desc_mblock_mperblock_nblock_nperblock =
@@ -1508,7 +1509,7 @@ struct GridwiseBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2
                                          sizeof(FloatGemmAcc);
        const index_t d0_bytes_end =
            (SharedMemTrait::d0_block_space_offset + SharedMemTrait::d0_block_space_size_aligned) *
-            D0Loader::template TypeTransform<D0DataType>::Size0;
+            D0Operator::template TypeTransform<D0DataType>::Size0;
        const index_t c_block_bytes_end =
            SharedMemTrait::c_block_space_size * sizeof(FloatCShuffle);

@@ -2087,15 +2088,15 @@ struct GridwiseBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2
        index_t gemm0_m_block_outer_index = num_gemm0_m_block_outer_loop - 1;

        // D0
-        auto d0_block_copy_global_to_lds = typename D0Loader::D0BlockwiseCopy(
+        auto d0_block_copy_global_to_lds = typename D0Operator::D0BlockwiseCopy(
            d0_grid_desc_m0_n0_m1_m2_n1_m3,
            make_multi_index(gemm0_m_block_outer_index, block_work_idx_n, 0, 0, 0, 0),
            tensor_operation::element_wise::PassThrough{},
-            D0Loader::d0_block_write_desc_m0_n0_m1_m2_n1_m3,
+            D0Operator::d0_block_global_desc_m0_n0_m1_m2_n1_m3,
            make_multi_index(0, 0, 0, 0, 0, 0),
            tensor_operation::element_wise::PassThrough{});

-        auto d0_thread_copy_lds_to_vgpr = typename D0Loader::D0ThreadCopy(
+        auto d0_thread_copy_lds_to_vgpr = typename D0Operator::D0ThreadCopy(
            make_tuple(wave_id[I1], wave_m_n_id[I1], 0, wave_m_n_id[I0], 0));

        if constexpr(Deterministic)
@@ -2309,10 +2310,10 @@ struct GridwiseBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2

                auto d0_block_buf = make_dynamic_buffer<AddressSpaceEnum::Lds>(
                    static_cast<D0DataType*>(p_shared) + SharedMemTrait::d0_block_space_offset,
-                    D0Loader::d0_block_write_desc_m0_n0_m1_m2_n1_m3.GetElementSpaceSize());
+                    D0Operator::d0_block_global_desc_m0_n0_m1_m2_n1_m3.GetElementSpaceSize());

                auto d0_thread_buf = make_static_buffer<AddressSpaceEnum::Vgpr, D0DataType>(
-                    D0Loader::d0_thread_desc_.GetElementSpaceSize());
+                    D0Operator::d0_thread_desc_.GetElementSpaceSize());
                ignore = d0_thread_buf;

                static_for<0, D0M0, 1>{}([&](auto mr) {
@@ -2324,13 +2325,13 @@ struct GridwiseBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2
                        d0_grid_desc_m0_n0_m1_m2_n1_m3, make_multi_index(0, 0, 1, 0, 0, 0));

                    d0_block_copy_global_to_lds.RunWrite(
-                        D0Loader::d0_block_write_desc_m0_n0_m1_m2_n1_m3, d0_block_buf);
+                        D0Operator::d0_block_global_desc_m0_n0_m1_m2_n1_m3, d0_block_buf);
                    block_sync_lds();
                    // read data form lds
-                    d0_thread_copy_lds_to_vgpr.Run(D0Loader::d0_block_read_desc_n0_n1_m0_m1_m2,
+                    d0_thread_copy_lds_to_vgpr.Run(D0Operator::d0_block_vgpr_desc_n0_n1_m0_m1_m2,
                                                   make_tuple(I0, I0, I0, I0, I0),
                                                   d0_block_buf,
-                                                   D0Loader::d0_thread_desc_,
+                                                   D0Operator::d0_thread_desc_,
                                                   make_tuple(I0, I0, I0, I0, I0),
                                                   d0_thread_buf);