Prevent redundant IO

bb7294ae · rocking · 3df07c27 · bb7294ae
Commit bb7294ae authored Dec 14, 2022 by rocking
Show whitespace changes
Inline Side-by-side

Showing with 91 additions and 80 deletions

include/ck/tensor_operation/gpu/grid/gemm_layernorm/gridwise_gemm_multiple_d_welford_first_half_xdl_cshuffle.hpp ...dwise_gemm_multiple_d_welford_first_half_xdl_cshuffle.hpp +91 -80

No files found.
--- a/include/ck/tensor_operation/gpu/grid/gemm_layernorm/gridwise_gemm_multiple_d_welford_first_half_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gemm_layernorm/gridwise_gemm_multiple_d_welford_first_half_xdl_cshuffle.hpp
@@ -1030,6 +1030,8 @@ struct GridwiseGemmMultipleDWelfordFirstHalf_xdl_cshuffle
                        mean_thread_buf(j), var_thread_buf(j), count_thread_buf(j));
                });

+                if(post_shuffle_thread_cluster_idx[I1] == 0)
+                {
                    constexpr auto thread_welford_desc_I_m_I = make_naive_tensor_descriptor_packed(
                        make_tuple(I1, Number<PostShuffleThreadSliceSize_M>{}, I1));

@@ -1048,7 +1050,8 @@ struct GridwiseGemmMultipleDWelfordFirstHalf_xdl_cshuffle
                        1,
                        InMemoryDataOperationEnum::Set,
                        1,
-                    false>{mean_var_grid_desc_mblock_mperblock_nblock,
+                        false>{
+                        mean_var_grid_desc_mblock_mperblock_nblock,
                        make_multi_index(block_work_idx[I0], // mblock
                                         shuffleMPerBlock * i +
                                             post_shuffle_thread_data_idx_begin[I0], // mperblock
@@ -1067,13 +1070,29 @@ struct GridwiseGemmMultipleDWelfordFirstHalf_xdl_cshuffle
                        1,
                        InMemoryDataOperationEnum::Set,
                        1,
-                    false>{mean_var_grid_desc_mblock_mperblock_nblock,
+                        false>{
+                        mean_var_grid_desc_mblock_mperblock_nblock,
                        make_multi_index(block_work_idx[I0], // mblock
                                         shuffleMPerBlock * i +
                                             post_shuffle_thread_data_idx_begin[I0], // mperblock
                                         block_work_idx[I1]),                        // nblock
                        tensor_operation::element_wise::PassThrough{}};

+                    mean_thread_copy_vgpr_to_global.Run(thread_welford_desc_I_m_I,
+                                                        make_tuple(I0, I0, I0),
+                                                        mean_thread_buf,
+                                                        mean_var_grid_desc_mblock_mperblock_nblock,
+                                                        mean_grid_buf);
+
+                    var_thread_copy_vgpr_to_global.Run(thread_welford_desc_I_m_I,
+                                                       make_tuple(I0, I0, I0),
+                                                       var_thread_buf,
+                                                       mean_var_grid_desc_mblock_mperblock_nblock,
+                                                       var_grid_buf);
+
+                    if(i == 0 && block_work_idx[I0] == 0 &&
+                       post_shuffle_thread_data_idx_begin[I0] == 0)
+                    {
                        auto count_thread_copy_vgpr_to_global = ThreadwiseTensorSliceTransfer_v1r3<
                            int32_t,
                            int32_t,
@@ -1087,29 +1106,21 @@ struct GridwiseGemmMultipleDWelfordFirstHalf_xdl_cshuffle
                            InMemoryDataOperationEnum::Set,
                            1,
                            false>{count_grid_desc_mblock_mperblock_nblock,
-                           make_multi_index(block_work_idx[I0], // mblock
+                                   make_multi_index(
+                                       block_work_idx[I0], // mblock
                                       shuffleMPerBlock * i +
                                           post_shuffle_thread_data_idx_begin[I0], // mperblock
                                       block_work_idx[I1]),                        // nblock
                                   tensor_operation::element_wise::PassThrough{}};

-                mean_thread_copy_vgpr_to_global.Run(thread_welford_desc_I_m_I,
-                                                    make_tuple(I0, I0, I0),
-                                                    mean_thread_buf,
-                                                    mean_var_grid_desc_mblock_mperblock_nblock,
-                                                    mean_grid_buf);
-
-                var_thread_copy_vgpr_to_global.Run(thread_welford_desc_I_m_I,
-                                                   make_tuple(I0, I0, I0),
-                                                   var_thread_buf,
-                                                   mean_var_grid_desc_mblock_mperblock_nblock,
-                                                   var_grid_buf);
-
-                count_thread_copy_vgpr_to_global.Run(thread_welford_desc_I_m_I,
+                        count_thread_copy_vgpr_to_global.Run(
+                            thread_welford_desc_I_m_I,
                            make_tuple(I0, I0, I0),
                            count_thread_buf,
                            count_grid_desc_mblock_mperblock_nblock,
                            welford_count_grid_buf);
+                    }
+                }
            });

        } // shuffle C + Ds + welford + write out