Refactoring and review comment.s

1b2bf88d · Adam Osewski · ba676917 · 1b2bf88d · 1b2bf88d · 1b2bf88d
Commit 1b2bf88d authored Oct 10, 2024 by Adam Osewski
6 changed files
--- a/example/ck_tile/03_gemm/CMakeLists.txt
+++ b/example/ck_tile/03_gemm/CMakeLists.txt
-# set(CMAKE_BUILD_TYPE Debug)
 add_executable(tile_example_gemm_basic EXCLUDE_FROM_ALL gemm_basic.cpp)
 add_executable(tile_example_gemm_basic_mem_pipeline EXCLUDE_FROM_ALL gemm_basic_mem_pipeline.cpp)
--- a/include/ck_tile/ops/gemm/block/block_gemm_asmem_bsmem_creg_v1.hpp
+++ b/include/ck_tile/ops/gemm/block/block_gemm_asmem_bsmem_creg_v1.hpp
@@ -24,19 +24,19 @@ struct BlockGemmASmemBSmemCRegV1
    static constexpr index_t kBlockSize = Problem::kBlockSize;
    // C += A * B
-    template <typename CBlockTensor, typename ABlockWindowTmp, typename BBlockWindowTmp>
+    template <typename CBlockTensor, typename ABlockWindow, typename BBlockWindow>
    CK_TILE_DEVICE void operator()(CBlockTensor& c_block_tensor,
-                                   const ABlockWindowTmp& a_block_window_tmp,
+                                   const ABlockWindow& a_block_window,
-                                   const BBlockWindowTmp& b_block_window_tmp) const
+                                   const BBlockWindow& b_block_window) const
    {
-        static_assert(std::is_same_v<ADataType, typename ABlockWindowTmp::DataType> &&
+        static_assert(std::is_same_v<ADataType, typename ABlockWindow::DataType> &&
-                          std::is_same_v<BDataType, typename BBlockWindowTmp::DataType> &&
+                          std::is_same_v<BDataType, typename BBlockWindow::DataType> &&
                          std::is_same_v<AccDataType, typename CBlockTensor::DataType>,
                      "wrong!");
-        constexpr index_t MPerBlock = ABlockWindowTmp{}.get_window_lengths()[number<0>{}];
+        constexpr index_t MPerBlock = ABlockWindow{}.get_window_lengths()[number<0>{}];
-        constexpr index_t NPerBlock = BBlockWindowTmp{}.get_window_lengths()[number<0>{}];
+        constexpr index_t NPerBlock = BBlockWindow{}.get_window_lengths()[number<0>{}];
-        constexpr index_t KPerBlock = ABlockWindowTmp{}.get_window_lengths()[number<1>{}];
+        constexpr index_t KPerBlock = ABlockWindow{}.get_window_lengths()[number<1>{}];
        static_assert(MPerBlock == BlockGemmShape::kM && NPerBlock == BlockGemmShape::kN &&
                          KPerBlock == BlockGemmShape::kK,
@@ -62,9 +62,9 @@ struct BlockGemmASmemBSmemCRegV1
        // construct A-warp-window
        auto a_warp_window_tmp = make_tile_window(
-            a_block_window_tmp.get_bottom_tensor_view(),
+            a_block_window.get_bottom_tensor_view(),
            make_tuple(number<WG::kM>{}, number<WG::kK>{}),
-            a_block_window_tmp.get_window_origin() + multi_index<2>{iMWarp * WG::kM, 0},
+            a_block_window.get_window_origin() + multi_index<2>{iMWarp * WG::kM, 0},
            make_static_tile_distribution(typename WG::AWarpDstrEncoding{}));
 #if 0 // FIXME: using array will cause register spill
@@ -97,9 +97,9 @@ struct BlockGemmASmemBSmemCRegV1
        // construct B-warp-window
        auto b_warp_window_tmp = make_tile_window(
-            b_block_window_tmp.get_bottom_tensor_view(),
+            b_block_window.get_bottom_tensor_view(),
            make_tuple(number<WG::kN>{}, number<WG::kK>{}),
-            b_block_window_tmp.get_window_origin() + multi_index<2>{iNWarp * WG::kN, 0},
+            b_block_window.get_window_origin() + multi_index<2>{iNWarp * WG::kN, 0},
            make_static_tile_distribution(typename WG::BWarpDstrEncoding{}));
 #if 0 // FIXME: using array will cause register spill
@@ -200,12 +200,12 @@ struct BlockGemmASmemBSmemCRegV1
    }
    // C = A * B
-    template <typename ABlockTensorTmp, typename BBlockWindowTmp>
+    template <typename ABlockTensorTmp, typename BBlockWindow>
    CK_TILE_DEVICE auto operator()(const ABlockTensorTmp& a_block_tensor_tmp,
-                                   const BBlockWindowTmp& b_block_window_tmp) const
+                                   const BBlockWindow& b_block_window) const
    {
        auto c_block_tensor = MakeCBlockTile();
-        operator()(c_block_tensor, a_block_tensor_tmp, b_block_window_tmp);
+        operator()(c_block_tensor, a_block_tensor_tmp, b_block_window);
        return c_block_tensor;
    }
 };

--- a/include/ck_tile/ops/gemm/pipeline/gemm_pipeline_ag_bg_cr_mem.hpp
+++ b/include/ck_tile/ops/gemm/pipeline/gemm_pipeline_ag_bg_cr_mem.hpp
@@ -12,7 +12,6 @@ namespace ck_tile {
 //  A Tile Window: global memory
 //  B Tile Window: global memory
 //  C Distributed tensor: register
 template <typename Problem>
 struct BaseGemmPipelineAgBgCrMem
 {
@@ -25,11 +24,13 @@ struct BaseGemmPipelineAgBgCrMem
    static constexpr index_t NPerBlock = BlockGemmShape::kN;
    static constexpr index_t KPerBlock = BlockGemmShape::kK;
+    static constexpr index_t MinMemInFlyBytes = 32768;
    static constexpr index_t WgpPerCU =
        (4 * get_warp_size() / BlockSize) >= 1 ? 4 * get_warp_size() / BlockSize : 1;
    // TODO: Is this 32K value gfx9 arch specific?
    static constexpr index_t FullMemBandPrefetchStages = integer_divide_ceil(
-        32768 / WgpPerCU,
+        MinMemInFlyBytes / WgpPerCU,
        (MPerBlock * sizeof(ADataType) + NPerBlock * sizeof(BDataType)) * KPerBlock);
    static constexpr index_t PrefetchStages =
        FullMemBandPrefetchStages >= 2

--- a/test/ck_tile/CMakeLists.txt
+++ b/test/ck_tile/CMakeLists.txt
 add_subdirectory(image_to_column)
+add_subdirectory(gemm)
--- a/test/ck_tile/gemm/test_gemm_mem_pipeline.cpp
+++ b/test/ck_tile/gemm/test_gemm_mem_pipeline.cpp
@@ -17,11 +17,11 @@ using Col = ck_tile::tensor_layout::gemm::ColumnMajor;
 // clang-format off
 using KernelTypes = ::testing::Types<
    //         ALayout, BLayout, CLayout, ADataType, BDataType, AccDataType, CDataType
-    std::tuple<    Row,     Col,     Row,       F16,       F16,         F32,      F32>
+    std::tuple<    Row,     Col,     Row,       F16,       F16,         F32,      F16>
    // TODO: fixme!
-    // std::tuple<    Col,     Row,     Row,       F16,       F16,         F32,      F32>,
+    // std::tuple<    Col,     Row,     Row,       F16,       F16,         F32,      F16>,
-    // std::tuple<    Row,     Row,     Row,       F16,       F16,         F32,      F32>,
+    // std::tuple<    Row,     Row,     Row,       F16,       F16,         F32,      F16>,
-    // std::tuple<    Col,     Col,     Row,       F16,       F16,         F32,      F32>
+    // std::tuple<    Col,     Col,     Row,       F16,       F16,         F32,      F16>
    >;
 // clang-format on

--- a/test/ck_tile/gemm/test_gemm_mem_pipeline_util.hpp
+++ b/test/ck_tile/gemm/test_gemm_mem_pipeline_util.hpp
@@ -14,10 +14,9 @@ template <typename Tuple>
 class TestCkTileGemmMemPipeline : public ::testing::Test
 {
    protected:
-    using ALayout = std::tuple_element_t<0, Tuple>;
+    using ALayout     = std::tuple_element_t<0, Tuple>;
-    using BLayout = std::tuple_element_t<1, Tuple>;
+    using BLayout     = std::tuple_element_t<1, Tuple>;
-    using CLayout = std::tuple_element_t<2, Tuple>;
+    using CLayout     = std::tuple_element_t<2, Tuple>;
-    ;
    using ADataType   = std::tuple_element_t<3, Tuple>;
    using BDataType   = std::tuple_element_t<4, Tuple>;
    using AccDataType = std::tuple_element_t<5, Tuple>;
@@ -90,6 +89,7 @@ class TestCkTileGemmMemPipeline : public ::testing::Test
            using GemmPipeline = ck_tile::GemmPipelineAgBgCrMem<
                ck_tile::UniversalGemmPipelineProblem<ADataType,
                                                      BDataType,
+                                                      AccDataType,
                                                      CDataType,
                                                      GemmShape,
                                                      ALayout,