Add comment to load_tile_raw and change variable naming style.

4cf45f1b · Adam Osewski · 6ea43353 · 4cf45f1b · 4cf45f1b
Commit 4cf45f1b authored Oct 07, 2024 by Adam Osewski
Showing with 16 additions and 8 deletions

include/ck_tile/core/tensor/load_tile.hpp include/ck_tile/core/tensor/load_tile.hpp +10 -1

include/ck_tile/ops/gemm/kernel/gemm_kernel.hpp include/ck_tile/ops/gemm/kernel/gemm_kernel.hpp +6 -7

No files found.
--- a/include/ck_tile/core/tensor/load_tile.hpp
+++ b/include/ck_tile/core/tensor/load_tile.hpp
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.

 #pragma once

@@ -31,6 +31,15 @@ CK_TILE_DEVICE auto load_tile(const tile_window_with_static_distribution<BottomT
    return tile_window.load(bool_constant<oob_conditional_check>{});
 }

+/**
+ * @brief Loads a tile of data using inline assembly.
+ *
+ * @note Bare in mind that loading data this way, you have to manually initialize your
+ *       thread buffer and synchronize load afterwards in order to make sure it's done before
+ *       using loaded data from registers
+ *       @see `tile_window_with_static_distribution::init_raw()` and `buffer_view.hpp`
+ *       @see  `buffer_load_fence()`
+ */
 template <typename T,
          typename BottomTensorView_,
          typename WindowLengths_,

--- a/include/ck_tile/ops/gemm/kernel/gemm_kernel.hpp
+++ b/include/ck_tile/ops/gemm/kernel/gemm_kernel.hpp
@@ -121,7 +121,7 @@ struct GemmKernel
            sequence < false,
            GemmPipeline::kPadA ? true : false > {});

-        auto ABlockWindow = make_tile_window(
+        auto a_block_window = make_tile_window(
            a_pad_view,
            make_tuple(number<TilePartitioner::kM>{}, number<TilePartitioner::kK>{}),
            {i_m, 0});
@@ -132,7 +132,7 @@ struct GemmKernel
            sequence < false,
            GemmPipeline::kPadB ? true : false > {});

-        auto BBlockWindow = make_tile_window(
+        auto b_block_window = make_tile_window(
            b_pad_view,
            make_tuple(number<TilePartitioner::kN>{}, number<TilePartitioner::kK>{}),
            {i_n, 0});
@@ -141,14 +141,12 @@ struct GemmKernel
        __shared__ char smem_ptr[GetSmemSize()];

        const index_t num_loop = TilePartitioner::GetLoopNum(kargs.K);
-        auto c_block_tile =
-            GemmPipeline{}.template operator()(ABlockWindow, BBlockWindow, num_loop, smem_ptr);

-        {
-        }
+        // Run GEMM cooperatively by whole wokrgroup.
+        auto c_block_tile =
+            GemmPipeline{}.template operator()(a_block_window, b_block_window, num_loop, smem_ptr);

        CDataType* c_start = static_cast<CDataType*>(kargs.c_ptr);
-
        auto c_tensor_view = [&]() {
            if constexpr(std::is_same_v<CLayout, tensor_layout::gemm::RowMajor>)
            {
@@ -179,6 +177,7 @@ struct GemmKernel
            c_pad_view,
            make_tuple(number<TilePartitioner::kM>{}, number<TilePartitioner::kN>{}),
            {i_m, i_n});
+
        EpiloguePipeline{}(CBlockWindow, c_block_tile);
    }
 };