Do not clear cthread buffer if needed.

- Add output stream operators for LoopSched and PiplineVer

Do not clear cthread buffer if needed.
- Add output stream operators for LoopSched and PiplineVer
f9f2cdf9 · root · d14aaa52 · f9f2cdf9 · f9f2cdf9 · f9f2cdf9
Commit f9f2cdf9 authored Jan 11, 2024 by root
5 changed files
--- a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_pipeline_selector.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_pipeline_selector.hpp
@@ -50,3 +50,15 @@ constexpr auto GridwiseGemmPipeline_Selector()
 }

 } // namespace ck
+
+inline std::ostream& operator<<(std::ostream& os, const ck::PipelineVersion& p)
+{
+    switch(p)
+    {
+    case ck::PipelineVersion::v1: os << "PipelineVersion::v1"; break;
+    case ck::PipelineVersion::v2: os << "PipelineVersion::v2"; break;
+    case ck::PipelineVersion::v4: os << "PipelineVersion::v4"; break;
+    default: os << "";
+    }
+    return os;
+}
--- a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_pipeline_v1.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_pipeline_v1.hpp
@@ -155,7 +155,8 @@ struct GridwiseGemmPipeline_v1<2>
                               const BBlockTransferStep& b_block_copy_step,
                               const BlockwiseGemm& blockwise_gemm,
                               CThreadBuffer& c_thread_buf,
-                               index_t num_loop)
+                               index_t num_loop,
+                               bool clear_c_thread_buf = true)
    {
        // preload data into LDS
        {
@@ -173,6 +174,7 @@ struct GridwiseGemmPipeline_v1<2>
        }

        // Initialize C
+        if(clear_c_thread_buf)
            c_thread_buf.Clear();

        // main body
@@ -298,7 +300,8 @@ struct GridwiseGemmPipelineInterwave_v1<1>
                               const BBlockTransferStep& b_block_copy_step,
                               const BlockwiseGemm& blockwise_gemm,
                               CThreadBuffer& c_thread_buf,
-                               index_t num_loop)
+                               index_t num_loop,
+                               bool clear_c_thread_buf = true)
    {
        // preload data into LDS
        a_blockwise_copy.RunRead(a_grid_desc, a_grid_buf);
@@ -308,6 +311,7 @@ struct GridwiseGemmPipelineInterwave_v1<1>
        b_blockwise_copy.MoveSrcSliceWindow(b_grid_desc, b_block_copy_step);

        // Initialize C
+        if(clear_c_thread_buf)
            c_thread_buf.Clear();

        a_blockwise_copy.RunWrite(a_block_desc, a_block_buf);

--- a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_pipeline_v2.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_pipeline_v2.hpp
@@ -49,7 +49,8 @@ struct GridwiseGemmPipeline_v2
                               const BBlockTransferStep& b_block_copy_step,
                               const BlockwiseGemm& blockwise_gemm,
                               CThreadBuffer& c_thread_buf,
-                               index_t num_loop)
+                               index_t num_loop,
+                               bool clear_c_thread_buf = true)
    {
        // global read 0
        a_blockwise_copy.RunRead(a_grid_desc, a_grid_buf);
@@ -60,6 +61,7 @@ struct GridwiseGemmPipeline_v2
        b_blockwise_copy.MoveSrcSliceWindow(b_grid_desc, b_block_copy_step);

        // Initialize C
+        if(clear_c_thread_buf)
            c_thread_buf.Clear();

        // LDS write 0

--- a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_pipeline_v4_direct_load.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_pipeline_v4_direct_load.hpp
@@ -68,7 +68,8 @@ struct GridwiseGemmPipeline_v4<1>
                               const BBlockTransferStep& b_block_copy_step,
                               const BlockwiseGemm& blockwise_gemm,
                               CThreadBuffer& c_thread_buf,
-                               index_t num_loop)
+                               index_t num_loop,
+                               bool clear_c_thread_buf = true)
    {
        static_assert(ABlockBuffers::Size() == 1 && BBlockBuffers::Size() == 1);
        auto& a_block_buf = a_block_bufs.At(I0);
@@ -81,6 +82,7 @@ struct GridwiseGemmPipeline_v4<1>
        b_blockwise_copy.MoveSrcSliceWindow(b_grid_desc, b_block_copy_step);

        // Initialize C
+        if(clear_c_thread_buf)
            c_thread_buf.Clear();

        // main body
@@ -164,7 +166,8 @@ struct GridwiseGemmPipeline_v4<2>
                               const BBlockTransferStep& b_block_copy_step,
                               const BlockwiseGemm& blockwise_gemm,
                               CThreadBuffer& c_thread_buf,
-                               index_t num_loop)
+                               index_t num_loop,
+                               bool clear_c_thread_buf = true)
    {
        static_assert(ABlockBuffers::Size() == 2 && BBlockBuffers::Size() == 2);
        auto& a_block_buf1 = a_block_bufs.At(I0);
@@ -179,6 +182,7 @@ struct GridwiseGemmPipeline_v4<2>
        b_blockwise_copy.MoveSrcSliceWindow(b_grid_desc, b_block_copy_step);

        // Initialize C
+        if(clear_c_thread_buf)
            c_thread_buf.Clear();

        // main body

--- a/include/ck/utility/loop_scheduler.hpp
+++ b/include/ck/utility/loop_scheduler.hpp
@@ -3,6 +3,8 @@

 #pragma once

+#include <ostream>
+
 #include "ck/utility/common_header.hpp"
 #include "ck/tensor_description/tensor_adaptor.hpp"

@@ -24,3 +26,14 @@ constexpr LoopScheduler make_default_loop_scheduler()
 }

 } // namespace ck
+
+inline std::ostream& operator<<(std::ostream& os, const ck::LoopScheduler& s)
+{
+    switch(s)
+    {
+    case ck::LoopScheduler::Default: os << "Default"; break;
+    case ck::LoopScheduler::Interwave: os << "Interwave"; break;
+    default: os << "";
+    }
+    return os;
+}