Updated comments for better readability

599497b0 · raman jana · b097be17 · 599497b0 · 599497b0
Commit 599497b0 authored Jun 28, 2022 by raman jana
Showing with 5 additions and 7 deletions

example/01_gemm/gemm_xdl_fp16.cpp example/01_gemm/gemm_xdl_fp16.cpp +2 -3

include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdl_waveletmodel_cshuffle.hpp ...tion/gpu/grid/gridwise_gemm_xdl_waveletmodel_cshuffle.hpp +3 -4

No files found.
--- a/example/01_gemm/gemm_xdl_fp16.cpp
+++ b/example/01_gemm/gemm_xdl_fp16.cpp
@@ -56,9 +56,8 @@ using DeviceGemmInstance_WaveletModel = ck::tensor_operation::device::DeviceGemm
 //######| ALayout| BLayout| CLayout| AData| BData| CData| AccData| CShuffle|           A|           B|           C|           GEMM| NumGemmK| ABBlockTransfer|       BlockGemm|  MPer|  NPer|  KPer| AK1| BK1| MPer| NPer| MXdl| NXdl|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockLds|  BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| BBlockLds|    CShuffle|    CShuffle| CBlockTransferClusterLengths|  CBlockTransfer|
 //######|        |        |        |  Type|  Type|  Type|    Type| DataType| Elementwise| Elementwise| Elementwise| Spacialization| Prefetch| ThreadGroupSize| ThreadGroupSize| Block| Block| Block|    |    |  XDL|  XDL|  Per|  Per|   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar| AddExtraM|   ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN| MXdlPerWave| NXdlPerWave|         _MBlock_MWaveMPerXdl| ScalarPerVector|
 //######|        |        |        |      |      |      |        |         |   Operation|   Operation|   Operation|               |    Stage|                |                |      |      |      |    |    |     |     | Wave| Wave| Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1|          | Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|          |  PerShuffle|  PerShuffle|         _NBlock_NWaveNPerXdl|   _NWaveNPerXdl|
-//######|        |        |        |      |      |      |        |         |            |            |            |               |         |                |                |      |      |      |    |    |
+//######|        |        |        |      |      |      |        |         |            |            |            |               |         |      |      |      |      |    |    |     |     |     |     |                |               |               |               |               |               |          |                |               |               |              |               |               |          |               |          |            |            |                             |                |
-//######|        |        |        |      |      |      |        |         |            |            |            |               |         |                |                      
+        <     Row,     Col,     Row,   F16,   F16,   F16,     F32,      F16,  AElementOp,  BElementOp,  CElementOp,    GemmDefault,        1,             256,             256,   256,   128,    32,   8,   8,   32,   32,    4,    2,     S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              8,         1,     S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,              8,              8,         1,           1,           1,               S<1, 32, 1,8>,                8>;
-        <     Row,     Col,     Row,   F16,   F16,   F16,     F32,      F16,  AElementOp,  BElementOp,  CElementOp,    GemmDefault,        1,             256,             256,   256,   128,    32,   8,   8,   32,   32,    4,    2,     S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              8,         1,     S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,              8,              8,         1,           1,           1,               S<1, 32, 1, 8>,               8>;
 // clang-format on
 using ReferenceGemmInstance = ck::tensor_operation::host::

--- a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdl_waveletmodel_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdl_waveletmodel_cshuffle.hpp
@@ -683,12 +683,11 @@ struct GridwiseGemm_k0mk1_k0nk1_mn_xdl_waveletmodel_cshuffle
            constexpr index_t num_access = sfc_c_vgpr.GetNumOfAccess();
            static_assert(num_access == sfc_c_global.GetNumOfAccess(), "wrong!");
 	    //TODO  
-	    //      1. writing in f32 elements and reading back for /f16/bf16 overutilizing LDS BW
+	    //      1. we do not need to do LDS swizzle to align global writes writing cache lines
-	    //      change pipeline f32-f16 conversion first before write to reduce 50% LDS BW
-	    //      2. we do not need to do LDS swizzle to align global writes writing cache lines
 	    //         v_mfma  cmat, amat, bmat, cmat   - c-mat register layout   are 1xN elments  (N is vertical or strided dimension)
 	    //         v_mfma  cmat, bmat, amat, cmat   - c-mat register layout   are Mx1 elments  (M is coalescing dimension)
 	    //         by enumerating M index in amat, bmat you can align cmat register(s) to contiguous M elements 
@@ -698,7 +697,7 @@ struct GridwiseGemm_k0mk1_k0nk1_mn_xdl_waveletmodel_cshuffle
 	    //              3rd mfma instruction  output space : 2 6 10 14 18 ....
 	    //              4th mfma instruction  output space : 3 7 11 15 19 ....
 	    //              you can pack 4 registers output space into 2WORD and do global write (no LDS swizzling required)
-	    //     3. avoid using s_barrier 
+	    //     2. avoid using s_barrier in this case where not all 256 threads required to swizzle c layout 
            static_for<0, num_access, 1>{}([&](auto access_id) {
                // make sure it's safe to write to LDS