clang

57a9b92a · M.Emin Ozturk · 58d75b7a · 57a9b92a · 57a9b92a
Commit 57a9b92a authored Dec 17, 2024 by M.Emin Ozturk
Showing with 29 additions and 9 deletions

example/01_gemm/gemm_xdl_bf16_streamk_v3.cpp example/01_gemm/gemm_xdl_bf16_streamk_v3.cpp +28 -7

example/01_gemm/run_gemm_example_streamk_v2.inc example/01_gemm/run_gemm_example_streamk_v2.inc +1 -2

No files found.
--- a/example/01_gemm/gemm_xdl_bf16_streamk_v3.cpp
+++ b/example/01_gemm/gemm_xdl_bf16_streamk_v3.cpp
@@ -23,14 +23,36 @@ static constexpr auto GemmDefault = ck::tensor_operation::device::GemmSpecializa
 // // clang-format off
 // using DeviceGemmInstance = ck::tensor_operation::device::DeviceGemm_Xdl_CShuffle
-// // ######| ALayout| BLayout| CLayout|     AData|     BData|     CData|     AccData|         CShuffle|           A|           B|           C|           GEMM| NumGemmK| Block|  MPer|  NPer|  KPer| AK1| BK1| MPer| NPer| MXdl| NXdl|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockLds|  BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| BBlockLds|    CShuffle|    CShuffle| CBlockTransferClusterLengths|  CBlockTransfer|
+// // ######| ALayout| BLayout| CLayout|     AData|     BData|     CData|     AccData| CShuffle| A|
-// // ######|        |        |        |      Type|      Type|      Type|        Type|         DataType| Elementwise| Elementwise| Elementwise| Spacialization| Prefetch|  Size| Block| Block| Block|    |    |  XDL|  XDL|  Per|  Per|   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar| AddExtraM|   ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN| MXdlPerWave| NXdlPerWave|         _MBlock_MWaveMPerXdl| ScalarPerVector|
+// B|           C|           GEMM| NumGemmK| Block|  MPer|  NPer|  KPer| AK1| BK1| MPer| NPer| MXdl|
-// // ######|        |        |        |          |          |          |            |                 |   Operation|   Operation|   Operation|               |    Stage|      |      |      |      |    |    |     |     | Wave| Wave| Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1|          | Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|          |  PerShuffle|  PerShuffle|         _NBlock_NWaveNPerXdl|   _NWaveNPerXdl|
+// NXdl|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer|
-// // ######|        |        |        |          |          |          |            |                 |            |            |            |               |         |      |      |      |      |    |    |     |     |     |     |                |               |               |               |               |               |          |                |               |               |              |               |               |          |            |            |                             |                |
+// ABlockTransfer| ABlockLds|  BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer|
-//          < ALayout, BLayout, CLayout, ADataType, BDataType, CDataType, AccDataType, CShuffleDataType,  AElementOp,  BElementOp,  CElementOp,    GemmDefault,        1,   256,   256,   128,    32,   8,   8,   32,   32,    4,    2,     S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              8,         1,     S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,              8,              8,         1,           1,           1,               S<1, 32, 1, 8>,               8>;
+// BBlockTransfer| BBlockTransfer| BBlockLds|    CShuffle|    CShuffle|
+// CBlockTransferClusterLengths|  CBlockTransfer|
+// // ######|        |        |        |      Type|      Type|      Type|        Type| DataType|
+// Elementwise| Elementwise| Elementwise| Spacialization| Prefetch|  Size| Block| Block| Block|    |
+// |  XDL|  XDL|  Per|  Per|   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|
+// SrcScalar|      DstScalar| AddExtraM|   ThreadCluster|  ThreadCluster| SrcAccessOrder|
+// SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN| MXdlPerWave| NXdlPerWave|
+// _MBlock_MWaveMPerXdl| ScalarPerVector|
+// // ######|        |        |        |          |          |          |            | | Operation|
+// Operation|   Operation|               |    Stage|      |      |      |      |    |    |     | |
+// Wave| Wave| Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|
+// PerVector_K1|          | Lengths_K0_N_K1|   ArrangeOrder|               |              |
+// PerVector|   PerVector_K1|          |  PerShuffle|  PerShuffle|         _NBlock_NWaveNPerXdl|
+// _NWaveNPerXdl|
+// // ######|        |        |        |          |          |          |            | | | | | | |
+// |      |      |      |    |    |     |     |     |     |                |               | | | |
+// |          |                |               |               |              |               | | |
+// |            |                             |                |
+//          < ALayout, BLayout, CLayout, ADataType, BDataType, CDataType, AccDataType,
+//          CShuffleDataType,  AElementOp,  BElementOp,  CElementOp,    GemmDefault,        1, 256,
+//          256,   128,    32,   8,   8,   32,   32,    4,    2,     S<4, 64, 1>,     S<1, 0, 2>,
+//          S<1, 0, 2>,              2,              8,              8,         1,     S<4, 64, 1>,
+//          S<1, 0, 2>,     S<1, 0, 2>,             2,              8,              8,         1, 1,
+//          1,               S<1, 32, 1, 8>,               8>;
 // // clang-format on
 // clang-format off
 using DeviceGemmV2_Streamk_Instance = 
    ck::tensor_operation::device::DeviceGemm_Xdl_CShuffle_Streamk_V3<
@@ -50,7 +72,6 @@ using DeviceGemmV2_Streamk_Instance =
        ck::BlockGemmPipelineScheduler::Intrawave,ck::BlockGemmPipelineVersion::v3>;
 // clang-format on
 using ReferenceGemmInstance = ck::tensor_operation::host::
    ReferenceGemm<ADataType, BDataType, CDataType, AccDataType, AElementOp, BElementOp, CElementOp>;

--- a/example/01_gemm/run_gemm_example_streamk_v2.inc
+++ b/example/01_gemm/run_gemm_example_streamk_v2.inc
@@ -182,8 +182,7 @@ bool run_gemm(const ProblemType& problem_size, const ExecutionConfig& config)
    std::cout << "b_k_n: " << b_k_n.mDesc << std::endl;
    std::cout << "c_m_n: " << c_m_n_host_result.mDesc << std::endl;
-    //Added By Emin
+    // Added By Emin
    // Added By Emin