Remove duplicate instances

4b5d5792 · Adam Osewski · cfc2be07 · 4b5d5792
Commit 4b5d5792 authored Jul 04, 2024 by Adam Osewski
1 changed file
--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_gemm_multiple_d/device_grouped_gemm_multiple_d_splitk_xdl_cshuffle_f16_f16_f16_mk_kn_mn_instance.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_gemm_multiple_d/device_grouped_gemm_multiple_d_splitk_xdl_cshuffle_f16_f16_f16_mk_kn_mn_instance.hpp
@@ -72,11 +72,6 @@ using device_ggemm_md_splitk_xdl_cshuffle_f16_f16_f16_mk_kn_mn_memory_instances
        //#########################################| Layout| Layout|      Layout| Layout|  Type|  Type|    Type| DataType|        Type|  Type| Elementwise| Elementwise| Elementwise| Spacialization|    Prefetch|  Size| Block| Block| Block|    |    |  XDL|  XDL|  Per|  Per|   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar| AddExtraM|   ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| AddExtraN| MXdlPerWave| NXdlPerWave|         _MBlock_MWaveMPerXdl| ScalarPerVector|                |              |
        //#########################################|       |       |            |       |      |      |        |         |            |      |   Operation|   Operation|   Operation|               |       Stage|      |      |      |      |    |    |     |     | Wave| Wave| Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1|          | Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|          |  PerShuffle|  PerShuffle|         _NBlock_NWaveNPerXdl|   _NWaveNPerXdl|                |              |
        //#########################################|       |       |            |       |      |      |        |         |            |      |            |            |            |               |            |      |      |      |      |    |    |     |     |     |     |                |               |               |               |               |               |          |                |               |               |              |               |               |          |            |            |                             |                |                |              |
-// Latency friendly
-        DeviceGroupedGemmMultipleDSplitKXdlCShuffle<    Row,    Row, Empty_Tuple,    Row,   F16,   F16,     F32,      F32, Empty_Tuple,   F16, PassThrough, PassThrough, PassThrough,       GemmSpec, NumPrefetch,   128,    32,   16,    64,    8,   4,   16,   16,    1,    1,     S<8, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,               2,              8,              8,        1,    S<16, 8, 1>,      S<0, 2, 1>,     S<0, 2, 1>,             1,              2,              4,         1,           1,           1,               S<1, 16, 1, 8>,               2,        Pipeline, Scheduler>,
-        DeviceGroupedGemmMultipleDSplitKXdlCShuffle<    Row,    Row, Empty_Tuple,    Row,   F16,   F16,     F32,      F32, Empty_Tuple,   F16, PassThrough, PassThrough, PassThrough,       GemmSpec, NumPrefetch,    64,    16,   16,   128,    8,   4,   16,   16,    1,    1,     S<16, 4, 1>,     S<1, 0, 2>,     S<1, 0, 2>,               2,              8,              8,        1,    S<16, 4, 1>,      S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              4,         1,           1,           1,               S<1, 16, 1, 4>,               4,        Pipeline, Scheduler>,
-        DeviceGroupedGemmMultipleDSplitKXdlCShuffle<    Row,    Row, Empty_Tuple,    Row,   F16,   F16,     F32,      F32, Empty_Tuple,   F16, PassThrough, PassThrough, PassThrough,       GemmSpec, NumPrefetch,    64,    16,   16,    64,    8,   4,   16,   16,    1,    1,     S<8,  8, 1>,     S<1, 0, 2>,     S<1, 0, 2>,               2,              8,              8,        1,    S<16, 4, 1>,      S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              4,         1,           1,           1,               S<1, 16, 1, 4>,               4,        Pipeline, Scheduler>,
-        DeviceGroupedGemmMultipleDSplitKXdlCShuffle<    Row,    Row, Empty_Tuple,    Row,   F16,   F16,     F32,      F32, Empty_Tuple,   F16, PassThrough, PassThrough, PassThrough,       GemmSpec, NumPrefetch,   128,    16,   32,    64,    8,   4,   16,   16,    1,    1,     S<8, 16, 1>,     S<1, 0, 2>,     S<1, 0, 2>,               2,              8,              8,        1,    S<16, 8, 1>,      S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              4,         1,           1,           1,               S<1, 16, 1, 8>,               4,        Pipeline, Scheduler>,
        // Memory friendly
        DeviceGroupedGemmMultipleDSplitKXdlCShuffle<    Row,    Row, Empty_Tuple,    Row,   F16,   F16,     F32,      F32, Empty_Tuple,   F16, PassThrough, PassThrough, PassThrough,       GemmSpec, NumPrefetch,   256,   256,   32,    64,    8,   2,   32,   32,    2,    1,     S<8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,               2,              8,              8,        1,    S<32, 8, 1>,      S<0, 2, 1>,     S<0, 2, 1>,             1,              4,              2,         1,           1,           1,               S<1, 32, 1, 8>,               4,        Pipeline, Scheduler>,
        DeviceGroupedGemmMultipleDSplitKXdlCShuffle<    Row,    Row, Empty_Tuple,    Row,   F16,   F16,     F32,      F32, Empty_Tuple,   F16, PassThrough, PassThrough, PassThrough,       GemmSpec, NumPrefetch,   256,   256,   16,    64,    8,   2,   16,   16,    4,    1,     S<8, 32, 1>,     S<1, 0, 2>,     S<1, 0, 2>,               2,              8,              8,        1,    S<32, 8, 1>,      S<0, 2, 1>,     S<0, 2, 1>,             1,              2,              2,         1,           1,           1,               S<1, 32, 1, 8>,               2,        Pipeline, Scheduler>,