adding tall and skinny gemm

3eee1b9b · Harisankar Sadasivan · 67adf1b4 · 3eee1b9b · 3eee1b9b · 3eee1b9b
Commit 3eee1b9b authored Nov 01, 2023 by Harisankar Sadasivan
20 changed files
--- a/include/ck/tensor_operation/gpu/device/impl/device_sparse_embeddings_forward_layernorm.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_sparse_embeddings_forward_layernorm.hpp
--- a/include/ck/tensor_operation/gpu/device/impl/device_splitk_contraction_multiple_d_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_splitk_contraction_multiple_d_xdl_cshuffle.hpp
--- a/include/ck/tensor_operation/gpu/device/impl/device_gemv_splitk.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_gemv_splitk.hpp
@@ -10,9 +10,9 @@
 #include "ck/tensor_description/tensor_descriptor.hpp"
 #include "ck/tensor_description/tensor_descriptor_helper.hpp"
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "ck/tensor_operation/gpu/device/device_gemv.hpp"
+#include "ck/tensor_operation/gpu/device/device_tall_and_skinny_gemm.hpp"
 #include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "ck/tensor_operation/gpu/grid/gridwise_gemv_splitk.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_tall_and_skinny_gemm_splitk.hpp"
 #include "ck/host_utility/device_prop.hpp"
 #include "ck/host_utility/kernel_launch.hpp"
@@ -58,7 +58,7 @@ template <
            is_same_v<BElementwiseOperation, ck::tensor_operation::element_wise::PassThrough> &&
            is_same_v<CElementwiseOperation, ck::tensor_operation::element_wise::PassThrough>,
        bool> = false>
-struct deviceGemvDl : public DeviceGemv<ALayout,
+struct deviceTsmmDl : public DeviceTsmm<ALayout,
                                        BLayout,
                                        CLayout,
                                        ADataType,
@@ -76,9 +76,9 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
    static constexpr auto I4 = Number<4>{};
    static constexpr auto I5 = Number<5>{};
-    // GridwiseGemv
+    // GridwiseTsmm
-    using GridwiseGemv =
+    using GridwiseTsmm =
-        GridwiseGemvDl_km_kn_mn<BlockSize,
+        GridwiseTsmmDl_km_kn_mn<BlockSize,
                                ADataType,
                                AccDataType,
                                CDataType,
@@ -107,8 +107,8 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
                                CThreadTransferSrcDstVectorDim,
                                CThreadTransferDstScalarPerVector>;
-    using DefaultBlock2CTileMap = typename GridwiseGemv::DefaultBlock2CTileMap;
+    using DefaultBlock2CTileMap = typename GridwiseTsmm::DefaultBlock2CTileMap;
-    using Argument              = typename GridwiseGemv::Argument;
+    using Argument              = typename GridwiseTsmm::Argument;
    // Invoker
    struct Invoker : public BaseInvoker
    {
@@ -116,14 +116,14 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
        float Run(const Argument& karg, const StreamConfig& stream_config = StreamConfig{})
        {
-            const index_t grid_size = GridwiseGemv::CalculateGridSize(karg.M, karg.N, karg.k_batch);
+            const index_t grid_size = GridwiseTsmm::CalculateGridSize(karg.M, karg.N, karg.k_batch);
            const auto b2c_map      = DefaultBlock2CTileMap{};
            const auto K0 = karg.K0;
-            const bool has_main_k_block_loop = GridwiseGemv::CalculateHasMainKBlockLoop(K0);
+            const bool has_main_k_block_loop = GridwiseTsmm::CalculateHasMainKBlockLoop(K0);
            const bool has_double_tail_k_block_loop =
-                GridwiseGemv::CalculateHasDoubleTailKBlockLoop(K0);
+                GridwiseTsmm::CalculateHasDoubleTailKBlockLoop(K0);
            float ave_time = 0;
@@ -134,7 +134,7 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
            {
                if(karg.k_batch == 1)
                {
-                    const auto kernel = kernel_gemv_dl_v1r3<GridwiseGemv,
+                    const auto kernel = kernel_tsmm_dl_v1r3<GridwiseTsmm,
                                                            ADataType,
                                                            CDataType,
                                                            InMemoryDataOperationEnum::Set,
@@ -146,7 +146,7 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
                }
                else
                {
-                    const auto kernel = kernel_gemv_dl_v1r3<GridwiseGemv,
+                    const auto kernel = kernel_tsmm_dl_v1r3<GridwiseTsmm,
                                                            ADataType,
                                                            CDataType,
                                                            InMemoryDataOperationEnum::AtomicAdd,
@@ -162,7 +162,7 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
                if(karg.k_batch == 1)
                {
-                    const auto kernel = kernel_gemv_dl_v1r3<GridwiseGemv,
+                    const auto kernel = kernel_tsmm_dl_v1r3<GridwiseTsmm,
                                                            ADataType,
                                                            CDataType,
                                                            InMemoryDataOperationEnum::Set,
@@ -174,7 +174,7 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
                }
                else
                {
-                    const auto kernel = kernel_gemv_dl_v1r3<GridwiseGemv,
+                    const auto kernel = kernel_tsmm_dl_v1r3<GridwiseTsmm,
                                                            ADataType,
                                                            CDataType,
                                                            InMemoryDataOperationEnum::AtomicAdd,
@@ -189,7 +189,7 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
            {
                if(karg.k_batch == 1)
                {
-                    const auto kernel = kernel_gemv_dl_v1r3<GridwiseGemv,
+                    const auto kernel = kernel_tsmm_dl_v1r3<GridwiseTsmm,
                                                            ADataType,
                                                            CDataType,
                                                            InMemoryDataOperationEnum::Set,
@@ -201,7 +201,7 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
                }
                else
                {
-                    const auto kernel = kernel_gemv_dl_v1r3<GridwiseGemv,
+                    const auto kernel = kernel_tsmm_dl_v1r3<GridwiseTsmm,
                                                            ADataType,
                                                            CDataType,
                                                            InMemoryDataOperationEnum::AtomicAdd,
@@ -216,7 +216,7 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
            {
                if(karg.k_batch == 1)
                {
-                    const auto kernel = kernel_gemv_dl_v1r3<GridwiseGemv,
+                    const auto kernel = kernel_tsmm_dl_v1r3<GridwiseTsmm,
                                                            ADataType,
                                                            CDataType,
                                                            InMemoryDataOperationEnum::Set,
@@ -228,7 +228,7 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
                }
                else
                {
-                    const auto kernel = kernel_gemv_dl_v1r3<GridwiseGemv,
+                    const auto kernel = kernel_tsmm_dl_v1r3<GridwiseTsmm,
                                                            ADataType,
                                                            CDataType,
                                                            InMemoryDataOperationEnum::AtomicAdd,
@@ -264,7 +264,7 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
           ck::get_device_name() == "gfx1100" || ck::get_device_name() == "gfx1101" ||
           ck::get_device_name() == "gfx1102")
        {
-            return GridwiseGemv::CheckValidity(arg);
+            return GridwiseTsmm::CheckValidity(arg);
        }
        else
        {
@@ -301,10 +301,10 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
                        StrideA,
                        StrideB,
                        StrideC,
-                        GridwiseGemv::CalculateMPadded(M),
+                        GridwiseTsmm::CalculateMPadded(M),
-                        GridwiseGemv::CalculateNPadded(N),
+                        GridwiseTsmm::CalculateNPadded(N),
-                        K,
+                        GridwiseTsmm::CalculateKPadded(K, KBatch),
-                        GridwiseGemv::CalculateK0(K, KBatch),
+                        GridwiseTsmm::CalculateK0(K, KBatch),
                        KBatch}; // //
    }
@@ -325,6 +325,7 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
                                                      CElementwiseOperation,
                                                      ck::index_t KBatch = 1) override // //
    {
        return std::make_unique<Argument>(static_cast<const ADataType*>(p_a),
                                          static_cast<const BDataType*>(p_b),
                                          static_cast<CDataType*>(p_c),
@@ -334,10 +335,10 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
                                          StrideA,
                                          StrideB,
                                          StrideC,
-                                          GridwiseGemv::CalculateMPadded(M),
+                                          GridwiseTsmm::CalculateMPadded(M),
-                                          GridwiseGemv::CalculateNPadded(N),
+                                          GridwiseTsmm::CalculateNPadded(N),
-                                          K,
+                                          GridwiseTsmm::CalculateKPadded(K, KBatch),
-                                          GridwiseGemv::CalculateK0(K, KBatch),
+                                          GridwiseTsmm::CalculateK0(K, KBatch),
                                          KBatch); // //
    }
@@ -353,7 +354,7 @@ struct deviceGemvDl : public DeviceGemv<ALayout,
        auto str = std::stringstream();
        // clang-format off
-        str << "deviceGemvDl"
+        str << "deviceTsmmDl"
            << "<"
            << BlockSize << ", "
            << MPerBlock << ", "

--- a/include/ck/tensor_operation/gpu/device/masking_specialization.hpp
+++ b/include/ck/tensor_operation/gpu/device/masking_specialization.hpp
--- a/include/ck/tensor_operation/gpu/device/matrix_padder.hpp
+++ b/include/ck/tensor_operation/gpu/device/matrix_padder.hpp
--- a/include/ck/tensor_operation/gpu/device/reduction_operator_mapping.hpp
+++ b/include/ck/tensor_operation/gpu/device/reduction_operator_mapping.hpp
--- a/include/ck/tensor_operation/gpu/device/tensor_layout.hpp
+++ b/include/ck/tensor_operation/gpu/device/tensor_layout.hpp
--- a/include/ck/tensor_operation/gpu/device/tensor_specialization.hpp
+++ b/include/ck/tensor_operation/gpu/device/tensor_specialization.hpp
--- a/include/ck/tensor_operation/gpu/device/welford_helper.hpp
+++ b/include/ck/tensor_operation/gpu/device/welford_helper.hpp
--- a/include/ck/tensor_operation/gpu/element/binary_element_wise_operation.hpp
+++ b/include/ck/tensor_operation/gpu/element/binary_element_wise_operation.hpp
--- a/include/ck/tensor_operation/gpu/element/element_wise_operation.hpp
+++ b/include/ck/tensor_operation/gpu/element/element_wise_operation.hpp
--- a/include/ck/tensor_operation/gpu/element/quantization_operation.hpp
+++ b/include/ck/tensor_operation/gpu/element/quantization_operation.hpp
--- a/include/ck/tensor_operation/gpu/element/unary_element_wise_operation.hpp
+++ b/include/ck/tensor_operation/gpu/element/unary_element_wise_operation.hpp
--- a/include/ck/tensor_operation/gpu/grid/batchnorm_multiblock/gridwise_multiblock_batchnorm_forward.hpp
+++ b/include/ck/tensor_operation/gpu/grid/batchnorm_multiblock/gridwise_multiblock_batchnorm_forward.hpp
--- a/include/ck/tensor_operation/gpu/grid/batchnorm_multiblock/gridwise_multiblock_reduce_second_half_batchnorm_backward_final.hpp
+++ b/include/ck/tensor_operation/gpu/grid/batchnorm_multiblock/gridwise_multiblock_reduce_second_half_batchnorm_backward_final.hpp
--- a/include/ck/tensor_operation/gpu/grid/batchnorm_multiblock/gridwise_multiblock_welford_first_half.hpp
+++ b/include/ck/tensor_operation/gpu/grid/batchnorm_multiblock/gridwise_multiblock_welford_first_half.hpp
--- a/include/ck/tensor_operation/gpu/grid/batchnorm_multiblock/gridwise_multiblock_welford_second_half_batchnorm_forward_final_obsolete.hpp
+++ b/include/ck/tensor_operation/gpu/grid/batchnorm_multiblock/gridwise_multiblock_welford_second_half_batchnorm_forward_final_obsolete.hpp
--- a/include/ck/tensor_operation/gpu/grid/batchnorm_multiblock/gridwise_multiblock_welford_second_half_multiblock_reduce_first_half.hpp
+++ b/include/ck/tensor_operation/gpu/grid/batchnorm_multiblock/gridwise_multiblock_welford_second_half_multiblock_reduce_first_half.hpp
--- a/include/ck/tensor_operation/gpu/grid/block_to_ctile_map.hpp
+++ b/include/ck/tensor_operation/gpu/grid/block_to_ctile_map.hpp
--- a/include/ck/tensor_operation/gpu/grid/gemm_layernorm/gridwise_gemm_multiple_d_welford_first_half_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gemm_layernorm/gridwise_gemm_multiple_d_welford_first_half_xdl_cshuffle.hpp