overhauling fwd-v4r4

49b926b6 · Chao Liu · b8382727 · 49b926b6 · 49b926b6 · 49b926b6
Commit 49b926b6 authored Jun 02, 2021 by Chao Liu
4 changed files
--- a/composable_kernel/include/driver/driver_dynamic_gemm_v1r2.hpp
+++ b/composable_kernel/include/driver/driver_dynamic_gemm_v1r2.hpp
@@ -26,21 +26,21 @@ template <index_t BlockSize,
          index_t M1N1ThreadClusterN10,
          index_t M1N1ThreadClusterM11,
          index_t M1N1ThreadClusterN11,
-          typename ABlockTransferThreadSliceLengths_K_M,
-          typename ABlockTransferThreadClusterLengths_K_M,
+          typename ABlockTransferThreadSliceLengths_K_M0_M1,
+          typename ABlockTransferThreadClusterLengths_K_M0_M1,
          typename ABlockTransferThreadClusterArrangeOrder,
          typename ABlockTransferSrcAccessOrder,
          index_t ABlockTransferSrcVectorDim,
          index_t ABlockTransferSrcScalarPerVector,
-          index_t ABlockTransferDstScalarPerVector_M,
+          index_t ABlockTransferDstScalarPerVector_M1,
          bool AThreadTransferSrcResetCoordinateAfterRun,
-          typename BBlockTransferThreadSliceLengths_K_N,
-          typename BBlockTransferThreadClusterLengths_K_N,
+          typename BBlockTransferThreadSliceLengths_K_N0_N1,
+          typename BBlockTransferThreadClusterLengths_K_N0_N1,
          typename BBlockTransferThreadClusterArrangeOrder,
          typename BBlockTransferSrcAccessOrder,
          index_t BBlockTransferSrcVectorDim,
          index_t BBlockTransferSrcScalarPerVector,
-          index_t BBlockTransferDstScalarPerVector_N,
+          index_t BBlockTransferDstScalarPerVector_N1,
          bool BThreadTransferSrcResetCoordinateAfterRun,
          typename CThreadTransferSrcDstAccessOrder,
          index_t CThreadTransferSrcDstVectorDim,
@@ -69,48 +69,48 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,

    // GEMM
    using GridwiseGemm =
-        GridwiseDynamicGemm_km_kn_m0m1n0n1_v1r2<BlockSize,
-                                                FloatAB,
-                                                FloatAcc,
-                                                FloatC,
-                                                CGlobalMemoryDataOperation,
-                                                AKMGridDesc,
-                                                BKNGridDesc,
-                                                CMNGridDesc,
-                                                MPerBlock,
-                                                NPerBlock,
-                                                KPerBlock,
-                                                M1PerThread,
-                                                N1PerThread,
-                                                KPerThread,
-                                                M1N1ThreadClusterM10,
-                                                M1N1ThreadClusterN10,
-                                                M1N1ThreadClusterM11,
-                                                M1N1ThreadClusterN11,
-                                                ABlockTransferThreadSliceLengths_K_M,
-                                                ABlockTransferThreadClusterLengths_K_M,
-                                                ABlockTransferThreadClusterArrangeOrder,
-                                                ABlockTransferSrcAccessOrder,
-                                                ABlockTransferSrcVectorDim,
-                                                ABlockTransferSrcScalarPerVector,
-                                                ABlockTransferDstScalarPerVector_M,
-                                                AThreadTransferSrcResetCoordinateAfterRun,
-                                                BBlockTransferThreadSliceLengths_K_N,
-                                                BBlockTransferThreadClusterLengths_K_N,
-                                                BBlockTransferThreadClusterArrangeOrder,
-                                                BBlockTransferSrcAccessOrder,
-                                                BBlockTransferSrcVectorDim,
-                                                BBlockTransferSrcScalarPerVector,
-                                                BBlockTransferDstScalarPerVector_N,
-                                                BThreadTransferSrcResetCoordinateAfterRun,
-                                                CThreadTransferSrcDstAccessOrder,
-                                                CThreadTransferSrcDstVectorDim,
-                                                CThreadTransferDstScalarPerVector,
-                                                AGridIteratorHacks,
-                                                BGridIteratorHacks,
-                                                CGridIteratorHacks,
-                                                AGridMoveSliceWindowIteratorHacks,
-                                                BGridMoveSliceWindowIteratorHacks>;
+        GridwiseDynamicGemm_km_kn_mn_v1r2<BlockSize,
+                                          FloatAB,
+                                          FloatAcc,
+                                          FloatC,
+                                          CGlobalMemoryDataOperation,
+                                          AKMGridDesc,
+                                          BKNGridDesc,
+                                          CMNGridDesc,
+                                          MPerBlock,
+                                          NPerBlock,
+                                          KPerBlock,
+                                          M1PerThread,
+                                          N1PerThread,
+                                          KPerThread,
+                                          M1N1ThreadClusterM10,
+                                          M1N1ThreadClusterN10,
+                                          M1N1ThreadClusterM11,
+                                          M1N1ThreadClusterN11,
+                                          ABlockTransferThreadSliceLengths_K_M0_M1,
+                                          ABlockTransferThreadClusterLengths_K_M0_M1,
+                                          ABlockTransferThreadClusterArrangeOrder,
+                                          ABlockTransferSrcAccessOrder,
+                                          ABlockTransferSrcVectorDim,
+                                          ABlockTransferSrcScalarPerVector,
+                                          ABlockTransferDstScalarPerVector_M1,
+                                          AThreadTransferSrcResetCoordinateAfterRun,
+                                          BBlockTransferThreadSliceLengths_K_N0_N1,
+                                          BBlockTransferThreadClusterLengths_K_N0_N1,
+                                          BBlockTransferThreadClusterArrangeOrder,
+                                          BBlockTransferSrcAccessOrder,
+                                          BBlockTransferSrcVectorDim,
+                                          BBlockTransferSrcScalarPerVector,
+                                          BBlockTransferDstScalarPerVector_N1,
+                                          BThreadTransferSrcResetCoordinateAfterRun,
+                                          CThreadTransferSrcDstAccessOrder,
+                                          CThreadTransferSrcDstVectorDim,
+                                          CThreadTransferDstScalarPerVector,
+                                          AGridIteratorHacks,
+                                          BGridIteratorHacks,
+                                          CGridIteratorHacks,
+                                          AGridMoveSliceWindowIteratorHacks,
+                                          BGridMoveSliceWindowIteratorHacks>;

    const auto M = a_k_m_grid_desc.GetLength(I1);
    const auto N = b_k_n_grid_desc.GetLength(I1);
@@ -118,8 +118,7 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,

    if(!GridwiseGemm::CheckValidity(a_k_m_grid_desc, b_k_n_grid_desc, c_m_n_grid_desc))
    {
-        throw std::runtime_error(
-            "wrong! GridwiseDynamicGemm_km_kn_m0m1n0n1_v1r2 has invalid setting");
+        throw std::runtime_error("wrong! GridwiseDynamicGemm_km_kn_mn_v1r2 has invalid setting");
    }

    const auto a_k_m0_m1_grid_desc = GridwiseGemm::MakeAKM0M1GridDescriptor(a_k_m_grid_desc);
@@ -154,8 +153,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
            kernel_dynamic_gemm_v1r2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AKMGridDesc>,
-                                     remove_reference_t<BKNGridDesc>,
                                     remove_reference_t<AKM0M1GridDesc>,
                                     remove_reference_t<BKN0N1GridDesc>,
                                     remove_reference_t<CM0M10M11N0N10N11GridDesc>,
@@ -172,8 +169,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
                                          p_a_grid,
                                          p_b_grid,
                                          p_c_grid,
-                                          a_k_m_grid_desc,
-                                          b_k_n_grid_desc,
                                          a_k_m0_m1_grid_desc,
                                          b_k_n0_n1_grid_desc,
                                          c_m0_m10_m11_n0_n10_n11_grid_desc,
@@ -185,8 +180,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
            kernel_dynamic_gemm_v1r2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AKMGridDesc>,
-                                     remove_reference_t<BKNGridDesc>,
                                     remove_reference_t<AKM0M1GridDesc>,
                                     remove_reference_t<BKN0N1GridDesc>,
                                     remove_reference_t<CM0M10M11N0N10N11GridDesc>,
@@ -203,8 +196,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
                                          p_a_grid,
                                          p_b_grid,
                                          p_c_grid,
-                                          a_k_m_grid_desc,
-                                          b_k_n_grid_desc,
                                          a_k_m0_m1_grid_desc,
                                          b_k_n0_n1_grid_desc,
                                          c_m0_m10_m11_n0_n10_n11_grid_desc,
@@ -216,8 +207,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
            kernel_dynamic_gemm_v1r2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AKMGridDesc>,
-                                     remove_reference_t<BKNGridDesc>,
                                     remove_reference_t<AKM0M1GridDesc>,
                                     remove_reference_t<BKN0N1GridDesc>,
                                     remove_reference_t<CM0M10M11N0N10N11GridDesc>,
@@ -234,8 +223,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
                                          p_a_grid,
                                          p_b_grid,
                                          p_c_grid,
-                                          a_k_m_grid_desc,
-                                          b_k_n_grid_desc,
                                          a_k_m0_m1_grid_desc,
                                          b_k_n0_n1_grid_desc,
                                          c_m0_m10_m11_n0_n10_n11_grid_desc,
@@ -247,8 +234,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
            kernel_dynamic_gemm_v1r2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AKMGridDesc>,
-                                     remove_reference_t<BKNGridDesc>,
                                     remove_reference_t<AKM0M1GridDesc>,
                                     remove_reference_t<BKN0N1GridDesc>,
                                     remove_reference_t<CM0M10M11N0N10N11GridDesc>,
@@ -265,8 +250,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
                                          p_a_grid,
                                          p_b_grid,
                                          p_c_grid,
-                                          a_k_m_grid_desc,
-                                          b_k_n_grid_desc,
                                          a_k_m0_m1_grid_desc,
                                          b_k_n0_n1_grid_desc,
                                          c_m0_m10_m11_n0_n10_n11_grid_desc,

--- a/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm_v1r2.hpp
+++ b/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm_v1r2.hpp
--- a/composable_kernel/include/utility/math.hpp
+++ b/composable_kernel/include/utility/math.hpp
@@ -74,7 +74,7 @@ __host__ __device__ constexpr auto integer_divide_floor(X x, Y y)
 template <class X, class Y>
 __host__ __device__ constexpr auto integer_divide_ceil(X x, Y y)
 {
-    return (x + y - 1) / y;
+    return (x + y - Number<1>{}) / y;
 }

 template <class X, class Y>

--- a/driver/include/device_dynamic_convolution_forward_implicit_gemm_v4r4r2_nchw_kcyx_nkhw.hpp
+++ b/driver/include/device_dynamic_convolution_forward_implicit_gemm_v4r4r2_nchw_kcyx_nkhw.hpp