overhauling fwd-v4r4

49b926b6 · Chao Liu · b8382727 · 49b926b6 · 49b926b6 · 49b926b6
Commit 49b926b6 authored Jun 02, 2021 by Chao Liu
4 changed files
--- a/composable_kernel/include/driver/driver_dynamic_gemm_v1r2.hpp
+++ b/composable_kernel/include/driver/driver_dynamic_gemm_v1r2.hpp
@@ -26,21 +26,21 @@ template <index_t BlockSize,
          index_t M1N1ThreadClusterN10,
          index_t M1N1ThreadClusterM11,
          index_t M1N1ThreadClusterN11,
-          typename ABlockTransferThreadSliceLengths_K_M,
-          typename ABlockTransferThreadClusterLengths_K_M,
+          typename ABlockTransferThreadSliceLengths_K_M0_M1,
+          typename ABlockTransferThreadClusterLengths_K_M0_M1,
          typename ABlockTransferThreadClusterArrangeOrder,
          typename ABlockTransferSrcAccessOrder,
          index_t ABlockTransferSrcVectorDim,
          index_t ABlockTransferSrcScalarPerVector,
-          index_t ABlockTransferDstScalarPerVector_M,
+          index_t ABlockTransferDstScalarPerVector_M1,
          bool AThreadTransferSrcResetCoordinateAfterRun,
-          typename BBlockTransferThreadSliceLengths_K_N,
-          typename BBlockTransferThreadClusterLengths_K_N,
+          typename BBlockTransferThreadSliceLengths_K_N0_N1,
+          typename BBlockTransferThreadClusterLengths_K_N0_N1,
          typename BBlockTransferThreadClusterArrangeOrder,
          typename BBlockTransferSrcAccessOrder,
          index_t BBlockTransferSrcVectorDim,
          index_t BBlockTransferSrcScalarPerVector,
-          index_t BBlockTransferDstScalarPerVector_N,
+          index_t BBlockTransferDstScalarPerVector_N1,
          bool BThreadTransferSrcResetCoordinateAfterRun,
          typename CThreadTransferSrcDstAccessOrder,
          index_t CThreadTransferSrcDstVectorDim,
@@ -69,7 +69,7 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,

    // GEMM
    using GridwiseGemm =
-        GridwiseDynamicGemm_km_kn_m0m1n0n1_v1r2<BlockSize,
+        GridwiseDynamicGemm_km_kn_mn_v1r2<BlockSize,
                                          FloatAB,
                                          FloatAcc,
                                          FloatC,
@@ -87,21 +87,21 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
                                          M1N1ThreadClusterN10,
                                          M1N1ThreadClusterM11,
                                          M1N1ThreadClusterN11,
-                                                ABlockTransferThreadSliceLengths_K_M,
-                                                ABlockTransferThreadClusterLengths_K_M,
+                                          ABlockTransferThreadSliceLengths_K_M0_M1,
+                                          ABlockTransferThreadClusterLengths_K_M0_M1,
                                          ABlockTransferThreadClusterArrangeOrder,
                                          ABlockTransferSrcAccessOrder,
                                          ABlockTransferSrcVectorDim,
                                          ABlockTransferSrcScalarPerVector,
-                                                ABlockTransferDstScalarPerVector_M,
+                                          ABlockTransferDstScalarPerVector_M1,
                                          AThreadTransferSrcResetCoordinateAfterRun,
-                                                BBlockTransferThreadSliceLengths_K_N,
-                                                BBlockTransferThreadClusterLengths_K_N,
+                                          BBlockTransferThreadSliceLengths_K_N0_N1,
+                                          BBlockTransferThreadClusterLengths_K_N0_N1,
                                          BBlockTransferThreadClusterArrangeOrder,
                                          BBlockTransferSrcAccessOrder,
                                          BBlockTransferSrcVectorDim,
                                          BBlockTransferSrcScalarPerVector,
-                                                BBlockTransferDstScalarPerVector_N,
+                                          BBlockTransferDstScalarPerVector_N1,
                                          BThreadTransferSrcResetCoordinateAfterRun,
                                          CThreadTransferSrcDstAccessOrder,
                                          CThreadTransferSrcDstVectorDim,
@@ -118,8 +118,7 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,

    if(!GridwiseGemm::CheckValidity(a_k_m_grid_desc, b_k_n_grid_desc, c_m_n_grid_desc))
    {
-        throw std::runtime_error(
-            "wrong! GridwiseDynamicGemm_km_kn_m0m1n0n1_v1r2 has invalid setting");
+        throw std::runtime_error("wrong! GridwiseDynamicGemm_km_kn_mn_v1r2 has invalid setting");
    }

    const auto a_k_m0_m1_grid_desc = GridwiseGemm::MakeAKM0M1GridDescriptor(a_k_m_grid_desc);
@@ -154,8 +153,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
            kernel_dynamic_gemm_v1r2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AKMGridDesc>,
-                                     remove_reference_t<BKNGridDesc>,
                                     remove_reference_t<AKM0M1GridDesc>,
                                     remove_reference_t<BKN0N1GridDesc>,
                                     remove_reference_t<CM0M10M11N0N10N11GridDesc>,
@@ -172,8 +169,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
                                          p_a_grid,
                                          p_b_grid,
                                          p_c_grid,
-                                          a_k_m_grid_desc,
-                                          b_k_n_grid_desc,
                                          a_k_m0_m1_grid_desc,
                                          b_k_n0_n1_grid_desc,
                                          c_m0_m10_m11_n0_n10_n11_grid_desc,
@@ -185,8 +180,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
            kernel_dynamic_gemm_v1r2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AKMGridDesc>,
-                                     remove_reference_t<BKNGridDesc>,
                                     remove_reference_t<AKM0M1GridDesc>,
                                     remove_reference_t<BKN0N1GridDesc>,
                                     remove_reference_t<CM0M10M11N0N10N11GridDesc>,
@@ -203,8 +196,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
                                          p_a_grid,
                                          p_b_grid,
                                          p_c_grid,
-                                          a_k_m_grid_desc,
-                                          b_k_n_grid_desc,
                                          a_k_m0_m1_grid_desc,
                                          b_k_n0_n1_grid_desc,
                                          c_m0_m10_m11_n0_n10_n11_grid_desc,
@@ -216,8 +207,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
            kernel_dynamic_gemm_v1r2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AKMGridDesc>,
-                                     remove_reference_t<BKNGridDesc>,
                                     remove_reference_t<AKM0M1GridDesc>,
                                     remove_reference_t<BKN0N1GridDesc>,
                                     remove_reference_t<CM0M10M11N0N10N11GridDesc>,
@@ -234,8 +223,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
                                          p_a_grid,
                                          p_b_grid,
                                          p_c_grid,
-                                          a_k_m_grid_desc,
-                                          b_k_n_grid_desc,
                                          a_k_m0_m1_grid_desc,
                                          b_k_n0_n1_grid_desc,
                                          c_m0_m10_m11_n0_n10_n11_grid_desc,
@@ -247,8 +234,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
            kernel_dynamic_gemm_v1r2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AKMGridDesc>,
-                                     remove_reference_t<BKNGridDesc>,
                                     remove_reference_t<AKM0M1GridDesc>,
                                     remove_reference_t<BKN0N1GridDesc>,
                                     remove_reference_t<CM0M10M11N0N10N11GridDesc>,
@@ -265,8 +250,6 @@ __host__ float driver_dynamic_gemm_v1r2(const FloatAB* p_a_grid,
                                          p_a_grid,
                                          p_b_grid,
                                          p_c_grid,
-                                          a_k_m_grid_desc,
-                                          b_k_n_grid_desc,
                                          a_k_m0_m1_grid_desc,
                                          b_k_n0_n1_grid_desc,
                                          c_m0_m10_m11_n0_n10_n11_grid_desc,

--- a/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm_v1r2.hpp
+++ b/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm_v1r2.hpp
--- a/composable_kernel/include/utility/math.hpp
+++ b/composable_kernel/include/utility/math.hpp
@@ -74,7 +74,7 @@ __host__ __device__ constexpr auto integer_divide_floor(X x, Y y)
 template <class X, class Y>
 __host__ __device__ constexpr auto integer_divide_ceil(X x, Y y)
 {
-    return (x + y - 1) / y;
+    return (x + y - Number<1>{}) / y;
 }

 template <class X, class Y>

--- a/driver/include/device_dynamic_convolution_forward_implicit_gemm_v4r4r2_nchw_kcyx_nkhw.hpp
+++ b/driver/include/device_dynamic_convolution_forward_implicit_gemm_v4r4r2_nchw_kcyx_nkhw.hpp