remove passing by pointer* (only use pass by value and void*), clean up

6bf45709 · Chao Liu · af13f822 · 6bf45709 · 6bf45709 · 6bf45709
Commit 6bf45709 authored Apr 06, 2021 by Chao Liu
4 changed files
--- a/composable_kernel/include/driver/driver_dynamic_convolution_forward_implicit_gemm_v4r4_nchw_kcyx_nkhw.hpp
+++ b/composable_kernel/include/driver/driver_dynamic_convolution_forward_implicit_gemm_v4r4_nchw_kcyx_nkhw.hpp
--- a/composable_kernel/include/driver/driver_dynamic_convolution_forward_implicit_gemm_v4r4_nhwc_kyxc_nhwk.hpp
+++ b/composable_kernel/include/driver/driver_dynamic_convolution_forward_implicit_gemm_v4r4_nhwc_kyxc_nhwk.hpp
--- a/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm.hpp
+++ b/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm.hpp
@@ -11,70 +11,7 @@

 namespace ck {

-#if CK_EXPERIMENTAL_PASS_TENSOR_DESCRIPTOR_BY_VALUE
-// pass tensor descriptor by value
-template <typename GridwiseGemm,
-          typename AGlobalDesc,
-          typename FloatA,
-          typename BGlobalDesc,
-          typename FloatB,
-          typename CGlobalDesc,
-          typename FloatC,
-          bool HasMainKBlockLoop,
-          bool HasDoubleTailKBlockLoop>
-__global__ void run_gridwise_dynamic_gemm_v1(const AGlobalDesc a_k_m_global_desc,
-                                             const FloatA* __restrict__ p_a_global,
-                                             const BGlobalDesc b_k_n_global_desc,
-                                             const FloatB* __restrict__ p_b_global,
-                                             const CGlobalDesc c_m0_m1_n0_n1_global_desc,
-                                             FloatC* __restrict__ p_c_global)
-{
-    GridwiseGemm{}.Run(a_k_m_global_desc,
-                       p_a_global,
-                       b_k_n_global_desc,
-                       p_b_global,
-                       c_m0_m1_n0_n1_global_desc,
-                       p_c_global,
-                       integral_constant<bool, HasMainKBlockLoop>{},
-                       integral_constant<bool, HasDoubleTailKBlockLoop>{});
-}
-#elif CK_EXPERIMENTAL_PASS_TENSOR_DESCRIPTOR_BY_POINTER
-// pass tensor descriptor by __CONSTANT__ pointer
-// __CONSTANT__ is needed to inform compiler pointers in the kernel signature are pointing to
-// non-modifiable parameter address space, so compiler can enable corresponding optimization
-template <typename GridwiseGemm,
-          typename AGlobalDesc,
-          typename FloatA,
-          typename BGlobalDesc,
-          typename FloatB,
-          typename CGlobalDesc,
-          typename FloatC,
-          bool HasMainKBlockLoop,
-          bool HasDoubleTailKBlockLoop>
-__global__ void
-run_gridwise_dynamic_gemm_v1(const AGlobalDesc __CONSTANT__* p_a_k_m_global_desc,
-                             const FloatA* __restrict__ p_a_global,
-                             const BGlobalDesc __CONSTANT__* p_b_k_n_global_desc,
-                             const FloatB* __restrict__ p_b_global,
-                             const CGlobalDesc __CONSTANT__* p_c_m0_m1_n0_n1_global_desc,
-                             FloatC* __restrict__ p_c_global)
-{
-    // cast pointer to address_space(1), because the copy constructor of tensor descriptor is for
-    // address_space(1)
-    const auto a_k_m_global_desc         = *(const AGlobalDesc*)p_a_k_m_global_desc;
-    const auto b_k_n_global_desc         = *(const BGlobalDesc*)p_b_k_n_global_desc;
-    const auto c_m0_m1_n0_n1_global_desc = *(const CGlobalDesc*)p_c_m0_m1_n0_n1_global_desc;
-
-    GridwiseGemm{}.Run(a_k_m_global_desc,
-                       p_a_global,
-                       b_k_n_global_desc,
-                       p_b_global,
-                       c_m0_m1_n0_n1_global_desc,
-                       p_c_global,
-                       integral_constant<bool, HasMainKBlockLoop>{},
-                       integral_constant<bool, HasDoubleTailKBlockLoop>{});
-}
-#elif CK_EXPERIMENTAL_PASS_TENSOR_DESCRIPTOR_BY_VOID_POINTER
+#if CK_EXPERIMENTAL_PASS_TENSOR_DESCRIPTOR_BY_VOID_POINTER
 // pass tensor descriptor by __CONSTANT__ void pointer
 // __CONSTANT__ is needed to inform compiler void pointers in the kernel signature are pointing to
 // non-modifiable parameter address space, so compiler can enable corresponding optimization

--- a/composable_kernel/include/utility/config.amd.hpp.in
+++ b/composable_kernel/include/utility/config.amd.hpp.in
@@ -107,10 +107,9 @@
 #define CK_EXPERIMENTAL_IMPLICIT_GEMM_BACKWARD_DATA_V4R1_INPUT_SKIP_OUT_OF_BOUND_CHECK 0
 #endif

-// pass tensor descriptor by value, pointer or void*
-#define CK_EXPERIMENTAL_PASS_TENSOR_DESCRIPTOR_BY_VALUE 0
-#define CK_EXPERIMENTAL_PASS_TENSOR_DESCRIPTOR_BY_POINTER 0
-#define CK_EXPERIMENTAL_PASS_TENSOR_DESCRIPTOR_BY_VOID_POINTER 1
+// pass tensor descriptor by value or void*
+#define CK_EXPERIMENTAL_PASS_TENSOR_DESCRIPTOR_BY_VALUE 1
+#define CK_EXPERIMENTAL_PASS_TENSOR_DESCRIPTOR_BY_VOID_POINTER 0

 // hack: have underlying assumption that need to be satsified, otherwise it's a bug
 // hack for forcing register to keep idx_diff_low_const in SGPR. idx_diff_low_const must be