rename

c03045ce · Chao Liu · b2589957 · c03045ce · c03045ce · c03045ce
Commit c03045ce authored Aug 10, 2021 by Chao Liu
20 changed files
--- a/composable_kernel/include/tensor_operation/gridwise_dynamic_contraction_dlops_v1r2.hpp
+++ b/composable_kernel/include/tensor_operation/gridwise_dynamic_contraction_dlops_v1r2.hpp
-#ifndef CK_GRIDWISE_DYNAMIC_CONTRACTION_DLOPS_V1R2_HPP
+#ifndef CK_GRIDWISE_CONTRACTION_DLOPS_V1R2_HPP
-#define CK_GRIDWISE_DYNAMIC_CONTRACTION_DLOPS_V1R2_HPP
+#define CK_GRIDWISE_CONTRACTION_DLOPS_V1R2_HPP
 #include "common_header.hpp"
-#include "dynamic_multi_index_transform_helper.hpp"
+#include "multi_index_transform_helper.hpp"
-#include "dynamic_tensor_descriptor.hpp"
+#include "tensor_descriptor.hpp"
-#include "dynamic_tensor_descriptor_helper.hpp"
+#include "tensor_descriptor_helper.hpp"
 #include "blockwise_gemm_dlops_v2r3.hpp"
-#include "blockwise_dynamic_tensor_slice_transfer_v2.hpp"
+#include "blockwise_tensor_slice_transfer_v2.hpp"
-#include "threadwise_dynamic_tensor_slice_transfer.hpp"
+#include "threadwise_tensor_slice_transfer.hpp"
-#include "threadwise_dynamic_tensor_slice_set.hpp"
+#include "threadwise_tensor_slice_set.hpp"
 namespace ck {
@@ -25,7 +25,7 @@ __global__ void
 #if CK_USE_LAUNCH_BOUNDS
    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
 #endif
-        kernel_dynamic_contraction_dlops_v1r2(
+        kernel_contraction_dlops_v1r2(
            const FloatAB* __restrict__ p_a_grid,
            const FloatAB* __restrict__ p_b_grid,
            FloatC* __restrict__ p_c_grid,
@@ -89,7 +89,7 @@ template <index_t BlockSize,
          typename CGridIteratorHacks,
          typename AGridMoveSliceWindowIteratorHacks,
          typename BGridMoveSliceWindowIteratorHacks>
-struct GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0_GM1_GN0_GN1
+struct GridwiseContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0_GM1_GN0_GN1
 {
    static constexpr auto I0 = Number<0>{};
    static constexpr auto I1 = Number<1>{};
@@ -110,17 +110,15 @@ struct GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0
        // A matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto a_block_desc_gk0_gm0_gm10_gm11_gk1 =
+        constexpr auto a_block_desc_gk0_gm0_gm10_gm11_gk1 = make_naive_tensor_descriptor_aligned_v2(
-            make_dynamic_naive_tensor_descriptor_aligned_v2(
+            make_tuple(Number<GK0PerBlock>{}, GM0, I1, Number<GM1PerBlockGM11>{}, GK1),
-                make_tuple(Number<GK0PerBlock>{}, GM0, I1, Number<GM1PerBlockGM11>{}, GK1),
+            max_lds_align);
-                max_lds_align);
        // B matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto b_block_desc_gk0_gn0_gn10_gn11_gk1 =
+        constexpr auto b_block_desc_gk0_gn0_gn10_gn11_gk1 = make_naive_tensor_descriptor_aligned_v2(
-            make_dynamic_naive_tensor_descriptor_aligned_v2(
+            make_tuple(Number<GK0PerBlock>{}, GN0, I1, Number<GN1PerBlockGN11>{}, GK1),
-                make_tuple(Number<GK0PerBlock>{}, GN0, I1, Number<GN1PerBlockGN11>{}, GK1),
+            max_lds_align);
-                max_lds_align);
        // LDS allocation for A and B: be careful of alignment
        constexpr auto a_block_aligned_space_size = math::integer_least_multiple(
@@ -201,7 +199,7 @@ struct GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0
        const auto GM11 = Number<GM1PerBlockGM11>{};
        const auto GM10 = GM1 / GM11;
-        const auto a_grid_desc_gk0_gm0_gm10_gm11_gk1 = transform_dynamic_tensor_descriptor(
+        const auto a_grid_desc_gk0_gm0_gm10_gm11_gk1 = transform_tensor_descriptor(
            a_grid_desc_gk0_gm0_gm1_gk1,
            make_tuple(make_pass_through_transform(GK0),
                       make_pass_through_transform(GM0),
@@ -222,7 +220,7 @@ struct GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0
        const auto GN11 = Number<GN1PerBlockGN11>{};
        const auto GN10 = GN1 / GN11;
-        const auto b_grid_desc_gk0_gn0_gn10_gn11_gk1 = transform_dynamic_tensor_descriptor(
+        const auto b_grid_desc_gk0_gn0_gn10_gn11_gk1 = transform_tensor_descriptor(
            b_grid_desc_gk0_gn0_gn1_gk1,
            make_tuple(make_pass_through_transform(GK0),
                       make_pass_through_transform(GN0),
@@ -259,7 +257,7 @@ struct GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0
        constexpr auto BM0 = BM / BM1;
        constexpr auto BN0 = BN / BN1;
-        const auto c_gm0_gm10_gm11_gn0_gn10_gn11_grid_desc = transform_dynamic_tensor_descriptor(
+        const auto c_gm0_gm10_gm11_gn0_gn10_gn11_grid_desc = transform_tensor_descriptor(
            c_grid_desc_gm0_gm1_gn0_gn1,
            make_tuple(make_pass_through_transform(GM0),
                       make_unmerge_transform(make_tuple(GM10, GM11)),
@@ -268,7 +266,7 @@ struct GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0
            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}, Sequence<3>{}),
            make_tuple(Sequence<0>{}, Sequence<1, 2>{}, Sequence<3>{}, Sequence<4, 5>{}));
-        const auto c_gm10_bm_gn10_bn_grid_desc = transform_dynamic_tensor_descriptor(
+        const auto c_gm10_bm_gn10_bn_grid_desc = transform_tensor_descriptor(
            c_gm0_gm10_gm11_gn0_gn10_gn11_grid_desc,
            make_tuple(make_pass_through_transform(GM10),
                       make_merge_transform(make_tuple(GM0, GM11)),
@@ -277,7 +275,7 @@ struct GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0
            make_tuple(Sequence<1>{}, Sequence<0, 2>{}, Sequence<4>{}, Sequence<3, 5>{}),
            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}, Sequence<3>{}));
-        const auto c_grid_desc_gm10_bm0_bm1_gn10_bn0_bn1 = transform_dynamic_tensor_descriptor(
+        const auto c_grid_desc_gm10_bm0_bm1_gn10_bn0_bn1 = transform_tensor_descriptor(
            c_gm10_bm_gn10_bn_grid_desc,
            make_tuple(make_pass_through_transform(GM10),
                       make_unmerge_transform(make_tuple(BM0, BM1)),
@@ -356,26 +354,24 @@ struct GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0
        // A matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto a_block_desc_gk0_gm0_gm10_gm11_gk1 =
+        constexpr auto a_block_desc_gk0_gm0_gm10_gm11_gk1 = make_naive_tensor_descriptor_aligned_v2(
-            make_dynamic_naive_tensor_descriptor_aligned_v2(
+            make_tuple(Number<GK0PerBlock>{}, GM0, I1, Number<GM1PerBlockGM11>{}, GK1),
-                make_tuple(Number<GK0PerBlock>{}, GM0, I1, Number<GM1PerBlockGM11>{}, GK1),
+            max_lds_align);
-                max_lds_align);
        // B matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto b_block_desc_gk0_gn0_gn10_gn11_gk1 =
+        constexpr auto b_block_desc_gk0_gn0_gn10_gn11_gk1 = make_naive_tensor_descriptor_aligned_v2(
-            make_dynamic_naive_tensor_descriptor_aligned_v2(
+            make_tuple(Number<GK0PerBlock>{}, GN0, I1, Number<GN1PerBlockGN11>{}, GK1),
-                make_tuple(Number<GK0PerBlock>{}, GN0, I1, Number<GN1PerBlockGN11>{}, GK1),
+            max_lds_align);
-                max_lds_align);
        // A matrix in LDS memory for blockwise GEMM
        //   be careful of LDS alignment
-        constexpr auto a_block_desc_gk0_bm_gk1 = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto a_block_desc_gk0_bm_gk1 = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<GK0PerBlock>{}, GM0 * Number<GM1PerBlockGM11>{}, GK1), max_lds_align);
        // B matrix in LDS memory for blockwise GEMM
        //   be careful of LDS alignment
-        constexpr auto b_block_desc_gk0_bn_gk1 = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto b_block_desc_gk0_bn_gk1 = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<GK0PerBlock>{}, GN0 * Number<GN1PerBlockGN11>{}, GK1), max_lds_align);
        static_assert(a_block_desc_gk0_gm0_gm10_gm11_gk1.GetElementSpaceSize() ==
@@ -385,7 +381,7 @@ struct GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0
                      "wrong!");
        // A matrix blockwise copy
-        auto a_blockwise_copy = BlockwiseDynamicTensorSliceTransfer_v4r1<
+        auto a_blockwise_copy = BlockwiseTensorSliceTransfer_v4r1<
            BlockSize,
            InMemoryDataOperationEnum_t::Set,
            Sequence<GK0PerBlock, GM0, 1, GM1PerBlockGM11, GK1.value>,
@@ -409,7 +405,7 @@ struct GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0
                  make_multi_index(0, 0, 0, 0, 0));
        // B matrix blockwise copy
-        auto b_blockwise_copy = BlockwiseDynamicTensorSliceTransfer_v4r1<
+        auto b_blockwise_copy = BlockwiseTensorSliceTransfer_v4r1<
            BlockSize,
            InMemoryDataOperationEnum_t::Set,
            Sequence<GK0PerBlock, GN0, 1, GN1PerBlockGN11, GK1.value>,
@@ -457,9 +453,8 @@ struct GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0
        constexpr auto c_thread_tensor_lengths_bm0_bm1_bn0_bn1 =
            decltype(blockwise_gemm)::GetCThreadTensorLengths_BM0_BM1_BN0_BN1();
-        constexpr auto c_thread_desc_bm0_bm1_bn0_bn1 =
+        constexpr auto c_thread_desc_bm0_bm1_bn0_bn1 = make_naive_tensor_descriptor_packed(
-            make_dynamic_naive_tensor_descriptor_packed_v2(
+            sequence_to_tuple_of_number(c_thread_tensor_lengths_bm0_bm1_bn0_bn1));
-                sequence_to_tuple_of_number(c_thread_tensor_lengths_bm0_bm1_bn0_bn1));
        // LDS allocation for A and B: be careful of alignment
        constexpr auto a_block_aligned_space_size = math::integer_least_multiple(
@@ -475,9 +470,9 @@ struct GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0
        auto c_thread_buf = make_static_buffer<AddressSpaceEnum_t::Vgpr, FloatAcc>(
            c_thread_desc_bm0_bm1_bn0_bn1.GetElementSpaceSize());
-        ThreadwiseDynamicTensorSliceSet_v1<FloatAcc,
+        ThreadwiseTensorSliceSet_v1<FloatAcc,
-                                           decltype(c_thread_desc_bm0_bm1_bn0_bn1),
+                                    decltype(c_thread_desc_bm0_bm1_bn0_bn1),
-                                           decltype(c_thread_tensor_lengths_bm0_bm1_bn0_bn1)>{}
+                                    decltype(c_thread_tensor_lengths_bm0_bm1_bn0_bn1)>{}
            .Run(c_thread_desc_bm0_bm1_bn0_bn1,
                 make_tuple(I0, I0, I0, I0),
                 c_thread_buf,
@@ -615,7 +610,7 @@ struct GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0
        // output: register to global memory
        {
            constexpr auto c_thread_desc_gm10_bm0_bm1_gn10_bn0_bn1 =
-                make_dynamic_naive_tensor_descriptor_packed_v2(
+                make_naive_tensor_descriptor_packed(
                    make_tuple(I1,
                               Number<c_thread_tensor_lengths_bm0_bm1_bn0_bn1[I0]>{},
                               Number<c_thread_tensor_lengths_bm0_bm1_bn0_bn1[I1]>{},
@@ -627,7 +622,7 @@ struct GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0
                blockwise_gemm.CalculateCThreadOriginOnBlock_BM0_BM1_BN0_BN1(
                    get_thread_local_1d_id());
-            ThreadwiseDynamicTensorSliceTransfer_v1r3<
+            ThreadwiseTensorSliceTransfer_v1r3<
                FloatAcc,
                FloatC,
                decltype(c_thread_desc_gm10_bm0_bm1_gn10_bn0_bn1),

--- a/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm_dlops_v1r2.hpp
+++ b/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm_dlops_v1r2.hpp
-#ifndef CK_GRIDWISE_DYNAMIC_GEMM_DLOPS_V1R2_HPP
+#ifndef CK_GRIDWISE_GEMM_DLOPS_V1R2_HPP
-#define CK_GRIDWISE_DYNAMIC_GEMM_DLOPS_V1R2_HPP
+#define CK_GRIDWISE_GEMM_DLOPS_V1R2_HPP
 #include "common_header.hpp"
-#include "dynamic_multi_index_transform_helper.hpp"
+#include "multi_index_transform_helper.hpp"
-#include "dynamic_tensor_descriptor.hpp"
+#include "tensor_descriptor.hpp"
-#include "dynamic_tensor_descriptor_helper.hpp"
+#include "tensor_descriptor_helper.hpp"
 #include "blockwise_gemm_dlops_v2r2.hpp"
-#include "blockwise_dynamic_tensor_slice_transfer.hpp"
+#include "blockwise_tensor_slice_transfer.hpp"
-#include "threadwise_dynamic_tensor_slice_transfer.hpp"
+#include "threadwise_tensor_slice_transfer.hpp"
-#include "threadwise_dynamic_tensor_slice_set.hpp"
+#include "threadwise_tensor_slice_set.hpp"
 namespace ck {
@@ -26,7 +26,7 @@ __global__ void
 #if CK_USE_LAUNCH_BOUNDS
    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
 #endif
-        kernel_dynamic_gemm_dlops_v1r2(
+        kernel_gemm_dlops_v1r2(
            const FloatAB* __restrict__ p_a_grid,
            const FloatAB* __restrict__ p_b_grid,
            FloatC* __restrict__ p_c_grid,
@@ -68,14 +68,13 @@ __global__ void
 #if CK_USE_LAUNCH_BOUNDS
    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
 #endif
-        kernel_dynamic_gemm_dlops_v1r2(
+        kernel_gemm_dlops_v1r2(const FloatAB* __restrict__ p_a_grid,
-            const FloatAB* __restrict__ p_a_grid,
+                               const FloatAB* __restrict__ p_b_grid,
-            const FloatAB* __restrict__ p_b_grid,
+                               FloatC* __restrict__ p_c_grid,
-            FloatC* __restrict__ p_c_grid,
+                               const void CONSTANT* p_a_k_m0_m1_grid_desc,
-            const void CONSTANT* p_a_k_m0_m1_grid_desc,
+                               const void CONSTANT* p_b_k_n0_n1_grid_desc,
-            const void CONSTANT* p_b_k_n0_n1_grid_desc,
+                               const void CONSTANT* p_c_m0_m10_m11_n0_n10_n11_grid_desc,
-            const void CONSTANT* p_c_m0_m10_m11_n0_n10_n11_grid_desc,
+                               const void CONSTANT* p_c_blockid_to_m0_n0_block_cluster_adaptor)
-            const void CONSTANT* p_c_blockid_to_m0_n0_block_cluster_adaptor)
 {
    // first cast void CONSTANT void* to void*
    // second cast void* to Desc*
@@ -151,7 +150,7 @@ template <index_t BlockSize,
          typename CGridIteratorHacks,
          typename AGridMoveSliceWindowIteratorHacks,
          typename BGridMoveSliceWindowIteratorHacks>
-struct GridwiseDynamicGemmDlops_km_kn_mn_v1r2
+struct GridwiseGemmDlops_km_kn_mn_v1r2
 {
    static constexpr auto I0 = Number<0>{};
    static constexpr auto I1 = Number<1>{};
@@ -167,12 +166,12 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r2
        // A matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto a_k_m_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto a_k_m_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, Number<MPerBlockM1>{}), max_lds_align);
        // B matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto b_k_n_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto b_k_n_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, Number<NPerBlockN1>{}), max_lds_align);
        // LDS allocation for A and B: be careful of alignment
@@ -230,7 +229,7 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r2
        const auto M1 = Number<MPerBlockM1>{};
        const auto M0 = M / M1;
-        const auto a_k_m0_m1_grid_desc = transform_dynamic_tensor_descriptor(
+        const auto a_k_m0_m1_grid_desc = transform_tensor_descriptor(
            a_k_m_grid_desc,
            make_tuple(make_pass_through_transform(K), make_unmerge_transform(make_tuple(M0, M1))),
            make_tuple(Sequence<0>{}, Sequence<1>{}),
@@ -248,7 +247,7 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r2
        const auto N1 = Number<NPerBlockN1>{};
        const auto N0 = N / N1;
-        const auto b_k_n0_n1_grid_desc = transform_dynamic_tensor_descriptor(
+        const auto b_k_n0_n1_grid_desc = transform_tensor_descriptor(
            b_k_n_grid_desc,
            make_tuple(make_pass_through_transform(K), make_unmerge_transform(make_tuple(N0, N1))),
            make_tuple(Sequence<0>{}, Sequence<1>{}),
@@ -277,7 +276,7 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r2
        constexpr auto M10 = M1 / M11;
        constexpr auto N10 = N1 / N11;
-        const auto c_m0_m10_m11_n0_n10_n11_grid_desc = transform_dynamic_tensor_descriptor(
+        const auto c_m0_m10_m11_n0_n10_n11_grid_desc = transform_tensor_descriptor(
            c_m_n_grid_desc,
            make_tuple(make_unmerge_transform(make_tuple(M0, M10, M11)),
                       make_unmerge_transform(make_tuple(N0, N10, N11))),
@@ -352,75 +351,75 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r2
        // A matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto a_k_m_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto a_k_m_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, Number<MPerBlockM1>{}), max_lds_align);
        // B matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto b_k_n_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto b_k_n_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, Number<NPerBlockN1>{}), max_lds_align);
        // A matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto a_k_m0_m1_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto a_k_m0_m1_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, I1, Number<MPerBlockM1>{}), max_lds_align);
        // B matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto b_k_n0_n1_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto b_k_n0_n1_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, I1, Number<NPerBlockN1>{}), max_lds_align);
        // A matrix blockwise copy
        auto a_blockwise_copy =
-            BlockwiseDynamicTensorSliceTransfer_v4<BlockSize,
+            BlockwiseTensorSliceTransfer_v4<BlockSize,
-                                                   InMemoryDataOperationEnum_t::Set,
+                                            InMemoryDataOperationEnum_t::Set,
-                                                   Sequence<KPerBlock, 1, MPerBlockM1>,
+                                            Sequence<KPerBlock, 1, MPerBlockM1>,
-                                                   ABlockTransferThreadSliceLengths_K_M0_M1,
+                                            ABlockTransferThreadSliceLengths_K_M0_M1,
-                                                   ABlockTransferThreadClusterLengths_K_M0_M1,
+                                            ABlockTransferThreadClusterLengths_K_M0_M1,
-                                                   ABlockTransferThreadClusterArrangeOrder,
+                                            ABlockTransferThreadClusterArrangeOrder,
-                                                   FloatAB,
+                                            FloatAB,
-                                                   FloatAB,
+                                            FloatAB,
-                                                   decltype(a_k_m0_m1_grid_desc),
+                                            decltype(a_k_m0_m1_grid_desc),
-                                                   decltype(a_k_m0_m1_block_desc),
+                                            decltype(a_k_m0_m1_block_desc),
-                                                   ABlockTransferSrcAccessOrder,
+                                            ABlockTransferSrcAccessOrder,
-                                                   Sequence<0, 1, 2>,
+                                            Sequence<0, 1, 2>,
-                                                   ABlockTransferSrcVectorDim,
+                                            ABlockTransferSrcVectorDim,
-                                                   2,
+                                            2,
-                                                   ABlockTransferSrcScalarPerVector,
+                                            ABlockTransferSrcScalarPerVector,
-                                                   ABlockTransferDstScalarPerVector_M1,
+                                            ABlockTransferDstScalarPerVector_M1,
-                                                   1,
+                                            1,
-                                                   1,
+                                            1,
-                                                   AThreadTransferSrcResetCoordinateAfterRun,
+                                            AThreadTransferSrcResetCoordinateAfterRun,
-                                                   true>(a_k_m0_m1_grid_desc,
+                                            true>(a_k_m0_m1_grid_desc,
-                                                         make_multi_index(0, im0, 0),
+                                                  make_multi_index(0, im0, 0),
-                                                         a_k_m0_m1_block_desc,
+                                                  a_k_m0_m1_block_desc,
-                                                         make_multi_index(0, 0, 0));
+                                                  make_multi_index(0, 0, 0));
        // B matrix blockwise copy
        auto b_blockwise_copy =
-            BlockwiseDynamicTensorSliceTransfer_v4<BlockSize,
+            BlockwiseTensorSliceTransfer_v4<BlockSize,
-                                                   InMemoryDataOperationEnum_t::Set,
+                                            InMemoryDataOperationEnum_t::Set,
-                                                   Sequence<KPerBlock, 1, NPerBlockN1>,
+                                            Sequence<KPerBlock, 1, NPerBlockN1>,
-                                                   BBlockTransferThreadSliceLengths_K_N0_N1,
+                                            BBlockTransferThreadSliceLengths_K_N0_N1,
-                                                   BBlockTransferThreadClusterLengths_K_N0_N1,
+                                            BBlockTransferThreadClusterLengths_K_N0_N1,
-                                                   BBlockTransferThreadClusterArrangeOrder,
+                                            BBlockTransferThreadClusterArrangeOrder,
-                                                   FloatAB,
+                                            FloatAB,
-                                                   FloatAB,
+                                            FloatAB,
-                                                   decltype(b_k_n0_n1_grid_desc),
+                                            decltype(b_k_n0_n1_grid_desc),
-                                                   decltype(b_k_n0_n1_block_desc),
+                                            decltype(b_k_n0_n1_block_desc),
-                                                   BBlockTransferSrcAccessOrder,
+                                            BBlockTransferSrcAccessOrder,
-                                                   Sequence<0, 1, 2>,
+                                            Sequence<0, 1, 2>,
-                                                   BBlockTransferSrcVectorDim,
+                                            BBlockTransferSrcVectorDim,
-                                                   2,
+                                            2,
-                                                   BBlockTransferSrcScalarPerVector,
+                                            BBlockTransferSrcScalarPerVector,
-                                                   BBlockTransferDstScalarPerVector_N1,
+                                            BBlockTransferDstScalarPerVector_N1,
-                                                   1,
+                                            1,
-                                                   1,
+                                            1,
-                                                   BThreadTransferSrcResetCoordinateAfterRun,
+                                            BThreadTransferSrcResetCoordinateAfterRun,
-                                                   true>(b_k_n0_n1_grid_desc,
+                                            true>(b_k_n0_n1_grid_desc,
-                                                         make_multi_index(0, in0, 0),
+                                                  make_multi_index(0, in0, 0),
-                                                         b_k_n0_n1_block_desc,
+                                                  b_k_n0_n1_block_desc,
-                                                         make_multi_index(0, 0, 0));
+                                                  make_multi_index(0, 0, 0));
        // GEMM definition
        //   c_mtx += transpose(a_mtx) * b_mtx
@@ -447,9 +446,8 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r2
        constexpr auto c_m10_m11_n10_n11_thread_tensor_lengths =
            decltype(blockwise_gemm)::GetCM0M1N0N1ThreadTensorLengths();
-        constexpr auto c_m10_m11_n10_n11_thread_desc =
+        constexpr auto c_m10_m11_n10_n11_thread_desc = make_naive_tensor_descriptor_packed(
-            make_dynamic_naive_tensor_descriptor_packed_v2(
+            sequence_to_tuple_of_number(c_m10_m11_n10_n11_thread_tensor_lengths));
-                sequence_to_tuple_of_number(c_m10_m11_n10_n11_thread_tensor_lengths));
        // LDS allocation for A and B: be careful of alignment
        constexpr auto a_block_aligned_space_size =
@@ -465,9 +463,9 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r2
        auto c_thread_buf = make_static_buffer<AddressSpaceEnum_t::Vgpr, FloatAcc>(
            c_m10_m11_n10_n11_thread_desc.GetElementSpaceSize());
-        ThreadwiseDynamicTensorSliceSet_v1<FloatAcc,
+        ThreadwiseTensorSliceSet_v1<FloatAcc,
-                                           decltype(c_m10_m11_n10_n11_thread_desc),
+                                    decltype(c_m10_m11_n10_n11_thread_desc),
-                                           decltype(c_m10_m11_n10_n11_thread_tensor_lengths)>{}
+                                    decltype(c_m10_m11_n10_n11_thread_tensor_lengths)>{}
            .Run(c_m10_m11_n10_n11_thread_desc,
                 make_tuple(I0, I0, I0, I0),
                 c_thread_buf,
@@ -620,7 +618,7 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r2
        // output: register to global memory
        {
            constexpr auto c_m0_m10_m11_n0_n10_n11_thread_desc =
-                make_dynamic_naive_tensor_descriptor_packed_v2(
+                make_naive_tensor_descriptor_packed(
                    make_tuple(I1,
                               Number<c_m10_m11_n10_n11_thread_tensor_lengths[I0]>{},
                               Number<c_m10_m11_n10_n11_thread_tensor_lengths[I1]>{},
@@ -631,7 +629,7 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r2
            const auto c_m10_m11_n10_n11_thread_origin_idx_on_block =
                blockwise_gemm.CalculateCM0M1N0N1ThreadOriginOnBlock(get_thread_local_1d_id());
-            ThreadwiseDynamicTensorSliceTransfer_v1r3<
+            ThreadwiseTensorSliceTransfer_v1r3<
                FloatAcc,
                FloatC,
                decltype(c_m0_m10_m11_n0_n10_n11_thread_desc),

--- a/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm_dlops_v1r3.hpp
+++ b/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm_dlops_v1r3.hpp
-#ifndef CK_GRIDWISE_DYNAMIC_GEMM_V1R3_HPP
+#ifndef CK_GRIDWISE_GEMM_V1R3_HPP
-#define CK_GRIDWISE_DYNAMIC_GEMM_V1R3_HPP
+#define CK_GRIDWISE_GEMM_V1R3_HPP
 #include "common_header.hpp"
-#include "dynamic_multi_index_transform_helper.hpp"
+#include "multi_index_transform_helper.hpp"
-#include "dynamic_tensor_descriptor.hpp"
+#include "tensor_descriptor.hpp"
-#include "dynamic_tensor_descriptor_helper.hpp"
+#include "tensor_descriptor_helper.hpp"
 #include "blockwise_gemm_dlops_v2r3.hpp"
-#include "blockwise_dynamic_tensor_slice_transfer_v2.hpp"
+#include "blockwise_tensor_slice_transfer_v2.hpp"
-#include "threadwise_dynamic_tensor_slice_transfer_v2.hpp"
+#include "threadwise_tensor_slice_transfer_v2.hpp"
-#include "threadwise_dynamic_tensor_slice_set.hpp"
+#include "threadwise_tensor_slice_set.hpp"
 namespace ck {
@@ -26,7 +26,7 @@ __global__ void
 #if CK_USE_LAUNCH_BOUNDS
    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
 #endif
-        kernel_dynamic_gemm_dlops_v1r3(
+        kernel_gemm_dlops_v1r3(
            const FloatAB* __restrict__ p_a_grid,
            const FloatAB* __restrict__ p_b_grid,
            FloatC* __restrict__ p_c_grid,
@@ -68,14 +68,13 @@ __global__ void
 #if CK_USE_LAUNCH_BOUNDS
    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
 #endif
-        kernel_dynamic_gemm_dlops_v1r3(
+        kernel_gemm_dlops_v1r3(const FloatAB* __restrict__ p_a_grid,
-            const FloatAB* __restrict__ p_a_grid,
+                               const FloatAB* __restrict__ p_b_grid,
-            const FloatAB* __restrict__ p_b_grid,
+                               FloatC* __restrict__ p_c_grid,
-            FloatC* __restrict__ p_c_grid,
+                               const void CONSTANT* p_a_k0_m0_m1_k1_grid_desc,
-            const void CONSTANT* p_a_k0_m0_m1_k1_grid_desc,
+                               const void CONSTANT* p_b_k0_n0_n1_k1_grid_desc,
-            const void CONSTANT* p_b_k0_n0_n1_k1_grid_desc,
+                               const void CONSTANT* p_c_m0_m10_m11_n0_n10_n11_grid_desc,
-            const void CONSTANT* p_c_m0_m10_m11_n0_n10_n11_grid_desc,
+                               const void CONSTANT* p_c_blockid_to_m0_n0_block_cluster_adaptor)
-            const void CONSTANT* p_c_blockid_to_m0_n0_block_cluster_adaptor)
 {
    // first cast void CONSTANT void* to void*
    // second cast void* to Desc*
@@ -147,7 +146,7 @@ template <index_t BlockSize,
          typename CGridIteratorHacks,
          typename AGridMoveSliceWindowIteratorHacks,
          typename BGridMoveSliceWindowIteratorHacks>
-struct GridwiseDynamicGemmDlops_km_kn_mn_v1r3
+struct GridwiseGemmDlops_km_kn_mn_v1r3
 {
    static constexpr auto I0 = Number<0>{};
    static constexpr auto I1 = Number<1>{};
@@ -164,12 +163,12 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r3
        // TODO: check alignment
        // A matrix in LDS memory, dst of blockwise copy
-        constexpr auto a_k_m_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto a_k_m_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, Number<MPerBlockM1>{}, K1), max_lds_align);
        // TODO: check alignment
        // B matrix in LDS memory, dst of blockwise copy
-        constexpr auto b_k_n_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto b_k_n_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, Number<NPerBlockN1>{}, K1), max_lds_align);
        // TODO: check alignment
@@ -231,13 +230,13 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r3
        const auto M1 = Number<MPerBlockM1>{};
        const auto M0 = M / M1;
-        const auto a_k0_m0_m1_k1_grid_desc = transform_dynamic_tensor_descriptor(
+        const auto a_k0_m0_m1_k1_grid_desc =
-            a_k0_m_k1_grid_desc,
+            transform_tensor_descriptor(a_k0_m_k1_grid_desc,
-            make_tuple(make_pass_through_transform(K0),
+                                        make_tuple(make_pass_through_transform(K0),
-                       make_unmerge_transform(make_tuple(M0, M1)),
+                                                   make_unmerge_transform(make_tuple(M0, M1)),
-                       make_pass_through_transform(K1)),
+                                                   make_pass_through_transform(K1)),
-            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}),
+                                        make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}),
-            make_tuple(Sequence<0>{}, Sequence<1, 2>{}, Sequence<3>{}));
+                                        make_tuple(Sequence<0>{}, Sequence<1, 2>{}, Sequence<3>{}));
        return a_k0_m0_m1_k1_grid_desc;
    }
@@ -251,13 +250,13 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r3
        const auto N1 = Number<NPerBlockN1>{};
        const auto N0 = N / N1;
-        const auto b_k0_n0_n1_k1_grid_desc = transform_dynamic_tensor_descriptor(
+        const auto b_k0_n0_n1_k1_grid_desc =
-            b_k0_n_k1_grid_desc,
+            transform_tensor_descriptor(b_k0_n_k1_grid_desc,
-            make_tuple(make_pass_through_transform(K0),
+                                        make_tuple(make_pass_through_transform(K0),
-                       make_unmerge_transform(make_tuple(N0, N1)),
+                                                   make_unmerge_transform(make_tuple(N0, N1)),
-                       make_pass_through_transform(K1)),
+                                                   make_pass_through_transform(K1)),
-            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}),
+                                        make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}),
-            make_tuple(Sequence<0>{}, Sequence<1, 2>{}, Sequence<3>{}));
+                                        make_tuple(Sequence<0>{}, Sequence<1, 2>{}, Sequence<3>{}));
        return b_k0_n0_n1_k1_grid_desc;
    }
@@ -284,7 +283,7 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r3
        constexpr auto M10 = M1 / M11;
        constexpr auto N10 = N1 / N11;
-        const auto c_m0_m10_m11_n0_n10_n11_grid_desc = transform_dynamic_tensor_descriptor(
+        const auto c_m0_m10_m11_n0_n10_n11_grid_desc = transform_tensor_descriptor(
            c_m_n_grid_desc,
            make_tuple(make_unmerge_transform(make_tuple(M0, M10, M11)),
                       make_unmerge_transform(make_tuple(N0, N10, N11))),
@@ -355,23 +354,23 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r3
        // TODO: check alignment
        // A matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto a_k0_m0_m1_k1_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto a_k0_m0_m1_k1_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, I1, Number<MPerBlockM1>{}, K1), max_lds_align);
        // TODO: check alignment
        // B matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto b_k0_n0_n1_k1_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto b_k0_n0_n1_k1_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, I1, Number<NPerBlockN1>{}, K1), max_lds_align);
        // TODO: check alignment
        // A matrix in LDS memory, for blockwise GEMM
-        constexpr auto a_k0_m_k1_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto a_k0_m_k1_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, Number<MPerBlockM1>{}, K1), max_lds_align);
        // TODO: check alignment
        // B matrix in LDS memory, for blockwise GEMM
-        constexpr auto b_k0_n_k1_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto b_k0_n_k1_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, Number<NPerBlockN1>{}, K1), max_lds_align);
        static_assert(a_k0_m0_m1_k1_block_desc.GetElementSpaceSize() ==
@@ -381,7 +380,7 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r3
                      "wrong!");
        // A matrix blockwise copy
-        auto a_blockwise_copy = BlockwiseDynamicTensorSliceTransfer_v4r1<
+        auto a_blockwise_copy = BlockwiseTensorSliceTransfer_v4r1<
            BlockSize,
            InMemoryDataOperationEnum_t::Set,
            Sequence<KPerBlock, 1, MPerBlockM1, K1.value>,
@@ -405,7 +404,7 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r3
                  make_multi_index(0, 0, 0, 0));
        // B matrix blockwise copy
-        auto b_blockwise_copy = BlockwiseDynamicTensorSliceTransfer_v4r1<
+        auto b_blockwise_copy = BlockwiseTensorSliceTransfer_v4r1<
            BlockSize,
            InMemoryDataOperationEnum_t::Set,
            Sequence<KPerBlock, 1, NPerBlockN1, K1.value>,
@@ -453,9 +452,8 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r3
        constexpr auto c_m10_m11_n10_n11_thread_tensor_lengths =
            decltype(blockwise_gemm)::GetCThreadTensorLengths_BM0_BM1_BN0_BN1();
-        constexpr auto c_m10_m11_n10_n11_thread_desc =
+        constexpr auto c_m10_m11_n10_n11_thread_desc = make_naive_tensor_descriptor_packed(
-            make_dynamic_naive_tensor_descriptor_packed_v2(
+            sequence_to_tuple_of_number(c_m10_m11_n10_n11_thread_tensor_lengths));
-                sequence_to_tuple_of_number(c_m10_m11_n10_n11_thread_tensor_lengths));
        // LDS allocation for A and B: be careful of alignment
        constexpr auto a_block_aligned_space_size = math::integer_least_multiple(
@@ -471,9 +469,9 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r3
        auto c_thread_buf = make_static_buffer<AddressSpaceEnum_t::Vgpr, FloatAcc>(
            c_m10_m11_n10_n11_thread_desc.GetElementSpaceSize());
-        ThreadwiseDynamicTensorSliceSet_v1<FloatAcc,
+        ThreadwiseTensorSliceSet_v1<FloatAcc,
-                                           decltype(c_m10_m11_n10_n11_thread_desc),
+                                    decltype(c_m10_m11_n10_n11_thread_desc),
-                                           decltype(c_m10_m11_n10_n11_thread_tensor_lengths)>{}
+                                    decltype(c_m10_m11_n10_n11_thread_tensor_lengths)>{}
            .Run(c_m10_m11_n10_n11_thread_desc,
                 make_tuple(I0, I0, I0, I0),
                 c_thread_buf,
@@ -609,7 +607,7 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r3
        // output: register to global memory
        {
            constexpr auto c_m0_m10_m11_n0_n10_n11_thread_desc =
-                make_dynamic_naive_tensor_descriptor_packed_v2(
+                make_naive_tensor_descriptor_packed(
                    make_tuple(I1,
                               Number<c_m10_m11_n10_n11_thread_tensor_lengths[I0]>{},
                               Number<c_m10_m11_n10_n11_thread_tensor_lengths[I1]>{},
@@ -621,7 +619,7 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v1r3
                blockwise_gemm.CalculateCThreadOriginOnBlock_BM0_BM1_BN0_BN1(
                    get_thread_local_1d_id());
-            ThreadwiseDynamicTensorSliceTransfer_v1r3<
+            ThreadwiseTensorSliceTransfer_v1r3<
                FloatAcc,
                FloatC,
                decltype(c_m0_m10_m11_n0_n10_n11_thread_desc),

--- a/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm_dlops_v2.hpp
+++ b/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm_dlops_v2.hpp
-#ifndef CK_GRIDWISE_DYNAMIC_GEMM_V2_HPP
+#ifndef CK_GRIDWISE_GEMM_V2_HPP
-#define CK_GRIDWISE_DYNAMIC_GEMM_V2_HPP
+#define CK_GRIDWISE_GEMM_V2_HPP
 #include "common_header.hpp"
-#include "dynamic_multi_index_transform_helper.hpp"
+#include "multi_index_transform_helper.hpp"
-#include "dynamic_tensor_descriptor.hpp"
+#include "tensor_descriptor.hpp"
-#include "dynamic_tensor_descriptor_helper.hpp"
+#include "tensor_descriptor_helper.hpp"
-#include "blockwise_dynamic_tensor_slice_transfer.hpp"
+#include "blockwise_tensor_slice_transfer.hpp"
-#include "threadwise_dynamic_tensor_slice_transfer.hpp"
+#include "threadwise_tensor_slice_transfer.hpp"
 #include "blockwise_gemm_dlops_v3.hpp"
 namespace ck {
@@ -47,7 +47,7 @@ template <index_t BlockSize,
          typename CGlobalIteratorHacks,
          typename AGlobalMoveSliceWindowIteratorHacks,
          typename BGlobalMoveSliceWindowIteratorHacks>
-struct GridwiseDynamicGemmDlops_km_kn_mn_v3
+struct GridwiseGemmDlops_km_kn_mn_v3
 {
    __host__ __device__ static constexpr index_t GetSharedMemoryNumberOfByte()
    {
@@ -58,7 +58,7 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v3
        // A matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto a_e_k_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto a_e_k_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<E>{}, Number<KPerBlock>{}), max_lds_align);
        // LDS allocation for A and B: be careful of alignment
@@ -132,23 +132,21 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v3
        // A matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto a_e_k_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto a_e_k_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<EPerBlock>{}, Number<KPerBlock>{}), max_lds_align);
-        constexpr auto a_e_k_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto a_e_k_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<E>{}, Number<KPerBlock>{}), max_lds_align);
        // B matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto b_e_n_ho_wo_block_desc =
+        constexpr auto b_e_n_ho_wo_block_desc = make_naive_tensor_descriptor_packed(make_tuple(
-            make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(
+            Number<EPerBlock>{}, Number<1>{}, Number<HoPerBlock>{}, Number<WoPerBlock>{}));
-                Number<EPerBlock>{}, Number<1>{}, Number<HoPerBlock>{}, Number<WoPerBlock>{}));
        // c_thread_mtx definition: this is a mess
        // TODO:: more elegent way of defining c_thread_mtx
-        constexpr auto c_k_n_ho_wo_thread_desc =
+        constexpr auto c_k_n_ho_wo_thread_desc = make_naive_tensor_descriptor_packed(make_tuple(
-            make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(
+            Number<KPerThread>{}, Number<1>{}, Number<HoPerThread>{}, Number<WoPerThread>{}));
-                Number<KPerThread>{}, Number<1>{}, Number<HoPerThread>{}, Number<WoPerThread>{}));
        auto blockwise_gemm =
            BlockwiseGemmDlops_km_kn_m0m1n0n1_v3<BlockSize,
@@ -182,47 +180,46 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v3
        // A matrix blockwise copy
        auto a_blockwise_copy =
-            BlockwiseDynamicTensorSliceTransfer_v4<BlockSize,
+            BlockwiseTensorSliceTransfer_v4<BlockSize,
-                                                   InMemoryDataOperationEnum_t::Set,
+                                            InMemoryDataOperationEnum_t::Set,
-                                                   Sequence<E, KPerBlock>,
+                                            Sequence<E, KPerBlock>,
-                                                   ABlockTransferThreadSliceLengths_E_K,
+                                            ABlockTransferThreadSliceLengths_E_K,
-                                                   ABlockTransferThreadClusterLengths_E_K,
+                                            ABlockTransferThreadClusterLengths_E_K,
-                                                   ABlockTransferThreadClusterArrangeOrder,
+                                            ABlockTransferThreadClusterArrangeOrder,
-                                                   FloatAB,
+                                            FloatAB,
-                                                   FloatAB,
+                                            FloatAB,
-                                                   decltype(a_e_k_global_desc),
+                                            decltype(a_e_k_global_desc),
-                                                   decltype(a_e_k_desc),
+                                            decltype(a_e_k_desc),
-                                                   ABlockTransferSrcAccessOrder,
+                                            ABlockTransferSrcAccessOrder,
-                                                   Sequence<0, 1>,
+                                            Sequence<0, 1>,
-                                                   ABlockTransferSrcVectorDim,
+                                            ABlockTransferSrcVectorDim,
-                                                   1,
+                                            1,
-                                                   ABlockTransferSrcScalarPerVector,
+                                            ABlockTransferSrcScalarPerVector,
-                                                   ABlockTransferDstScalarPerVector_K,
+                                            ABlockTransferDstScalarPerVector_K,
-                                                   1,
+                                            1,
-                                                   1,
+                                            1,
-                                                   AThreadTransferSrcResetCoordinateAfterRun,
+                                            AThreadTransferSrcResetCoordinateAfterRun,
-                                                   true>(
+                                            true>(a_e_k_global_desc,
-                a_e_k_global_desc,
+                                                  make_multi_index(0, k_block_data_on_global),
-                make_multi_index(0, k_block_data_on_global),
+                                                  a_e_k_desc,
-                a_e_k_desc,
+                                                  make_multi_index(0, 0));
-                make_multi_index(0, 0));
+        constexpr auto b_e_n_ho_wo_thread_desc = make_naive_tensor_descriptor_packed(make_tuple(
-        constexpr auto b_e_n_ho_wo_thread_desc =
+            Number<EPerBlock>{}, Number<1>{}, Number<HoPerThread>{}, Number<WoPerThread>{}));
-            make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(
-                Number<EPerBlock>{}, Number<1>{}, Number<HoPerThread>{}, Number<WoPerThread>{}));
+        auto b_threadwise_transfer =
+            ThreadwiseTensorSliceTransfer_v2<FloatAB,
-        auto b_threadwise_transfer = ThreadwiseDynamicTensorSliceTransfer_v2<
+                                             FloatAB,
-            FloatAB,
+                                             decltype(b_e_n_ho_wo_global_desc),
-            FloatAB,
+                                             decltype(b_e_n_ho_wo_thread_desc),
-            decltype(b_e_n_ho_wo_global_desc),
+                                             Sequence<EPerBlock, 1, HoPerThread, WoPerThread>,
-            decltype(b_e_n_ho_wo_thread_desc),
+                                             BBlockTransferSrcAccessOrder,
-            Sequence<EPerBlock, 1, HoPerThread, WoPerThread>,
+                                             BBlockTransferSrcVectorDim,
-            BBlockTransferSrcAccessOrder,
+                                             BBlockTransferSrcScalarPerVector,
-            BBlockTransferSrcVectorDim,
+                                             1,
-            BBlockTransferSrcScalarPerVector,
+                                             true>(
-            1,
+                b_e_n_ho_wo_global_desc,
-            true>(b_e_n_ho_wo_global_desc,
+                make_multi_index(0, 0, ho_thread_data_on_global, wo_thread_data_on_global));
-                  make_multi_index(0, 0, ho_thread_data_on_global, wo_thread_data_on_global));
        auto a_block_buf = make_dynamic_buffer<AddressSpaceEnum_t::Lds>(
            p_shared_block, a_e_k_desc.GetElementSpaceSize());
@@ -234,9 +231,9 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v3
            c_thread_buf;
        // initialize output thread tensor
-        ThreadwiseDynamicTensorSliceSet_v1<FloatAcc,
+        ThreadwiseTensorSliceSet_v1<FloatAcc,
-                                           decltype(c_k_n_ho_wo_thread_desc),
+                                    decltype(c_k_n_ho_wo_thread_desc),
-                                           Sequence<KPerThread, 1, HoPerThread, WoPerThread>>{}
+                                    Sequence<KPerThread, 1, HoPerThread, WoPerThread>>{}
            .Run(c_k_n_ho_wo_thread_desc, make_tuple(I0, I0, I0, I0), c_thread_buf, FloatAcc{0});
        constexpr auto b_thread_slice_copy_step = make_multi_index(EPerBlock, 0, 0, 0);
@@ -354,18 +351,17 @@ struct GridwiseDynamicGemmDlops_km_kn_mn_v3
            const index_t k_thread_data_on_global =
                k_block_data_on_global + k_thread_id * KPerThread;
-            ThreadwiseDynamicTensorSliceTransfer_v1r3<
+            ThreadwiseTensorSliceTransfer_v1r3<FloatAcc,
-                FloatAcc,
+                                               FloatC,
-                FloatC,
+                                               decltype(c_k_n_ho_wo_thread_desc),
-                decltype(c_k_n_ho_wo_thread_desc),
+                                               decltype(c_k_n_ho_wo_global_desc),
-                decltype(c_k_n_ho_wo_global_desc),
+                                               Sequence<KPerThread, 1, HoPerThread, WoPerThread>,
-                Sequence<KPerThread, 1, HoPerThread, WoPerThread>,
+                                               CThreadTransferSrcDstAccessOrder,
-                CThreadTransferSrcDstAccessOrder,
+                                               CThreadTransferSrcDstVectorDim,
-                CThreadTransferSrcDstVectorDim,
+                                               CThreadTransferDstScalarPerVector,
-                CThreadTransferDstScalarPerVector,
+                                               CGlobalMemoryDataOperation,
-                CGlobalMemoryDataOperation,
+                                               1,
-                1,
+                                               true>(
-                true>(
                c_k_n_ho_wo_global_desc,
                make_multi_index(
                    k_thread_data_on_global, 0, ho_thread_data_on_global, wo_thread_data_on_global))

--- a/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm_xdlops_v2r3.hpp
+++ b/composable_kernel/include/tensor_operation/gridwise_dynamic_gemm_xdlops_v2r3.hpp
-#ifndef CK_GRIDWISE_DYNAMIC_GEMM_XDLOPS_V2R3_HPP
+#ifndef CK_GRIDWISE_GEMM_XDLOPS_V2R3_HPP
-#define CK_GRIDWISE_DYNAMIC_GEMM_XDLOPS_V2R3_HPP
+#define CK_GRIDWISE_GEMM_XDLOPS_V2R3_HPP
 #include "common_header.hpp"
-#include "dynamic_multi_index_transform_helper.hpp"
+#include "multi_index_transform_helper.hpp"
-#include "dynamic_tensor_descriptor.hpp"
+#include "tensor_descriptor.hpp"
-#include "dynamic_tensor_descriptor_helper.hpp"
+#include "tensor_descriptor_helper.hpp"
 #include "blockwise_gemm_xdlops.hpp"
-#include "blockwise_dynamic_tensor_slice_transfer.hpp"
+#include "blockwise_tensor_slice_transfer.hpp"
-#include "threadwise_dynamic_tensor_slice_transfer.hpp"
+#include "threadwise_tensor_slice_transfer.hpp"
-#include "threadwise_dynamic_tensor_slice_set.hpp"
+#include "threadwise_tensor_slice_set.hpp"
 namespace ck {
@@ -24,13 +24,13 @@ __global__ void
 #if CK_USE_LAUNCH_BOUNDS
    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
 #endif
-        kernel_dynamic_gemm_xdlops_v2r3(const FloatAB* __restrict__ p_a_grid,
+        kernel_gemm_xdlops_v2r3(const FloatAB* __restrict__ p_a_grid,
-                                        const FloatAB* __restrict__ p_b_grid,
+                                const FloatAB* __restrict__ p_b_grid,
-                                        FloatC* __restrict__ p_c_grid,
+                                FloatC* __restrict__ p_c_grid,
-                                        const AK0MK1GridDesc a_k0_m_k1_grid_desc,
+                                const AK0MK1GridDesc a_k0_m_k1_grid_desc,
-                                        const BK0NK1GridDesc b_k0_n_k1_grid_desc,
+                                const BK0NK1GridDesc b_k0_n_k1_grid_desc,
-                                        const CM0M1M2NGridDesc c_m0_m1_m2_n_grid_desc,
+                                const CM0M1M2NGridDesc c_m0_m1_m2_n_grid_desc,
-                                        const CBlockClusterAdaptor c_block_cluster_adaptor)
+                                const CBlockClusterAdaptor c_block_cluster_adaptor)
 {
    constexpr index_t shared_block_size =
        GridwiseGemm::GetSharedMemoryNumberOfByte() / sizeof(FloatAB);
@@ -58,13 +58,13 @@ __global__ void
 #if CK_USE_LAUNCH_BOUNDS
    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
 #endif
-        kernel_dynamic_gemm_xdlops_v2r3(const FloatAB* __restrict__ p_a_grid,
+        kernel_gemm_xdlops_v2r3(const FloatAB* __restrict__ p_a_grid,
-                                        const FloatAB* __restrict__ p_b_grid,
+                                const FloatAB* __restrict__ p_b_grid,
-                                        FloatC* __restrict__ p_c_grid,
+                                FloatC* __restrict__ p_c_grid,
-                                        const void CONSTANT* p_a_k0_m_k1_grid_desc,
+                                const void CONSTANT* p_a_k0_m_k1_grid_desc,
-                                        const void CONSTANT* p_b_k0_n_k1_grid_desc,
+                                const void CONSTANT* p_b_k0_n_k1_grid_desc,
-                                        const void CONSTANT* p_c_m0_m1_m2_n_grid_desc,
+                                const void CONSTANT* p_c_m0_m1_m2_n_grid_desc,
-                                        const void CONSTANT* p_c_block_cluster_adaptor)
+                                const void CONSTANT* p_c_block_cluster_adaptor)
 {
    constexpr index_t shared_block_size =
        GridwiseGemm::GetSharedMemoryNumberOfByte() / sizeof(FloatAB);
@@ -132,7 +132,7 @@ template <index_t BlockSize,
          typename AGridMoveSliceWindowIteratorHacks,
          typename BGridMoveSliceWindowIteratorHacks,
          bool CAccessOrderMRepeatNRepeat>
-struct GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3
+struct GridwiseGemm_k0mk1_k0nk1_mn_xdlops_v2r3
 {
    static constexpr auto I0 = Number<0>{};
    static constexpr auto I1 = Number<1>{};
@@ -148,12 +148,12 @@ struct GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3
        // A matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto a_k0_m_k1_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto a_k0_m_k1_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, Number<MPerBlock>{}, K1), max_lds_align);
        // B matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto b_k0_n_k1_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto b_k0_n_k1_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, Number<NPerBlock>{}, K1), max_lds_align);
        // LDS allocation for A and B: be careful of alignment
@@ -216,7 +216,7 @@ struct GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3
        constexpr auto N1 = Number<CLayout.N0()>{};
-        const auto c_m0_m1_m2_n_grid_desc = transform_dynamic_tensor_descriptor(
+        const auto c_m0_m1_m2_n_grid_desc = transform_tensor_descriptor(
            c_m_n_grid_desc,
            make_tuple(make_unmerge_transform(make_tuple(MRepeat, MWaves, M0, M1, M2)),
                       make_unmerge_transform(make_tuple(NRepeat, NWaves, N1))),
@@ -290,67 +290,65 @@ struct GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3
        // A matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto a_k0_m_k1_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto a_k0_m_k1_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, Number<MPerBlock>{}, K1), max_lds_align);
        // B matrix in LDS memory, dst of blockwise copy
        //   be careful of LDS alignment
-        constexpr auto b_k0_n_k1_block_desc = make_dynamic_naive_tensor_descriptor_aligned_v2(
+        constexpr auto b_k0_n_k1_block_desc = make_naive_tensor_descriptor_aligned_v2(
            make_tuple(Number<KPerBlock>{}, Number<NPerBlock>{}, K1), max_lds_align);
        // A matrix blockwise copy
        auto a_blockwise_copy =
-            BlockwiseDynamicTensorSliceTransfer_v4<BlockSize,
+            BlockwiseTensorSliceTransfer_v4<BlockSize,
-                                                   InMemoryDataOperationEnum_t::Set,
+                                            InMemoryDataOperationEnum_t::Set,
-                                                   Sequence<KPerBlock, MPerBlock, K1>,
+                                            Sequence<KPerBlock, MPerBlock, K1>,
-                                                   ABlockTransferThreadSliceLengths_K0_M_K1,
+                                            ABlockTransferThreadSliceLengths_K0_M_K1,
-                                                   ABlockTransferThreadClusterLengths_K0_M_K1,
+                                            ABlockTransferThreadClusterLengths_K0_M_K1,
-                                                   ABlockTransferThreadClusterArrangeOrder,
+                                            ABlockTransferThreadClusterArrangeOrder,
-                                                   FloatAB,
+                                            FloatAB,
-                                                   FloatAB,
+                                            FloatAB,
-                                                   decltype(a_k0_m_k1_grid_desc),
+                                            decltype(a_k0_m_k1_grid_desc),
-                                                   decltype(a_k0_m_k1_block_desc),
+                                            decltype(a_k0_m_k1_block_desc),
-                                                   ABlockTransferSrcAccessOrder,
+                                            ABlockTransferSrcAccessOrder,
-                                                   Sequence<1, 0, 2>,
+                                            Sequence<1, 0, 2>,
-                                                   ABlockTransferSrcVectorDim,
+                                            ABlockTransferSrcVectorDim,
-                                                   2,
+                                            2,
-                                                   ABlockTransferSrcScalarPerVector,
+                                            ABlockTransferSrcScalarPerVector,
-                                                   ABlockTransferDstScalarPerVector_K1,
+                                            ABlockTransferDstScalarPerVector_K1,
-                                                   1,
+                                            1,
-                                                   1,
+                                            1,
-                                                   AThreadTransferSrcResetCoordinateAfterRun,
+                                            AThreadTransferSrcResetCoordinateAfterRun,
-                                                   true>(
+                                            true>(a_k0_m_k1_grid_desc,
-                a_k0_m_k1_grid_desc,
+                                                  make_multi_index(0, m_block_data_idx_on_grid, 0),
-                make_multi_index(0, m_block_data_idx_on_grid, 0),
+                                                  a_k0_m_k1_block_desc,
-                a_k0_m_k1_block_desc,
+                                                  make_multi_index(0, 0, 0));
-                make_multi_index(0, 0, 0));
        // B matrix blockwise copy
        auto b_blockwise_copy =
-            BlockwiseDynamicTensorSliceTransfer_v4<BlockSize,
+            BlockwiseTensorSliceTransfer_v4<BlockSize,
-                                                   InMemoryDataOperationEnum_t::Set,
+                                            InMemoryDataOperationEnum_t::Set,
-                                                   Sequence<KPerBlock, NPerBlock, K1>,
+                                            Sequence<KPerBlock, NPerBlock, K1>,
-                                                   BBlockTransferThreadSliceLengths_K0_N_K1,
+                                            BBlockTransferThreadSliceLengths_K0_N_K1,
-                                                   BBlockTransferThreadClusterLengths_K0_N_K1,
+                                            BBlockTransferThreadClusterLengths_K0_N_K1,
-                                                   BBlockTransferThreadClusterArrangeOrder,
+                                            BBlockTransferThreadClusterArrangeOrder,
-                                                   FloatAB,
+                                            FloatAB,
-                                                   FloatAB,
+                                            FloatAB,
-                                                   decltype(b_k0_n_k1_grid_desc),
+                                            decltype(b_k0_n_k1_grid_desc),
-                                                   decltype(b_k0_n_k1_block_desc),
+                                            decltype(b_k0_n_k1_block_desc),
-                                                   BBlockTransferSrcAccessOrder,
+                                            BBlockTransferSrcAccessOrder,
-                                                   Sequence<1, 0, 2>,
+                                            Sequence<1, 0, 2>,
-                                                   BBlockTransferSrcVectorDim,
+                                            BBlockTransferSrcVectorDim,
-                                                   2,
+                                            2,
-                                                   BBlockTransferSrcScalarPerVector,
+                                            BBlockTransferSrcScalarPerVector,
-                                                   BBlockTransferDstScalarPerVector_K1,
+                                            BBlockTransferDstScalarPerVector_K1,
-                                                   1,
+                                            1,
-                                                   1,
+                                            1,
-                                                   BThreadTransferSrcResetCoordinateAfterRun,
+                                            BThreadTransferSrcResetCoordinateAfterRun,
-                                                   true>(
+                                            true>(b_k0_n_k1_grid_desc,
-                b_k0_n_k1_grid_desc,
+                                                  make_multi_index(0, n_block_data_idx_on_grid, 0),
-                make_multi_index(0, n_block_data_idx_on_grid, 0),
+                                                  b_k0_n_k1_block_desc,
-                b_k0_n_k1_block_desc,
+                                                  make_multi_index(0, 0, 0));
-                make_multi_index(0, 0, 0));
        // GEMM definition
        //   c_mtx += transpose(a_mtx) * b_mtx
@@ -364,7 +362,7 @@ struct GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3
                          NPerBlock % (NPerWave * NRepeat) == 0,
                      "wrong!");
-        constexpr auto a_k0_m0_m1_k1_block_desc = transform_dynamic_tensor_descriptor(
+        constexpr auto a_k0_m0_m1_k1_block_desc = transform_tensor_descriptor(
            a_k0_m_k1_block_desc,
            make_tuple(make_pass_through_transform(Number<KPerBlock>{}),
                       make_unmerge_transform(
@@ -373,7 +371,7 @@ struct GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3
            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}),
            make_tuple(Sequence<0>{}, Sequence<1, 2>{}, Sequence<3>{}));
-        constexpr auto b_k0_n0_n1_k1_block_desc = transform_dynamic_tensor_descriptor(
+        constexpr auto b_k0_n0_n1_k1_block_desc = transform_tensor_descriptor(
            b_k0_n_k1_block_desc,
            make_tuple(make_pass_through_transform(Number<KPerBlock>{}),
                       make_unmerge_transform(
@@ -399,8 +397,8 @@ struct GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3
        static_assert(NumBlks == 1 && NumXdlops == 1, "K Reduction Mfma only");
-        constexpr auto c_mr_nr_blk_desc = make_dynamic_naive_tensor_descriptor_packed_v2(
+        constexpr auto c_mr_nr_blk_desc =
-            make_tuple(Number<MRepeat>{}, Number<NRepeat>{}));
+            make_naive_tensor_descriptor_packed(make_tuple(Number<MRepeat>{}, Number<NRepeat>{}));
        StaticBuffer<AddressSpaceEnum_t::Vgpr,
                     vector_type<FloatAcc, BlkSize>,
@@ -492,7 +490,7 @@ struct GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3
            constexpr index_t N1 = CLayout.N0();
            constexpr auto c_m0_m1_m2_n_thread_desc =
-                make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(Number<MRepeat>{},
+                make_naive_tensor_descriptor_packed(make_tuple(Number<MRepeat>{},
                                                                          Number<NRepeat>{},
                                                                          Number<1>{},
                                                                          Number<1>{},
@@ -533,7 +531,7 @@ struct GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3
            constexpr index_t MWaves = MPerBlock / (MPerWave * MRepeat);
            constexpr index_t NWaves = NPerBlock / (NPerWave * NRepeat);
-            ThreadwiseDynamicTensorSliceTransfer_v1r3<
+            ThreadwiseTensorSliceTransfer_v1r3<
                FloatC,
                FloatC,
                decltype(c_m0_m1_m2_n_thread_desc),
@@ -567,9 +565,8 @@ struct GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3
            constexpr index_t M1 = CLayout.N1();
            constexpr index_t M2 = CLayout.M0();
-            constexpr auto c_m0_m1_m2_n_thread_desc =
+            constexpr auto c_m0_m1_m2_n_thread_desc = make_naive_tensor_descriptor_packed(
-                make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(
+                make_tuple(I1, I1, I1, I1, Number<M0>{}, Number<1>{}, Number<M2>{}, Number<1>{}));
-                    I1, I1, I1, I1, Number<M0>{}, Number<1>{}, Number<M2>{}, Number<1>{}));
            // calculate origin of thread output tensor on global memory
            //     blockwise GEMM c matrix starting index
@@ -585,17 +582,17 @@ struct GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3
            constexpr auto c_m0_m1_m2_n_grid_tensor_iterator_hacks = CGridIteratorHacks{};
            auto c_thread_copy =
-                ThreadwiseDynamicTensorSliceTransfer_v1r3<FloatC,
+                ThreadwiseTensorSliceTransfer_v1r3<FloatC,
-                                                          FloatC,
+                                                   FloatC,
-                                                          decltype(c_m0_m1_m2_n_thread_desc),
+                                                   decltype(c_m0_m1_m2_n_thread_desc),
-                                                          decltype(c_m0_m1_m2_n_grid_desc),
+                                                   decltype(c_m0_m1_m2_n_grid_desc),
-                                                          Sequence<1, 1, 1, 1, M0, 1, M2, 1>,
+                                                   Sequence<1, 1, 1, 1, M0, 1, M2, 1>,
-                                                          CThreadTransferSrcDstAccessOrder,
+                                                   CThreadTransferSrcDstAccessOrder,
-                                                          CThreadTransferSrcDstVectorDim,
+                                                   CThreadTransferSrcDstVectorDim,
-                                                          CThreadTransferDstScalarPerVector,
+                                                   CThreadTransferDstScalarPerVector,
-                                                          CGlobalMemoryDataOperation,
+                                                   CGlobalMemoryDataOperation,
-                                                          1,
+                                                   1,
-                                                          true>{
+                                                   true>{
                    c_m0_m1_m2_n_grid_desc,
                    make_multi_index(0,
                                     0,

--- a/composable_kernel/include/tensor_operation/threadwise_dynamic_tensor_slice_set.hpp
+++ b/composable_kernel/include/tensor_operation/threadwise_dynamic_tensor_slice_set.hpp
-#ifndef CK_THREADWISE_DYNAMIC_TENSOR_SET_HPP
+#ifndef CK_THREADWISE_TENSOR_SET_HPP
-#define CK_THREADWISE_DYNAMIC_TENSOR_SET_HPP
+#define CK_THREADWISE_TENSOR_SET_HPP
 #include "common_header.hpp"
-#include "dynamic_tensor_descriptor.hpp"
+#include "tensor_descriptor.hpp"
-#include "dynamic_tensor_descriptor_helper.hpp"
+#include "tensor_descriptor_helper.hpp"
 namespace ck {
@@ -16,7 +16,7 @@ template <typename Data,
          typename Desc,
          typename SliceLengths,
          typename std::enable_if<Desc::IsKnownAtCompileTime(), bool>::type = false>
-struct ThreadwiseDynamicTensorSliceSet_v1
+struct ThreadwiseTensorSliceSet_v1
 {
    static constexpr index_t nDim = SliceLengths::Size();
@@ -40,7 +40,7 @@ struct ThreadwiseDynamicTensorSliceSet_v1
        constexpr auto origin_idx = to_multi_index(OriginIdx{});
        static_ford<SliceLengths>{}([&](auto access_idx) {
-            constexpr auto coord = make_dynamic_tensor_coordinate(desc, origin_idx + access_idx);
+            constexpr auto coord = make_tensor_coordinate(desc, origin_idx + access_idx);
            constexpr bool is_valid =
                coordinate_has_valid_offset_assuming_visible_index_is_valid(desc, coord);

--- a/composable_kernel/include/tensor_operation/threadwise_dynamic_tensor_slice_transfer.hpp
+++ b/composable_kernel/include/tensor_operation/threadwise_dynamic_tensor_slice_transfer.hpp
-#ifndef CK_THREADWISE_DYNAMIC_TENSOR_SLICE_TRANSFER_HPP
+#ifndef CK_THREADWISE_TENSOR_SLICE_TRANSFER_HPP
-#define CK_THREADWISE_DYNAMIC_TENSOR_SLICE_TRANSFER_HPP
+#define CK_THREADWISE_TENSOR_SLICE_TRANSFER_HPP
 #include "common_header.hpp"
-#include "dynamic_tensor_descriptor.hpp"
+#include "tensor_descriptor.hpp"
-#include "dynamic_tensor_descriptor_helper.hpp"
+#include "tensor_descriptor_helper.hpp"
 namespace ck {
@@ -58,19 +58,19 @@ template <typename SrcData,
          index_t DstScalarStrideInVector,
          bool DstResetCoordinateAfterRun,
          typename std::enable_if<SrcDesc::IsKnownAtCompileTime(), bool>::type = false>
-struct ThreadwiseDynamicTensorSliceTransfer_v1r3
+struct ThreadwiseTensorSliceTransfer_v1r3
 {
    static constexpr index_t nDim = SliceLengths::Size();
    using Index = MultiIndex<nDim>;
-    using DstCoord = decltype(make_dynamic_tensor_coordinate(DstDesc{}, Index{}));
+    using DstCoord = decltype(make_tensor_coordinate(DstDesc{}, Index{}));
-    using DstCoordIterator = decltype(make_dynamic_tensor_coordinate_iterator(DstDesc{}, Index{}));
+    using DstCoordIterator = decltype(make_tensor_coordinate_iterator(DstDesc{}, Index{}));
-    __device__ constexpr ThreadwiseDynamicTensorSliceTransfer_v1r3(
+    __device__ constexpr ThreadwiseTensorSliceTransfer_v1r3(const DstDesc& dst_desc,
-        const DstDesc& dst_desc, const Index& dst_slice_origin_idx)
+                                                            const Index& dst_slice_origin_idx)
-        : dst_coord_(make_dynamic_tensor_coordinate(dst_desc, dst_slice_origin_idx))
+        : dst_coord_(make_tensor_coordinate(dst_desc, dst_slice_origin_idx))
    {
        static_assert(SrcDesc::IsKnownAtCompileTime(),
                      "wrong! SrcDesc need to known at compile-time");
@@ -78,7 +78,7 @@ struct ThreadwiseDynamicTensorSliceTransfer_v1r3
    __device__ void SetDstSliceOrigin(const DstDesc& dst_desc, const Index& dst_slice_origin_idx)
    {
-        dst_coord_ = make_dynamic_tensor_coordinate(dst_desc, dst_slice_origin_idx);
+        dst_coord_ = make_tensor_coordinate(dst_desc, dst_slice_origin_idx);
    }
    template <typename SrcSliceOriginIdx,
@@ -136,7 +136,7 @@ struct ThreadwiseDynamicTensorSliceTransfer_v1r3
                    forward_step(j) = (i.value == j.value) ? dst_scalar_per_access[i] : 0;
                });
-                return make_dynamic_tensor_coordinate_iterator(
+                return make_tensor_coordinate_iterator(
                    dst_desc, forward_step, dst_iterator_hacks[I0][i]);
            },
            Number<nDim>{});
@@ -150,7 +150,7 @@ struct ThreadwiseDynamicTensorSliceTransfer_v1r3
                    backward_step(j) = (i.value == j.value) ? -dst_scalar_per_access[i] : 0;
                });
-                return make_dynamic_tensor_coordinate_iterator(
+                return make_tensor_coordinate_iterator(
                    dst_desc, backward_step, dst_iterator_hacks[I1][i]);
            },
            Number<nDim>{});
@@ -235,12 +235,12 @@ struct ThreadwiseDynamicTensorSliceTransfer_v1r3
                {
                    if constexpr(forward_sweep[i])
                    {
-                        move_dynamic_tensor_coordinate(
+                        move_tensor_coordinate(
                            dst_desc, dst_coord_, dst_forward_iterators[dim_access_order[i]]);
                    }
                    else
                    {
-                        move_dynamic_tensor_coordinate(
+                        move_tensor_coordinate(
                            dst_desc, dst_coord_, dst_backward_iterators[dim_access_order[i]]);
                    }
                }
@@ -251,9 +251,9 @@ struct ThreadwiseDynamicTensorSliceTransfer_v1r3
        if constexpr(DstResetCoordinateAfterRun)
        {
            const auto dst_reset_iterator =
-                make_dynamic_tensor_coordinate_iterator(dst_desc, GetDstCoordinateResetStep());
+                make_tensor_coordinate_iterator(dst_desc, GetDstCoordinateResetStep());
-            move_dynamic_tensor_coordinate(dst_desc, dst_coord_, dst_reset_iterator);
+            move_tensor_coordinate(dst_desc, dst_coord_, dst_reset_iterator);
        }
    }
@@ -345,10 +345,9 @@ struct ThreadwiseDynamicTensorSliceTransfer_v1r3
                                       : dst_slice_origin_step_idx + GetDstCoordinateResetStep();
        // is it OK to construct a new step every time?
-        const auto adjusted_step =
+        const auto adjusted_step = make_tensor_coordinate_iterator(dst_desc, adjusted_step_idx);
-            make_dynamic_tensor_coordinate_iterator(dst_desc, adjusted_step_idx);
-        move_dynamic_tensor_coordinate(dst_desc, dst_coord_, adjusted_step);
+        move_tensor_coordinate(dst_desc, dst_coord_, adjusted_step);
    }
    private:
@@ -375,19 +374,19 @@ template <typename SrcData,
          index_t SrcScalarStrideInVector,
          bool SrcResetCoordinateAfterRun,
          typename std::enable_if<DstDesc::IsKnownAtCompileTime(), bool>::type = false>
-struct ThreadwiseDynamicTensorSliceTransfer_v2
+struct ThreadwiseTensorSliceTransfer_v2
 {
    static constexpr index_t nDim = SliceLengths::Size();
    using Index = MultiIndex<nDim>;
-    using SrcCoord = decltype(make_dynamic_tensor_coordinate(SrcDesc{}, Index{}));
+    using SrcCoord = decltype(make_tensor_coordinate(SrcDesc{}, Index{}));
-    using SrcCoordIterator = decltype(make_dynamic_tensor_coordinate_iterator(SrcDesc{}, Index{}));
+    using SrcCoordIterator = decltype(make_tensor_coordinate_iterator(SrcDesc{}, Index{}));
-    __device__ constexpr ThreadwiseDynamicTensorSliceTransfer_v2(const SrcDesc& src_desc,
+    __device__ constexpr ThreadwiseTensorSliceTransfer_v2(const SrcDesc& src_desc,
-                                                                 const Index& src_slice_origin_idx)
+                                                          const Index& src_slice_origin_idx)
-        : src_coord_(make_dynamic_tensor_coordinate(src_desc, src_slice_origin_idx))
+        : src_coord_(make_tensor_coordinate(src_desc, src_slice_origin_idx))
    {
        static_assert(DstDesc::IsKnownAtCompileTime(),
                      "wrong! SrcDesc need to known at compile-time");
@@ -395,7 +394,7 @@ struct ThreadwiseDynamicTensorSliceTransfer_v2
    __device__ void SetDstSliceOrigin(const SrcDesc& src_desc, const Index& src_slice_origin_idx)
    {
-        src_coord_ = make_dynamic_tensor_coordinate(src_desc, src_slice_origin_idx);
+        src_coord_ = make_tensor_coordinate(src_desc, src_slice_origin_idx);
    }
    template <typename SrcBuffer,
@@ -451,7 +450,7 @@ struct ThreadwiseDynamicTensorSliceTransfer_v2
                    forward_step(j) = (i.value == j.value) ? src_scalar_per_access[i] : 0;
                });
-                return make_dynamic_tensor_coordinate_iterator(
+                return make_tensor_coordinate_iterator(
                    src_desc, forward_step, src_iterator_hacks[I0][i]);
            },
            Number<nDim>{});
@@ -465,7 +464,7 @@ struct ThreadwiseDynamicTensorSliceTransfer_v2
                    backward_step(j) = (i.value == j.value) ? -src_scalar_per_access[i] : 0;
                });
-                return make_dynamic_tensor_coordinate_iterator(
+                return make_tensor_coordinate_iterator(
                    src_desc, backward_step, src_iterator_hacks[I1][i]);
            },
            Number<nDim>{});
@@ -548,12 +547,12 @@ struct ThreadwiseDynamicTensorSliceTransfer_v2
                {
                    if constexpr(forward_sweep[i])
                    {
-                        move_dynamic_tensor_coordinate(
+                        move_tensor_coordinate(
                            src_desc, src_coord_, src_forward_iterators[dim_access_order[i]]);
                    }
                    else
                    {
-                        move_dynamic_tensor_coordinate(
+                        move_tensor_coordinate(
                            src_desc, src_coord_, src_backward_iterators[dim_access_order[i]]);
                    }
                }
@@ -564,9 +563,9 @@ struct ThreadwiseDynamicTensorSliceTransfer_v2
        if constexpr(SrcResetCoordinateAfterRun)
        {
            const auto src_reset_iterator =
-                make_dynamic_tensor_coordinate_iterator(src_desc, GetSrcCoordinateResetStep());
+                make_tensor_coordinate_iterator(src_desc, GetSrcCoordinateResetStep());
-            move_dynamic_tensor_coordinate(src_desc, src_coord_, src_reset_iterator);
+            move_tensor_coordinate(src_desc, src_coord_, src_reset_iterator);
        }
    }
@@ -658,10 +657,9 @@ struct ThreadwiseDynamicTensorSliceTransfer_v2
                                       : src_slice_origin_step_idx + GetSrcCoordinateResetStep();
        // is it OK to construct a new step every time?
-        const auto adjusted_step =
+        const auto adjusted_step = make_tensor_coordinate_iterator(src_desc, adjusted_step_idx);
-            make_dynamic_tensor_coordinate_iterator(src_desc, adjusted_step_idx);
-        move_dynamic_tensor_coordinate(src_desc, src_coord_, adjusted_step);
+        move_tensor_coordinate(src_desc, src_coord_, adjusted_step);
    }
    private:
@@ -693,23 +691,23 @@ template <typename SliceLengths,
          bool DstResetCoordinateAfterRun> // control whether to move back dst coordinate after each
                                           // RunWrite(),  will be fused with MoveDstSliceWindow to
                                           // save addr computation
-struct ThreadwiseDynamicTensorSliceTransfer_v3
+struct ThreadwiseTensorSliceTransfer_v3
 {
    static constexpr index_t nDim = SliceLengths::Size();
    using Index                   = MultiIndex<nDim>;
-    using SrcCoord = decltype(make_dynamic_tensor_coordinate(SrcDesc{}, Index{}));
+    using SrcCoord = decltype(make_tensor_coordinate(SrcDesc{}, Index{}));
-    using DstCoord = decltype(make_dynamic_tensor_coordinate(DstDesc{}, Index{}));
+    using DstCoord = decltype(make_tensor_coordinate(DstDesc{}, Index{}));
-    using SrcCoordIterator = decltype(make_dynamic_tensor_coordinate_iterator(SrcDesc{}, Index{}));
+    using SrcCoordIterator = decltype(make_tensor_coordinate_iterator(SrcDesc{}, Index{}));
-    using DstCoordIterator = decltype(make_dynamic_tensor_coordinate_iterator(DstDesc{}, Index{}));
+    using DstCoordIterator = decltype(make_tensor_coordinate_iterator(DstDesc{}, Index{}));
-    __device__ constexpr ThreadwiseDynamicTensorSliceTransfer_v3(const SrcDesc& src_desc,
+    __device__ constexpr ThreadwiseTensorSliceTransfer_v3(const SrcDesc& src_desc,
-                                                                 const Index& src_slice_origin,
+                                                          const Index& src_slice_origin,
-                                                                 const DstDesc& dst_desc,
+                                                          const DstDesc& dst_desc,
-                                                                 const Index& dst_slice_origin)
+                                                          const Index& dst_slice_origin)
-        : src_coord_(make_dynamic_tensor_coordinate(src_desc, src_slice_origin)),
+        : src_coord_(make_tensor_coordinate(src_desc, src_slice_origin)),
-          dst_coord_(make_dynamic_tensor_coordinate(dst_desc, dst_slice_origin))
+          dst_coord_(make_tensor_coordinate(dst_desc, dst_slice_origin))
    {
        // TODO: fix this
        static_assert(is_same<SrcData, DstData>::value,
@@ -718,12 +716,12 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3
    __device__ void SetSrcSliceOrigin(const SrcDesc& src_desc, const Index& src_slice_origin_idx)
    {
-        src_coord_ = make_dynamic_tensor_coordinate(src_desc, src_slice_origin_idx);
+        src_coord_ = make_tensor_coordinate(src_desc, src_slice_origin_idx);
    }
    __device__ void SetDstSliceOrigin(const DstDesc& dst_desc, const Index& dst_slice_origin_idx)
    {
-        dst_coord_ = make_dynamic_tensor_coordinate(dst_desc, dst_slice_origin_idx);
+        dst_coord_ = make_tensor_coordinate(dst_desc, dst_slice_origin_idx);
    }
    template <typename SrcBuffer, typename SrcIteratorHacks>
@@ -766,7 +764,7 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3
                    forward_step(j) = (i.value == j.value) ? src_scalar_per_access[i] : 0;
                });
-                return make_dynamic_tensor_coordinate_iterator(
+                return make_tensor_coordinate_iterator(
                    src_desc, forward_step, src_iterator_hacks[I0][i]);
            },
            Number<nDim>{});
@@ -780,7 +778,7 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3
                    backward_step(j) = (i.value == j.value) ? -src_scalar_per_access[i] : 0;
                });
-                return make_dynamic_tensor_coordinate_iterator(
+                return make_tensor_coordinate_iterator(
                    src_desc, backward_step, src_iterator_hacks[I1][i]);
            },
            Number<nDim>{});
@@ -862,12 +860,12 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3
                {
                    if constexpr(forward_sweep[i])
                    {
-                        move_dynamic_tensor_coordinate(
+                        move_tensor_coordinate(
                            src_desc, src_coord_, src_forward_iterators[src_dim_access_order[i]]);
                    }
                    else
                    {
-                        move_dynamic_tensor_coordinate(
+                        move_tensor_coordinate(
                            src_desc, src_coord_, src_backward_iterators[src_dim_access_order[i]]);
                    }
                }
@@ -878,9 +876,9 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3
        if constexpr(SrcResetCoordinateAfterRun)
        {
            const auto src_reset_iterator =
-                make_dynamic_tensor_coordinate_iterator(src_desc, GetSrcCoordinateResetStep());
+                make_tensor_coordinate_iterator(src_desc, GetSrcCoordinateResetStep());
-            move_dynamic_tensor_coordinate(src_desc, src_coord_, src_reset_iterator);
+            move_tensor_coordinate(src_desc, src_coord_, src_reset_iterator);
        }
    }
@@ -924,7 +922,7 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3
                    forward_step(j) = (i.value == j.value) ? dst_scalar_per_access[i] : 0;
                });
-                const auto forward_iterator = make_dynamic_tensor_coordinate_iterator(
+                const auto forward_iterator = make_tensor_coordinate_iterator(
                    dst_desc, forward_step, dst_iterator_hacks[I0][i]);
                return forward_iterator;
@@ -940,7 +938,7 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3
                    backward_step(j) = (i.value == j.value) ? -dst_scalar_per_access[i] : 0;
                });
-                const auto backward_iterator = make_dynamic_tensor_coordinate_iterator(
+                const auto backward_iterator = make_tensor_coordinate_iterator(
                    dst_desc, backward_step, dst_iterator_hacks[I1][i]);
                return backward_iterator;
@@ -1026,12 +1024,12 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3
                {
                    if constexpr(forward_sweep[i])
                    {
-                        move_dynamic_tensor_coordinate(
+                        move_tensor_coordinate(
                            dst_desc, dst_coord_, dst_forward_iterators[dst_dim_access_order[i]]);
                    }
                    else
                    {
-                        move_dynamic_tensor_coordinate(
+                        move_tensor_coordinate(
                            dst_desc, dst_coord_, dst_backward_iterators[dst_dim_access_order[i]]);
                    }
                }
@@ -1042,9 +1040,9 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3
        if constexpr(DstResetCoordinateAfterRun)
        {
            const auto dst_reset_iterator =
-                make_dynamic_tensor_coordinate_iterator(dst_desc, GetDstCoordinateResetStep());
+                make_tensor_coordinate_iterator(dst_desc, GetDstCoordinateResetStep());
-            move_dynamic_tensor_coordinate(dst_desc, dst_coord_, dst_reset_iterator);
+            move_tensor_coordinate(dst_desc, dst_coord_, dst_reset_iterator);
        }
    }
@@ -1206,10 +1204,9 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3
                                       : src_slice_origin_step_idx + GetSrcCoordinateResetStep();
        // is it OK to construct a new step every time?
-        const auto adjusted_step =
+        const auto adjusted_step = make_tensor_coordinate_iterator(src_desc, adjusted_step_idx);
-            make_dynamic_tensor_coordinate_iterator(src_desc, adjusted_step_idx);
-        move_dynamic_tensor_coordinate(src_desc, src_coord_, adjusted_step);
+        move_tensor_coordinate(src_desc, src_coord_, adjusted_step);
    }
    // src_slice_origin_step_idx need to be known at compile-time, for performance reason
@@ -1225,10 +1222,10 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3
                                       : src_slice_origin_step_idx + GetSrcCoordinateResetStep();
        // is it OK to construct a new step every time?
-        const auto adjusted_step = make_dynamic_tensor_coordinate_iterator(
+        const auto adjusted_step = make_tensor_coordinate_iterator(
            src_desc, adjusted_step_idx, src_move_slice_window_iterator_hack);
-        move_dynamic_tensor_coordinate(src_desc, src_coord_, adjusted_step);
+        move_tensor_coordinate(src_desc, src_coord_, adjusted_step);
    }
    // dst_slice_origin_step_idx need to be known at compile-time, for performance reason
    __device__ void MoveDstSliceWindow(const DstDesc& dst_desc,
@@ -1240,15 +1237,14 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3
                                       : dst_slice_origin_step_idx + GetDstCoordinateResetStep();
        // is it OK to construct a new step every time?
-        const auto adjusted_step =
+        const auto adjusted_step = make_tensor_coordinate_iterator(dst_desc, adjusted_step_idx);
-            make_dynamic_tensor_coordinate_iterator(dst_desc, adjusted_step_idx);
-        move_dynamic_tensor_coordinate(dst_desc, dst_coord_, adjusted_step);
+        move_tensor_coordinate(dst_desc, dst_coord_, adjusted_step);
    }
    private:
    static constexpr auto buffer_desc_ =
-        make_dynamic_naive_tensor_descriptor_packed_v2(sequence_to_tuple_of_number(SliceLengths{}));
+        make_naive_tensor_descriptor_packed(sequence_to_tuple_of_number(SliceLengths{}));
    static constexpr auto buffer_size_ = buffer_desc_.GetElementSpaceSize();
@@ -1283,18 +1279,18 @@ template <
    index_t SrcScalarStrideInVector,
    typename std::enable_if<SrcDesc::IsKnownAtCompileTime() && DstDesc::IsKnownAtCompileTime(),
                            bool>::type = false>
-struct ThreadwiseDynamicTensorSliceTransfer_v4
+struct ThreadwiseTensorSliceTransfer_v4
 {
    static constexpr index_t nDim = SliceLengths::Size();
    using Index = MultiIndex<nDim>;
-    using SrcCoord = decltype(make_dynamic_tensor_coordinate(SrcDesc{}, Index{}));
+    using SrcCoord = decltype(make_tensor_coordinate(SrcDesc{}, Index{}));
-    using SrcCoordIterator = decltype(make_dynamic_tensor_coordinate_iterator(SrcDesc{}, Index{}));
+    using SrcCoordIterator = decltype(make_tensor_coordinate_iterator(SrcDesc{}, Index{}));
-    __device__ constexpr ThreadwiseDynamicTensorSliceTransfer_v4(const Index& src_ref_idx)
+    __device__ constexpr ThreadwiseTensorSliceTransfer_v4(const Index& src_ref_idx)
-        : src_ref_coord_(make_dynamic_tensor_coordinate(SrcDesc{}, src_ref_idx))
+        : src_ref_coord_(make_tensor_coordinate(SrcDesc{}, src_ref_idx))
    {
        static_assert(SrcDesc::IsKnownAtCompileTime() && DstDesc::IsKnownAtCompileTime(),
                      "wrong! SrcDesc and DstDesc need to known at compile-time");
@@ -1391,12 +1387,11 @@ struct ThreadwiseDynamicTensorSliceTransfer_v4
                src_ref_to_origin_disp_idx + data_to_origin_disp_idx;
            constexpr auto src_ref_to_data_disp_coord_iterator =
-                make_dynamic_tensor_coordinate_iterator(src_desc, src_ref_to_data_disp_idx);
+                make_tensor_coordinate_iterator(src_desc, src_ref_to_data_disp_idx);
            auto src_data_coord = src_ref_coord_;
-            move_dynamic_tensor_coordinate(
+            move_tensor_coordinate(src_desc, src_data_coord, src_ref_to_data_disp_coord_iterator);
-                src_desc, src_data_coord, src_ref_to_data_disp_coord_iterator);
            vector_type_maker_t<SrcData, SrcScalarPerVector> src_tmp_vector;
@@ -1435,10 +1430,10 @@ struct ThreadwiseDynamicTensorSliceTransfer_v4
    {
        constexpr auto src_desc = SrcDesc{};
-        const auto src_slice_move_step_iter = make_dynamic_tensor_coordinate_iterator(
+        const auto src_slice_move_step_iter =
-            src_desc, to_multi_index(src_slice_move_step_idx));
+            make_tensor_coordinate_iterator(src_desc, to_multi_index(src_slice_move_step_idx));
-        move_dynamic_tensor_coordinate(SrcDesc{}, src_ref_coord_, src_slice_move_step_iter);
+        move_tensor_coordinate(SrcDesc{}, src_ref_coord_, src_slice_move_step_iter);
    }
    private:

--- a/composable_kernel/include/tensor_operation/threadwise_dynamic_tensor_slice_transfer_v2.hpp
+++ b/composable_kernel/include/tensor_operation/threadwise_dynamic_tensor_slice_transfer_v2.hpp
-#ifndef CK_THREADWISE_DYNAMIC_TENSOR_SLICE_TRANSFER_V2_HPP
+#ifndef CK_THREADWISE_TENSOR_SLICE_TRANSFER_V2_HPP
-#define CK_THREADWISE_DYNAMIC_TENSOR_SLICE_TRANSFER_V2_HPP
+#define CK_THREADWISE_TENSOR_SLICE_TRANSFER_V2_HPP
 #include "common_header.hpp"
-#include "dynamic_tensor_descriptor.hpp"
+#include "tensor_descriptor.hpp"
-#include "dynamic_tensor_descriptor_helper.hpp"
+#include "tensor_descriptor_helper.hpp"
 namespace ck {
@@ -30,7 +30,7 @@ template <typename SliceLengths,
          bool DstResetCoordinateAfterRun> // control whether to move back dst coordinate after each
                                           // RunWrite(),  will be fused with MoveDstSliceWindow to
                                           // save addr computation
-struct ThreadwiseDynamicTensorSliceTransfer_v3r1
+struct ThreadwiseTensorSliceTransfer_v3r1
 {
    static constexpr auto I0 = Number<0>{};
    static constexpr auto I1 = Number<1>{};
@@ -38,18 +38,18 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
    static constexpr index_t nDim = SliceLengths::Size();
    using Index                   = MultiIndex<nDim>;
-    using SrcCoord = decltype(make_dynamic_tensor_coordinate(SrcDesc{}, Index{}));
+    using SrcCoord = decltype(make_tensor_coordinate(SrcDesc{}, Index{}));
-    using DstCoord = decltype(make_dynamic_tensor_coordinate(DstDesc{}, Index{}));
+    using DstCoord = decltype(make_tensor_coordinate(DstDesc{}, Index{}));
-    using SrcCoordIterator = decltype(make_dynamic_tensor_coordinate_iterator(SrcDesc{}, Index{}));
+    using SrcCoordIterator = decltype(make_tensor_coordinate_iterator(SrcDesc{}, Index{}));
-    using DstCoordIterator = decltype(make_dynamic_tensor_coordinate_iterator(DstDesc{}, Index{}));
+    using DstCoordIterator = decltype(make_tensor_coordinate_iterator(DstDesc{}, Index{}));
-    __device__ constexpr ThreadwiseDynamicTensorSliceTransfer_v3r1(const SrcDesc& src_desc,
+    __device__ constexpr ThreadwiseTensorSliceTransfer_v3r1(const SrcDesc& src_desc,
-                                                                   const Index& src_slice_origin,
+                                                            const Index& src_slice_origin,
-                                                                   const DstDesc& dst_desc,
+                                                            const DstDesc& dst_desc,
-                                                                   const Index& dst_slice_origin)
+                                                            const Index& dst_slice_origin)
-        : src_coord_(make_dynamic_tensor_coordinate(src_desc, src_slice_origin)),
+        : src_coord_(make_tensor_coordinate(src_desc, src_slice_origin)),
-          dst_coord_(make_dynamic_tensor_coordinate(dst_desc, dst_slice_origin))
+          dst_coord_(make_tensor_coordinate(dst_desc, dst_slice_origin))
    {
        // TODO: fix this
        static_assert(is_same<SrcData, DstData>::value,
@@ -64,12 +64,12 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
    __device__ void SetSrcSliceOrigin(const SrcDesc& src_desc, const Index& src_slice_origin_idx)
    {
-        src_coord_ = make_dynamic_tensor_coordinate(src_desc, src_slice_origin_idx);
+        src_coord_ = make_tensor_coordinate(src_desc, src_slice_origin_idx);
    }
    __device__ void SetDstSliceOrigin(const DstDesc& dst_desc, const Index& dst_slice_origin_idx)
    {
-        dst_coord_ = make_dynamic_tensor_coordinate(dst_desc, dst_slice_origin_idx);
+        dst_coord_ = make_tensor_coordinate(dst_desc, dst_slice_origin_idx);
    }
    template <typename SrcBuffer, typename SrcIteratorHacks>
@@ -96,9 +96,9 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
                I1),
            SrcVectorTensorContiguousDimOrder{});
-        constexpr auto src_vector_desc = make_dynamic_naive_tensor_descriptor_v2(
+        constexpr auto src_vector_desc =
-            sequence_to_tuple_of_number(src_vector_tensor_lengths),
+            make_naive_tensor_descriptor_v2(sequence_to_tuple_of_number(src_vector_tensor_lengths),
-            sequence_to_tuple_of_number(src_vector_tensor_strides));
+                                            sequence_to_tuple_of_number(src_vector_tensor_strides));
        // access order and lengths
        constexpr auto src_access_lengths = SliceLengths{} / src_vector_tensor_lengths;
@@ -117,7 +117,7 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
                    forward_step(j) = (i.value == j.value) ? src_vector_tensor_lengths[i] : 0;
                });
-                return make_dynamic_tensor_coordinate_iterator(
+                return make_tensor_coordinate_iterator(
                    src_desc, forward_step, src_iterator_hacks[I0][i]);
            },
            Number<nDim>{});
@@ -131,7 +131,7 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
                    backward_step(j) = (i.value == j.value) ? -src_vector_tensor_lengths[i] : 0;
                });
-                return make_dynamic_tensor_coordinate_iterator(
+                return make_tensor_coordinate_iterator(
                    src_desc, backward_step, src_iterator_hacks[I1][i]);
            },
            Number<nDim>{});
@@ -219,12 +219,12 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
                {
                    if constexpr(forward_sweep[i])
                    {
-                        move_dynamic_tensor_coordinate(
+                        move_tensor_coordinate(
                            src_desc, src_coord_, src_forward_iterators[src_dim_access_order[i]]);
                    }
                    else
                    {
-                        move_dynamic_tensor_coordinate(
+                        move_tensor_coordinate(
                            src_desc, src_coord_, src_backward_iterators[src_dim_access_order[i]]);
                    }
                }
@@ -235,9 +235,9 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
        if constexpr(SrcResetCoordinateAfterRun)
        {
            const auto src_reset_iterator =
-                make_dynamic_tensor_coordinate_iterator(src_desc, GetSrcCoordinateResetStep());
+                make_tensor_coordinate_iterator(src_desc, GetSrcCoordinateResetStep());
-            move_dynamic_tensor_coordinate(src_desc, src_coord_, src_reset_iterator);
+            move_tensor_coordinate(src_desc, src_coord_, src_reset_iterator);
        }
    }
@@ -265,9 +265,9 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
                I1),
            DstVectorTensorContiguousDimOrder{});
-        constexpr auto dst_vector_desc = make_dynamic_naive_tensor_descriptor_v2(
+        constexpr auto dst_vector_desc =
-            sequence_to_tuple_of_number(dst_vector_tensor_lengths),
+            make_naive_tensor_descriptor_v2(sequence_to_tuple_of_number(dst_vector_tensor_lengths),
-            sequence_to_tuple_of_number(dst_vector_tensor_strides));
+                                            sequence_to_tuple_of_number(dst_vector_tensor_strides));
        // dst access order and lengths
        constexpr auto dst_access_lengths = SliceLengths{} / dst_vector_tensor_lengths;
@@ -286,7 +286,7 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
                    forward_step(j) = (i.value == j.value) ? dst_vector_tensor_lengths[i] : 0;
                });
-                const auto forward_iterator = make_dynamic_tensor_coordinate_iterator(
+                const auto forward_iterator = make_tensor_coordinate_iterator(
                    dst_desc, forward_step, dst_iterator_hacks[I0][i]);
                return forward_iterator;
@@ -302,7 +302,7 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
                    backward_step(j) = (i.value == j.value) ? -dst_vector_tensor_lengths[i] : 0;
                });
-                const auto backward_iterator = make_dynamic_tensor_coordinate_iterator(
+                const auto backward_iterator = make_tensor_coordinate_iterator(
                    dst_desc, backward_step, dst_iterator_hacks[I1][i]);
                return backward_iterator;
@@ -394,12 +394,12 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
                {
                    if constexpr(forward_sweep[i])
                    {
-                        move_dynamic_tensor_coordinate(
+                        move_tensor_coordinate(
                            dst_desc, dst_coord_, dst_forward_iterators[dst_dim_access_order[i]]);
                    }
                    else
                    {
-                        move_dynamic_tensor_coordinate(
+                        move_tensor_coordinate(
                            dst_desc, dst_coord_, dst_backward_iterators[dst_dim_access_order[i]]);
                    }
                }
@@ -410,9 +410,9 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
        if constexpr(DstResetCoordinateAfterRun)
        {
            const auto dst_reset_iterator =
-                make_dynamic_tensor_coordinate_iterator(dst_desc, GetDstCoordinateResetStep());
+                make_tensor_coordinate_iterator(dst_desc, GetDstCoordinateResetStep());
-            move_dynamic_tensor_coordinate(dst_desc, dst_coord_, dst_reset_iterator);
+            move_tensor_coordinate(dst_desc, dst_coord_, dst_reset_iterator);
        }
    }
@@ -564,10 +564,9 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
                                       : src_slice_origin_step_idx + GetSrcCoordinateResetStep();
        // is it OK to construct a new step every time?
-        const auto adjusted_step =
+        const auto adjusted_step = make_tensor_coordinate_iterator(src_desc, adjusted_step_idx);
-            make_dynamic_tensor_coordinate_iterator(src_desc, adjusted_step_idx);
-        move_dynamic_tensor_coordinate(src_desc, src_coord_, adjusted_step);
+        move_tensor_coordinate(src_desc, src_coord_, adjusted_step);
    }
    // src_slice_origin_step_idx need to be known at compile-time, for performance reason
@@ -583,10 +582,10 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
                                       : src_slice_origin_step_idx + GetSrcCoordinateResetStep();
        // is it OK to construct a new step every time?
-        const auto adjusted_step = make_dynamic_tensor_coordinate_iterator(
+        const auto adjusted_step = make_tensor_coordinate_iterator(
            src_desc, adjusted_step_idx, src_move_slice_window_iterator_hack);
-        move_dynamic_tensor_coordinate(src_desc, src_coord_, adjusted_step);
+        move_tensor_coordinate(src_desc, src_coord_, adjusted_step);
    }
    // dst_slice_origin_step_idx need to be known at compile-time, for performance reason
    __device__ void MoveDstSliceWindow(const DstDesc& dst_desc,
@@ -598,15 +597,14 @@ struct ThreadwiseDynamicTensorSliceTransfer_v3r1
                                       : dst_slice_origin_step_idx + GetDstCoordinateResetStep();
        // is it OK to construct a new step every time?
-        const auto adjusted_step =
+        const auto adjusted_step = make_tensor_coordinate_iterator(dst_desc, adjusted_step_idx);
-            make_dynamic_tensor_coordinate_iterator(dst_desc, adjusted_step_idx);
-        move_dynamic_tensor_coordinate(dst_desc, dst_coord_, adjusted_step);
+        move_tensor_coordinate(dst_desc, dst_coord_, adjusted_step);
    }
    private:
    static constexpr auto buffer_desc_ =
-        make_dynamic_naive_tensor_descriptor_packed_v2(sequence_to_tuple_of_number(SliceLengths{}));
+        make_naive_tensor_descriptor_packed(sequence_to_tuple_of_number(SliceLengths{}));
    static constexpr auto buffer_size_ = buffer_desc_.GetElementSpaceSize();
@@ -640,7 +638,7 @@ template <
    typename SrcVectorTensorContiguousDimOrder,
    typename std::enable_if<SrcDesc::IsKnownAtCompileTime() && DstDesc::IsKnownAtCompileTime(),
                            bool>::type = false>
-struct ThreadwiseDynamicTensorSliceTransfer_v4r1
+struct ThreadwiseTensorSliceTransfer_v4r1
 {
    static constexpr auto I0 = Number<0>{};
    static constexpr auto I1 = Number<1>{};
@@ -649,12 +647,12 @@ struct ThreadwiseDynamicTensorSliceTransfer_v4r1
    using Index = MultiIndex<nDim>;
-    using SrcCoord = decltype(make_dynamic_tensor_coordinate(SrcDesc{}, Index{}));
+    using SrcCoord = decltype(make_tensor_coordinate(SrcDesc{}, Index{}));
-    using SrcCoordIterator = decltype(make_dynamic_tensor_coordinate_iterator(SrcDesc{}, Index{}));
+    using SrcCoordIterator = decltype(make_tensor_coordinate_iterator(SrcDesc{}, Index{}));
-    __device__ constexpr ThreadwiseDynamicTensorSliceTransfer_v4r1(const Index& src_ref_idx)
+    __device__ constexpr ThreadwiseTensorSliceTransfer_v4r1(const Index& src_ref_idx)
-        : src_ref_coord_(make_dynamic_tensor_coordinate(SrcDesc{}, src_ref_idx))
+        : src_ref_coord_(make_tensor_coordinate(SrcDesc{}, src_ref_idx))
    {
        static_assert(SrcDesc::IsKnownAtCompileTime() && DstDesc::IsKnownAtCompileTime(),
                      "wrong! SrcDesc and DstDesc need to known at compile-time");
@@ -712,9 +710,9 @@ struct ThreadwiseDynamicTensorSliceTransfer_v4r1
                I1),
            SrcVectorTensorContiguousDimOrder{});
-        constexpr auto src_vector_desc = make_dynamic_naive_tensor_descriptor_v2(
+        constexpr auto src_vector_desc =
-            sequence_to_tuple_of_number(src_vector_tensor_lengths),
+            make_naive_tensor_descriptor_v2(sequence_to_tuple_of_number(src_vector_tensor_lengths),
-            sequence_to_tuple_of_number(src_vector_tensor_strides));
+                                            sequence_to_tuple_of_number(src_vector_tensor_strides));
        // access order and lengths
        constexpr auto access_lengths = SliceLengths{} / src_vector_tensor_lengths;
@@ -735,12 +733,11 @@ struct ThreadwiseDynamicTensorSliceTransfer_v4r1
                src_ref_to_origin_disp_idx + data_to_origin_disp_idx;
            constexpr auto src_ref_to_data_disp_coord_iterator =
-                make_dynamic_tensor_coordinate_iterator(src_desc, src_ref_to_data_disp_idx);
+                make_tensor_coordinate_iterator(src_desc, src_ref_to_data_disp_idx);
            auto src_data_coord = src_ref_coord_;
-            move_dynamic_tensor_coordinate(
+            move_tensor_coordinate(src_desc, src_data_coord, src_ref_to_data_disp_coord_iterator);
-                src_desc, src_data_coord, src_ref_to_data_disp_coord_iterator);
            vector_type_maker_t<SrcData, src_vector_desc.GetElementSpaceSize()> src_vector;
@@ -775,10 +772,10 @@ struct ThreadwiseDynamicTensorSliceTransfer_v4r1
    {
        constexpr auto src_desc = SrcDesc{};
-        const auto src_slice_move_step_iter = make_dynamic_tensor_coordinate_iterator(
+        const auto src_slice_move_step_iter =
-            src_desc, to_multi_index(src_slice_move_step_idx));
+            make_tensor_coordinate_iterator(src_desc, to_multi_index(src_slice_move_step_idx));
-        move_dynamic_tensor_coordinate(SrcDesc{}, src_ref_coord_, src_slice_move_step_iter);
+        move_tensor_coordinate(SrcDesc{}, src_ref_coord_, src_slice_move_step_iter);
    }
    private:

--- a/composable_kernel/include/utility/config.hpp
+++ b/composable_kernel/include/utility/config.hpp
@@ -99,8 +99,8 @@
 // hack for forcing register to keep idx_diff_low_const in SGPR. idx_diff_low_const must be
 // thread-invariant, otherwise it's a bug
 // TODO: separate index calculation into "compile-time", "global", "block", "wave", "thread"
-#ifndef CK_HACK_DYNAMIC_MERGE_CALCULATE_IDX_DIFF_LOW_CONST_USE_AMD_GCN_READ_FIRST_LANE
+#ifndef CK_HACK_MERGE_CALCULATE_IDX_DIFF_LOW_CONST_USE_AMD_GCN_READ_FIRST_LANE
-#define CK_HACK_DYNAMIC_MERGE_CALCULATE_IDX_DIFF_LOW_CONST_USE_AMD_GCN_READ_FIRST_LANE 0
+#define CK_HACK_MERGE_CALCULATE_IDX_DIFF_LOW_CONST_USE_AMD_GCN_READ_FIRST_LANE 0
 #endif
 // workaround for compiler crash when compiling recursive lambda

--- a/composable_kernel/include/utility/dynamic_buffer.hpp
+++ b/composable_kernel/include/utility/dynamic_buffer.hpp
-#ifndef CK_DYNAMIC_BUFFER_HPP
+#ifndef CK_BUFFER_HPP
-#define CK_DYNAMIC_BUFFER_HPP
+#define CK_BUFFER_HPP
 #include "amd_buffer_addressing.hpp"
 #include "c_style_pointer_cast.hpp"

--- a/composable_kernel/src/kernel_wrapper/dynamic_convolution_forward_implicit_gemm_v4r4_dlops_nchw_kcyx_nkhw.cpp
+++ b/composable_kernel/src/kernel_wrapper/dynamic_convolution_forward_implicit_gemm_v4r4_dlops_nchw_kcyx_nkhw.cpp
 #include "common_header.hpp"
-#include "dynamic_tensor_descriptor.hpp"
+#include "tensor_descriptor.hpp"
-#include "dynamic_tensor_descriptor_helper.hpp"
+#include "tensor_descriptor_helper.hpp"
-#include "gridwise_dynamic_gemm_dlops_v1r2.hpp"
+#include "gridwise_gemm_dlops_v1r2.hpp"
 #include "transform_forward_convolution_into_gemm_v4r4_nchw_kcyx_nkhw.hpp"
 using namespace ck;
@@ -64,8 +64,7 @@ constexpr index_t CThreadTransferDstScalarPerVector = CK_PARAM_CThreadTransferDs
 constexpr bool HasMainKBlockLoop       = static_cast<bool>(CK_PARAM_HAS_MAIN_KBLOCK_LOOP);
 constexpr bool HasDoubleTailKBlockLoop = static_cast<bool>(CK_PARAM_HAS_DOUBLE_TAIL_KBLOCK_LOOP);
-extern "C" __global__ void
+extern "C" __global__ void convolution_forward_implicit_gemm_v4r4_dlops_nchw_kcyx_nkhw_prepare(
-dynamic_convolution_forward_implicit_gemm_v4r4_dlops_nchw_kcyx_nkhw_prepare(
    int n,
    int c,
    int hi,
@@ -93,12 +92,9 @@ dynamic_convolution_forward_implicit_gemm_v4r4_dlops_nchw_kcyx_nkhw_prepare(
    const index_t ho = (hi + leftPadH + rightPadH - convDilationY * (y - 1) - 1) / convStrideH + 1;
    const index_t wo = (wi + leftPadW + rightPadW - convDilationX * (x - 1) - 1) / convStrideW + 1;
-    const auto in_n_c_hi_wi_desc =
+    const auto in_n_c_hi_wi_desc  = make_naive_tensor_descriptor_packed(make_tuple(n, c, hi, wi));
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(n, c, hi, wi));
+    const auto wei_k_c_y_x_desc   = make_naive_tensor_descriptor_packed(make_tuple(k, c, y, x));
-    const auto wei_k_c_y_x_desc =
+    const auto out_n_k_ho_wo_desc = make_naive_tensor_descriptor_packed(make_tuple(n, k, ho, wo));
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(k, c, y, x));
-    const auto out_n_k_ho_wo_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(n, k, ho, wo));
    const auto descs = transform_forward_convolution_into_gemm_v4r4_nchw_kcyx_nkhw_pad(
        wei_k_c_y_x_desc,
@@ -151,48 +147,48 @@ dynamic_convolution_forward_implicit_gemm_v4r4_dlops_nchw_kcyx_nkhw_prepare(
    using BGridMoveSliceWindowIteratorHacks = Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0>;
    using GridwiseGemm =
-        GridwiseDynamicGemmDlops_km_kn_mn_v1r2<BlockSize,
+        GridwiseGemmDlops_km_kn_mn_v1r2<BlockSize,
-                                               FloatAB,
+                                        FloatAB,
-                                               FloatAcc,
+                                        FloatAcc,
-                                               FloatC,
+                                        FloatC,
-                                               InMemoryDataOperationEnum_t::Set, /* ToDo tunable */
+                                        InMemoryDataOperationEnum_t::Set, /* ToDo tunable */
-                                               AKMGridDesc,
+                                        AKMGridDesc,
-                                               BKNGridDesc,
+                                        BKNGridDesc,
-                                               CMNGridDesc,
+                                        CMNGridDesc,
-                                               MPerBlock,
+                                        MPerBlock,
-                                               NPerBlock,
+                                        NPerBlock,
-                                               KPerBlock,
+                                        KPerBlock,
-                                               M1PerThread,
+                                        M1PerThread,
-                                               N1PerThread,
+                                        N1PerThread,
-                                               KPerThread,
+                                        KPerThread,
-                                               M1N1ThreadClusterM10,
+                                        M1N1ThreadClusterM10,
-                                               M1N1ThreadClusterN10,
+                                        M1N1ThreadClusterN10,
-                                               M1N1ThreadClusterM11,
+                                        M1N1ThreadClusterM11,
-                                               M1N1ThreadClusterN11,
+                                        M1N1ThreadClusterN11,
-                                               ABlockTransferThreadSliceLengths_K_M0_M1,
+                                        ABlockTransferThreadSliceLengths_K_M0_M1,
-                                               ABlockTransferThreadClusterLengths_K_M0_M1,
+                                        ABlockTransferThreadClusterLengths_K_M0_M1,
-                                               ABlockTransferThreadClusterArrangeOrder,
+                                        ABlockTransferThreadClusterArrangeOrder,
-                                               ABlockTransferSrcAccessOrder,
+                                        ABlockTransferSrcAccessOrder,
-                                               ABlockTransferSrcVectorDim,
+                                        ABlockTransferSrcVectorDim,
-                                               ABlockTransferSrcScalarPerVector,
+                                        ABlockTransferSrcScalarPerVector,
-                                               ABlockTransferDstScalarPerVector_M1,
+                                        ABlockTransferDstScalarPerVector_M1,
-                                               AThreadTransferSrcResetCoordinateAfterRun,
+                                        AThreadTransferSrcResetCoordinateAfterRun,
-                                               BBlockTransferThreadSliceLengths_K_N0_N1,
+                                        BBlockTransferThreadSliceLengths_K_N0_N1,
-                                               BBlockTransferThreadClusterLengths_K_N0_N1,
+                                        BBlockTransferThreadClusterLengths_K_N0_N1,
-                                               BBlockTransferThreadClusterArrangeOrder,
+                                        BBlockTransferThreadClusterArrangeOrder,
-                                               BBlockTransferSrcAccessOrder,
+                                        BBlockTransferSrcAccessOrder,
-                                               BBlockTransferSrcVectorDim,
+                                        BBlockTransferSrcVectorDim,
-                                               BBlockTransferSrcScalarPerVector,
+                                        BBlockTransferSrcScalarPerVector,
-                                               BBlockTransferDstScalarPerVector_N1,
+                                        BBlockTransferDstScalarPerVector_N1,
-                                               BThreadTransferSrcResetCoordinateAfterRun,
+                                        BThreadTransferSrcResetCoordinateAfterRun,
-                                               CThreadTransferSrcDstAccessOrder,
+                                        CThreadTransferSrcDstAccessOrder,
-                                               CThreadTransferSrcDstVectorDim,
+                                        CThreadTransferSrcDstVectorDim,
-                                               CThreadTransferDstScalarPerVector,
+                                        CThreadTransferDstScalarPerVector,
-                                               AGridIteratorHacks,
+                                        AGridIteratorHacks,
-                                               BGridIteratorHacks,
+                                        BGridIteratorHacks,
-                                               CGridIteratorHacks,
+                                        CGridIteratorHacks,
-                                               AGridMoveSliceWindowIteratorHacks,
+                                        AGridMoveSliceWindowIteratorHacks,
-                                               BGridMoveSliceWindowIteratorHacks>;
+                                        BGridMoveSliceWindowIteratorHacks>;
    auto a_k_m0_m1_grid_desc = GridwiseGemm::MakeAKM0M1GridDescriptor(a_k_m_grid_desc);
    auto b_k_n0_n1_grid_desc = GridwiseGemm::MakeBKN0N1GridDescriptor(b_k_n_grid_desc);
@@ -216,7 +212,7 @@ extern "C" __global__ void
 #if CK_USE_LAUNCH_BOUNDS
    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
 #endif
-        dynamic_convolution_forward_implicit_gemm_v4r4_dlops_nchw_kcyx_nkhw(
+        convolution_forward_implicit_gemm_v4r4_dlops_nchw_kcyx_nkhw(
            const FloatAB* __restrict__ p_a_grid,
            const FloatAB* __restrict__ p_b_grid,
            FloatC* __restrict__ p_c_grid,
@@ -230,11 +226,11 @@ extern "C" __global__ void
    constexpr auto I2 = Number<2>{};
    constexpr auto in_n_c_hi_wi_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(256, 256, 28, 28));
+        make_naive_tensor_descriptor_packed(make_tuple(256, 256, 28, 28));
    constexpr auto wei_k_c_y_x_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(256, 256, 3, 3));
+        make_naive_tensor_descriptor_packed(make_tuple(256, 256, 3, 3));
    constexpr auto out_n_k_ho_wo_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(256, 256, 28, 28));
+        make_naive_tensor_descriptor_packed(make_tuple(256, 256, 28, 28));
    constexpr auto descs =
        transform_forward_convolution_into_gemm_v4r4_nchw_kcyx_nkhw_pad(wei_k_c_y_x_desc,
@@ -287,48 +283,48 @@ extern "C" __global__ void
    using BGridMoveSliceWindowIteratorHacks = Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0>;
    using GridwiseGemm =
-        GridwiseDynamicGemmDlops_km_kn_mn_v1r2<BlockSize,
+        GridwiseGemmDlops_km_kn_mn_v1r2<BlockSize,
-                                               FloatAB,
+                                        FloatAB,
-                                               FloatAcc,
+                                        FloatAcc,
-                                               FloatC,
+                                        FloatC,
-                                               InMemoryDataOperationEnum_t::Set, /* ToDo tunable */
+                                        InMemoryDataOperationEnum_t::Set, /* ToDo tunable */
-                                               AKMGridDesc,
+                                        AKMGridDesc,
-                                               BKNGridDesc,
+                                        BKNGridDesc,
-                                               CMNGridDesc,
+                                        CMNGridDesc,
-                                               MPerBlock,
+                                        MPerBlock,
-                                               NPerBlock,
+                                        NPerBlock,
-                                               KPerBlock,
+                                        KPerBlock,
-                                               M1PerThread,
+                                        M1PerThread,
-                                               N1PerThread,
+                                        N1PerThread,
-                                               KPerThread,
+                                        KPerThread,
-                                               M1N1ThreadClusterM10,
+                                        M1N1ThreadClusterM10,
-                                               M1N1ThreadClusterN10,
+                                        M1N1ThreadClusterN10,
-                                               M1N1ThreadClusterM11,
+                                        M1N1ThreadClusterM11,
-                                               M1N1ThreadClusterN11,
+                                        M1N1ThreadClusterN11,
-                                               ABlockTransferThreadSliceLengths_K_M0_M1,
+                                        ABlockTransferThreadSliceLengths_K_M0_M1,
-                                               ABlockTransferThreadClusterLengths_K_M0_M1,
+                                        ABlockTransferThreadClusterLengths_K_M0_M1,
-                                               ABlockTransferThreadClusterArrangeOrder,
+                                        ABlockTransferThreadClusterArrangeOrder,
-                                               ABlockTransferSrcAccessOrder,
+                                        ABlockTransferSrcAccessOrder,
-                                               ABlockTransferSrcVectorDim,
+                                        ABlockTransferSrcVectorDim,
-                                               ABlockTransferSrcScalarPerVector,
+                                        ABlockTransferSrcScalarPerVector,
-                                               ABlockTransferDstScalarPerVector_M1,
+                                        ABlockTransferDstScalarPerVector_M1,
-                                               AThreadTransferSrcResetCoordinateAfterRun,
+                                        AThreadTransferSrcResetCoordinateAfterRun,
-                                               BBlockTransferThreadSliceLengths_K_N0_N1,
+                                        BBlockTransferThreadSliceLengths_K_N0_N1,
-                                               BBlockTransferThreadClusterLengths_K_N0_N1,
+                                        BBlockTransferThreadClusterLengths_K_N0_N1,
-                                               BBlockTransferThreadClusterArrangeOrder,
+                                        BBlockTransferThreadClusterArrangeOrder,
-                                               BBlockTransferSrcAccessOrder,
+                                        BBlockTransferSrcAccessOrder,
-                                               BBlockTransferSrcVectorDim,
+                                        BBlockTransferSrcVectorDim,
-                                               BBlockTransferSrcScalarPerVector,
+                                        BBlockTransferSrcScalarPerVector,
-                                               BBlockTransferDstScalarPerVector_N1,
+                                        BBlockTransferDstScalarPerVector_N1,
-                                               BThreadTransferSrcResetCoordinateAfterRun,
+                                        BThreadTransferSrcResetCoordinateAfterRun,
-                                               CThreadTransferSrcDstAccessOrder,
+                                        CThreadTransferSrcDstAccessOrder,
-                                               CThreadTransferSrcDstVectorDim,
+                                        CThreadTransferSrcDstVectorDim,
-                                               CThreadTransferDstScalarPerVector,
+                                        CThreadTransferDstScalarPerVector,
-                                               AGridIteratorHacks,
+                                        AGridIteratorHacks,
-                                               BGridIteratorHacks,
+                                        BGridIteratorHacks,
-                                               CGridIteratorHacks,
+                                        CGridIteratorHacks,
-                                               AGridMoveSliceWindowIteratorHacks,
+                                        AGridMoveSliceWindowIteratorHacks,
-                                               BGridMoveSliceWindowIteratorHacks>;
+                                        BGridMoveSliceWindowIteratorHacks>;
    constexpr auto a_k_m0_m1_grid_desc_tmp =
        GridwiseGemm::MakeAKM0M1GridDescriptor(a_k_m_grid_desc);

--- a/composable_kernel/src/kernel_wrapper/dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw.cpp
+++ b/composable_kernel/src/kernel_wrapper/dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw.cpp
 #include "common_header.hpp"
-#include "dynamic_tensor_descriptor.hpp"
+#include "tensor_descriptor.hpp"
-#include "dynamic_tensor_descriptor_helper.hpp"
+#include "tensor_descriptor_helper.hpp"
-#include "gridwise_dynamic_gemm_xdlops_v2r3.hpp"
+#include "gridwise_gemm_xdlops_v2r3.hpp"
 #include "transform_forward_convolution_into_gemm_v4r4r2_nchw_kcyx_nkhw.hpp"
 using namespace ck;
@@ -60,8 +60,7 @@ using CThreadTransferSrcDstAccessOrder = Sequence<CK_PARAM_CThreadTransferSrcDst
 constexpr index_t CThreadTransferSrcDstVectorDim    = CK_PARAM_CThreadTransferSrcDstVectorDim;
 constexpr index_t CThreadTransferDstScalarPerVector = CK_PARAM_CThreadTransferDstScalarPerVector;
-extern "C" __global__ void
+extern "C" __global__ void convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw_prepare(
-dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw_prepare(
    int n,
    int c,
    int hi,
@@ -89,12 +88,9 @@ dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw_prepare(
    const index_t ho = (hi + leftPadH + rightPadH - convDilationY * (y - 1) - 1) / convStrideH + 1;
    const index_t wo = (wi + leftPadW + rightPadW - convDilationX * (x - 1) - 1) / convStrideW + 1;
-    const auto in_n_c_hi_wi_desc =
+    const auto in_n_c_hi_wi_desc  = make_naive_tensor_descriptor_packed(make_tuple(n, c, hi, wi));
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(n, c, hi, wi));
+    const auto wei_k_c_y_x_desc   = make_naive_tensor_descriptor_packed(make_tuple(k, c, y, x));
-    const auto wei_k_c_y_x_desc =
+    const auto out_n_k_ho_wo_desc = make_naive_tensor_descriptor_packed(make_tuple(n, k, ho, wo));
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(k, c, y, x));
-    const auto out_n_k_ho_wo_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(n, k, ho, wo));
    const auto descs = transform_forward_convolution_into_gemm_v4r4r2_nchw_kcyx_nkhw_pad(
        wei_k_c_y_x_desc,
@@ -148,47 +144,47 @@ dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw_prepare(
    using BGridMoveSliceWindowIteratorHacks = Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0>;
    using GridwiseGemm =
-        GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3<BlockSize,
+        GridwiseGemm_k0mk1_k0nk1_mn_xdlops_v2r3<BlockSize,
-                                                       FloatAB,
+                                                FloatAB,
-                                                       FloatAcc,
+                                                FloatAcc,
-                                                       FloatC,
+                                                FloatC,
-                                                       InMemoryDataOperationEnum_t::Set,
+                                                InMemoryDataOperationEnum_t::Set,
-                                                       AK0MK1GridDesc,
+                                                AK0MK1GridDesc,
-                                                       BK0NK1GridDesc,
+                                                BK0NK1GridDesc,
-                                                       CMNGridDesc,
+                                                CMNGridDesc,
-                                                       MPerBlock,
+                                                MPerBlock,
-                                                       NPerBlock,
+                                                NPerBlock,
-                                                       KPerBlock,
+                                                KPerBlock,
-                                                       MPerWave,
+                                                MPerWave,
-                                                       NPerWave,
+                                                NPerWave,
-                                                       K1,
+                                                K1,
-                                                       MRepeat,
+                                                MRepeat,
-                                                       NRepeat,
+                                                NRepeat,
-                                                       ABlockTransferThreadSliceLengths_K0_M_K1,
+                                                ABlockTransferThreadSliceLengths_K0_M_K1,
-                                                       ABlockTransferThreadClusterLengths_K0_M_K1,
+                                                ABlockTransferThreadClusterLengths_K0_M_K1,
-                                                       ABlockTransferThreadClusterArrangeOrder,
+                                                ABlockTransferThreadClusterArrangeOrder,
-                                                       ABlockTransferSrcAccessOrder,
+                                                ABlockTransferSrcAccessOrder,
-                                                       ABlockTransferSrcVectorDim,
+                                                ABlockTransferSrcVectorDim,
-                                                       ABlockTransferSrcScalarPerVector,
+                                                ABlockTransferSrcScalarPerVector,
-                                                       ABlockTransferDstScalarPerVector_K1,
+                                                ABlockTransferDstScalarPerVector_K1,
-                                                       AThreadTransferSrcResetCoordinateAfterRun,
+                                                AThreadTransferSrcResetCoordinateAfterRun,
-                                                       BBlockTransferThreadSliceLengths_K0_N_K1,
+                                                BBlockTransferThreadSliceLengths_K0_N_K1,
-                                                       BBlockTransferThreadClusterLengths_K0_N_K1,
+                                                BBlockTransferThreadClusterLengths_K0_N_K1,
-                                                       BBlockTransferThreadClusterArrangeOrder,
+                                                BBlockTransferThreadClusterArrangeOrder,
-                                                       BBlockTransferSrcAccessOrder,
+                                                BBlockTransferSrcAccessOrder,
-                                                       BBlockTransferSrcVectorDim,
+                                                BBlockTransferSrcVectorDim,
-                                                       BBlockTransferSrcScalarPerVector,
+                                                BBlockTransferSrcScalarPerVector,
-                                                       BBlockTransferDstScalarPerVector_K1,
+                                                BBlockTransferDstScalarPerVector_K1,
-                                                       BThreadTransferSrcResetCoordinateAfterRun,
+                                                BThreadTransferSrcResetCoordinateAfterRun,
-                                                       CThreadTransferSrcDstAccessOrder,
+                                                CThreadTransferSrcDstAccessOrder,
-                                                       CThreadTransferSrcDstVectorDim,
+                                                CThreadTransferSrcDstVectorDim,
-                                                       CThreadTransferDstScalarPerVector,
+                                                CThreadTransferDstScalarPerVector,
-                                                       AGridIteratorHacks,
+                                                AGridIteratorHacks,
-                                                       BGridIteratorHacks,
+                                                BGridIteratorHacks,
-                                                       CGridIteratorHacks,
+                                                CGridIteratorHacks,
-                                                       AGridMoveSliceWindowIteratorHacks,
+                                                AGridMoveSliceWindowIteratorHacks,
-                                                       BGridMoveSliceWindowIteratorHacks,
+                                                BGridMoveSliceWindowIteratorHacks,
-                                                       false>;
+                                                false>;
    auto c_m0_m1_m2_n_grid_desc = GridwiseGemm::MakeCM0M1M2NGridDescriptor(c_m_n_grid_desc);
@@ -212,7 +208,7 @@ extern "C" __global__ void
 #if CK_USE_LAUNCH_BOUNDS
    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
 #endif
-        dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw(
+        convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw(
            const FloatAB* __restrict__ p_a_grid,
            const FloatAB* __restrict__ p_b_grid,
            FloatC* __restrict__ p_c_grid,
@@ -227,11 +223,11 @@ extern "C" __global__ void
    constexpr auto I2 = Number<2>{};
    constexpr auto in_n_c_hi_wi_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(256, 256, 28, 28));
+        make_naive_tensor_descriptor_packed(make_tuple(256, 256, 28, 28));
    constexpr auto wei_k_c_y_x_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(256, 256, 3, 3));
+        make_naive_tensor_descriptor_packed(make_tuple(256, 256, 3, 3));
    constexpr auto out_n_k_ho_wo_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(256, 256, 28, 28));
+        make_naive_tensor_descriptor_packed(make_tuple(256, 256, 28, 28));
    constexpr auto descs =
        transform_forward_convolution_into_gemm_v4r4r2_nchw_kcyx_nkhw_pad(wei_k_c_y_x_desc,
@@ -285,47 +281,47 @@ extern "C" __global__ void
    using CMNGridDesc    = decltype(c_m_n_grid_desc);
    using GridwiseGemm =
-        GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3<BlockSize,
+        GridwiseGemm_k0mk1_k0nk1_mn_xdlops_v2r3<BlockSize,
-                                                       FloatAB,
+                                                FloatAB,
-                                                       FloatAcc,
+                                                FloatAcc,
-                                                       FloatC,
+                                                FloatC,
-                                                       InMemoryDataOperationEnum_t::Set,
+                                                InMemoryDataOperationEnum_t::Set,
-                                                       AK0MK1GridDesc,
+                                                AK0MK1GridDesc,
-                                                       BK0NK1GridDesc,
+                                                BK0NK1GridDesc,
-                                                       CMNGridDesc,
+                                                CMNGridDesc,
-                                                       MPerBlock,
+                                                MPerBlock,
-                                                       NPerBlock,
+                                                NPerBlock,
-                                                       KPerBlock,
+                                                KPerBlock,
-                                                       MPerWave,
+                                                MPerWave,
-                                                       NPerWave,
+                                                NPerWave,
-                                                       K1,
+                                                K1,
-                                                       MRepeat,
+                                                MRepeat,
-                                                       NRepeat,
+                                                NRepeat,
-                                                       ABlockTransferThreadSliceLengths_K0_M_K1,
+                                                ABlockTransferThreadSliceLengths_K0_M_K1,
-                                                       ABlockTransferThreadClusterLengths_K0_M_K1,
+                                                ABlockTransferThreadClusterLengths_K0_M_K1,
-                                                       ABlockTransferThreadClusterArrangeOrder,
+                                                ABlockTransferThreadClusterArrangeOrder,
-                                                       ABlockTransferSrcAccessOrder,
+                                                ABlockTransferSrcAccessOrder,
-                                                       ABlockTransferSrcVectorDim,
+                                                ABlockTransferSrcVectorDim,
-                                                       ABlockTransferSrcScalarPerVector,
+                                                ABlockTransferSrcScalarPerVector,
-                                                       ABlockTransferDstScalarPerVector_K1,
+                                                ABlockTransferDstScalarPerVector_K1,
-                                                       AThreadTransferSrcResetCoordinateAfterRun,
+                                                AThreadTransferSrcResetCoordinateAfterRun,
-                                                       BBlockTransferThreadSliceLengths_K0_N_K1,
+                                                BBlockTransferThreadSliceLengths_K0_N_K1,
-                                                       BBlockTransferThreadClusterLengths_K0_N_K1,
+                                                BBlockTransferThreadClusterLengths_K0_N_K1,
-                                                       BBlockTransferThreadClusterArrangeOrder,
+                                                BBlockTransferThreadClusterArrangeOrder,
-                                                       BBlockTransferSrcAccessOrder,
+                                                BBlockTransferSrcAccessOrder,
-                                                       BBlockTransferSrcVectorDim,
+                                                BBlockTransferSrcVectorDim,
-                                                       BBlockTransferSrcScalarPerVector,
+                                                BBlockTransferSrcScalarPerVector,
-                                                       BBlockTransferDstScalarPerVector_K1,
+                                                BBlockTransferDstScalarPerVector_K1,
-                                                       BThreadTransferSrcResetCoordinateAfterRun,
+                                                BThreadTransferSrcResetCoordinateAfterRun,
-                                                       CThreadTransferSrcDstAccessOrder,
+                                                CThreadTransferSrcDstAccessOrder,
-                                                       CThreadTransferSrcDstVectorDim,
+                                                CThreadTransferSrcDstVectorDim,
-                                                       CThreadTransferDstScalarPerVector,
+                                                CThreadTransferDstScalarPerVector,
-                                                       AGridIteratorHacks,
+                                                AGridIteratorHacks,
-                                                       BGridIteratorHacks,
+                                                BGridIteratorHacks,
-                                                       CGridIteratorHacks,
+                                                CGridIteratorHacks,
-                                                       AGridMoveSliceWindowIteratorHacks,
+                                                AGridMoveSliceWindowIteratorHacks,
-                                                       BGridMoveSliceWindowIteratorHacks,
+                                                BGridMoveSliceWindowIteratorHacks,
-                                                       false>;
+                                                false>;
    constexpr auto c_m0_m1_m2_n_grid_desc_tmp =
        GridwiseGemm::MakeCM0M1M2NGridDescriptor(c_m_n_grid_desc);

--- a/composable_kernel/src/kernel_wrapper/dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nhwc_kyxc_nhwk.cpp
+++ b/composable_kernel/src/kernel_wrapper/dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nhwc_kyxc_nhwk.cpp
 #include "common_header.hpp"
-#include "dynamic_tensor_descriptor.hpp"
+#include "tensor_descriptor.hpp"
-#include "dynamic_tensor_descriptor_helper.hpp"
+#include "tensor_descriptor_helper.hpp"
-#include "gridwise_dynamic_gemm_xdlops_v2r3.hpp"
+#include "gridwise_gemm_xdlops_v2r3.hpp"
 #include "transform_forward_convolution_into_gemm_v4r4r4_nhwc_kyxc_nhwk.hpp"
 using namespace ck;
@@ -60,8 +60,7 @@ using CThreadTransferSrcDstAccessOrder = Sequence<CK_PARAM_CThreadTransferSrcDst
 constexpr index_t CThreadTransferSrcDstVectorDim    = CK_PARAM_CThreadTransferSrcDstVectorDim;
 constexpr index_t CThreadTransferDstScalarPerVector = CK_PARAM_CThreadTransferDstScalarPerVector;
-extern "C" __global__ void
+extern "C" __global__ void convolution_forward_implicit_gemm_v4r4_xdlops_nhwc_kyxc_nhwk_prepare(
-dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nhwc_kyxc_nhwk_prepare(
    int n,
    int hi,
    int wi,
@@ -89,12 +88,9 @@ dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nhwc_kyxc_nhwk_prepare(
    const index_t ho = (hi + leftPadH + rightPadH - convDilationY * (y - 1) - 1) / convStrideH + 1;
    const index_t wo = (wi + leftPadW + rightPadW - convDilationX * (x - 1) - 1) / convStrideW + 1;
-    const auto in_n_hi_wi_c_desc =
+    const auto in_n_hi_wi_c_desc  = make_naive_tensor_descriptor_packed(make_tuple(n, hi, wi, c));
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(n, hi, wi, c));
+    const auto wei_k_y_x_c_desc   = make_naive_tensor_descriptor_packed(make_tuple(k, y, x, c));
-    const auto wei_k_y_x_c_desc =
+    const auto out_n_ho_wo_k_desc = make_naive_tensor_descriptor_packed(make_tuple(n, ho, wo, k));
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(k, y, x, c));
-    const auto out_n_ho_wo_k_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(n, ho, wo, k));
    const auto descs = transform_forward_convolution_into_gemm_v4r4r4_nhwc_kyxc_nhwk_pad(
        in_n_hi_wi_c_desc,
@@ -148,47 +144,47 @@ dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nhwc_kyxc_nhwk_prepare(
    using BGridMoveSliceWindowIteratorHacks = Sequence<0, 0, 0, 0, 0>;
    using GridwiseGemm =
-        GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3<BlockSize,
+        GridwiseGemm_k0mk1_k0nk1_mn_xdlops_v2r3<BlockSize,
-                                                       FloatAB,
+                                                FloatAB,
-                                                       FloatAcc,
+                                                FloatAcc,
-                                                       FloatC,
+                                                FloatC,
-                                                       InMemoryDataOperationEnum_t::Set,
+                                                InMemoryDataOperationEnum_t::Set,
-                                                       AK0MK1GridDesc,
+                                                AK0MK1GridDesc,
-                                                       BK0NK1GridDesc,
+                                                BK0NK1GridDesc,
-                                                       CMNGridDesc,
+                                                CMNGridDesc,
-                                                       MPerBlock,
+                                                MPerBlock,
-                                                       NPerBlock,
+                                                NPerBlock,
-                                                       KPerBlock,
+                                                KPerBlock,
-                                                       MPerWave,
+                                                MPerWave,
-                                                       NPerWave,
+                                                NPerWave,
-                                                       K1,
+                                                K1,
-                                                       MRepeat,
+                                                MRepeat,
-                                                       NRepeat,
+                                                NRepeat,
-                                                       ABlockTransferThreadSliceLengths_K0_M_K1,
+                                                ABlockTransferThreadSliceLengths_K0_M_K1,
-                                                       ABlockTransferThreadClusterLengths_K0_M_K1,
+                                                ABlockTransferThreadClusterLengths_K0_M_K1,
-                                                       ABlockTransferThreadClusterArrangeOrder,
+                                                ABlockTransferThreadClusterArrangeOrder,
-                                                       ABlockTransferSrcAccessOrder,
+                                                ABlockTransferSrcAccessOrder,
-                                                       ABlockTransferSrcVectorDim,
+                                                ABlockTransferSrcVectorDim,
-                                                       ABlockTransferSrcScalarPerVector,
+                                                ABlockTransferSrcScalarPerVector,
-                                                       ABlockTransferDstScalarPerVector_K1,
+                                                ABlockTransferDstScalarPerVector_K1,
-                                                       AThreadTransferSrcResetCoordinateAfterRun,
+                                                AThreadTransferSrcResetCoordinateAfterRun,
-                                                       BBlockTransferThreadSliceLengths_K0_N_K1,
+                                                BBlockTransferThreadSliceLengths_K0_N_K1,
-                                                       BBlockTransferThreadClusterLengths_K0_N_K1,
+                                                BBlockTransferThreadClusterLengths_K0_N_K1,
-                                                       BBlockTransferThreadClusterArrangeOrder,
+                                                BBlockTransferThreadClusterArrangeOrder,
-                                                       BBlockTransferSrcAccessOrder,
+                                                BBlockTransferSrcAccessOrder,
-                                                       BBlockTransferSrcVectorDim,
+                                                BBlockTransferSrcVectorDim,
-                                                       BBlockTransferSrcScalarPerVector,
+                                                BBlockTransferSrcScalarPerVector,
-                                                       BBlockTransferDstScalarPerVector_K1,
+                                                BBlockTransferDstScalarPerVector_K1,
-                                                       BThreadTransferSrcResetCoordinateAfterRun,
+                                                BThreadTransferSrcResetCoordinateAfterRun,
-                                                       CThreadTransferSrcDstAccessOrder,
+                                                CThreadTransferSrcDstAccessOrder,
-                                                       CThreadTransferSrcDstVectorDim,
+                                                CThreadTransferSrcDstVectorDim,
-                                                       CThreadTransferDstScalarPerVector,
+                                                CThreadTransferDstScalarPerVector,
-                                                       AGridIteratorHacks,
+                                                AGridIteratorHacks,
-                                                       BGridIteratorHacks,
+                                                BGridIteratorHacks,
-                                                       CGridIteratorHacks,
+                                                CGridIteratorHacks,
-                                                       AGridMoveSliceWindowIteratorHacks,
+                                                AGridMoveSliceWindowIteratorHacks,
-                                                       BGridMoveSliceWindowIteratorHacks,
+                                                BGridMoveSliceWindowIteratorHacks,
-                                                       false>;
+                                                false>;
    auto c_m0_m1_m2_n_grid_desc = GridwiseGemm::MakeCM0M1M2NGridDescriptor(c_m_n_grid_desc);
@@ -212,7 +208,7 @@ extern "C" __global__ void
 #if CK_USE_LAUNCH_BOUNDS
    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
 #endif
-        dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nhwc_kyxc_nhwk(
+        convolution_forward_implicit_gemm_v4r4_xdlops_nhwc_kyxc_nhwk(
            const FloatAB* __restrict__ p_a_grid,
            const FloatAB* __restrict__ p_b_grid,
            FloatC* __restrict__ p_c_grid,
@@ -227,11 +223,11 @@ extern "C" __global__ void
    constexpr auto I2 = Number<2>{};
    constexpr auto in_n_hi_wi_c_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(256, 28, 28, 256));
+        make_naive_tensor_descriptor_packed(make_tuple(256, 28, 28, 256));
    constexpr auto wei_k_y_x_c_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(256, 3, 3, 256));
+        make_naive_tensor_descriptor_packed(make_tuple(256, 3, 3, 256));
    constexpr auto out_n_ho_wo_k_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(256, 28, 28, 256));
+        make_naive_tensor_descriptor_packed(make_tuple(256, 28, 28, 256));
    constexpr auto descs =
        transform_forward_convolution_into_gemm_v4r4r4_nhwc_kyxc_nhwk_pad(in_n_hi_wi_c_desc,
@@ -285,47 +281,47 @@ extern "C" __global__ void
    using BGridMoveSliceWindowIteratorHacks = Sequence<0, 0, 0, 0, 0>;
    using GridwiseGemm =
-        GridwiseDynamicGemm_k0mk1_k0nk1_mn_xdlops_v2r3<BlockSize,
+        GridwiseGemm_k0mk1_k0nk1_mn_xdlops_v2r3<BlockSize,
-                                                       FloatAB,
+                                                FloatAB,
-                                                       FloatAcc,
+                                                FloatAcc,
-                                                       FloatC,
+                                                FloatC,
-                                                       InMemoryDataOperationEnum_t::Set,
+                                                InMemoryDataOperationEnum_t::Set,
-                                                       AK0MK1GridDesc,
+                                                AK0MK1GridDesc,
-                                                       BK0NK1GridDesc,
+                                                BK0NK1GridDesc,
-                                                       CMNGridDesc,
+                                                CMNGridDesc,
-                                                       MPerBlock,
+                                                MPerBlock,
-                                                       NPerBlock,
+                                                NPerBlock,
-                                                       KPerBlock,
+                                                KPerBlock,
-                                                       MPerWave,
+                                                MPerWave,
-                                                       NPerWave,
+                                                NPerWave,
-                                                       K1,
+                                                K1,
-                                                       MRepeat,
+                                                MRepeat,
-                                                       NRepeat,
+                                                NRepeat,
-                                                       ABlockTransferThreadSliceLengths_K0_M_K1,
+                                                ABlockTransferThreadSliceLengths_K0_M_K1,
-                                                       ABlockTransferThreadClusterLengths_K0_M_K1,
+                                                ABlockTransferThreadClusterLengths_K0_M_K1,
-                                                       ABlockTransferThreadClusterArrangeOrder,
+                                                ABlockTransferThreadClusterArrangeOrder,
-                                                       ABlockTransferSrcAccessOrder,
+                                                ABlockTransferSrcAccessOrder,
-                                                       ABlockTransferSrcVectorDim,
+                                                ABlockTransferSrcVectorDim,
-                                                       ABlockTransferSrcScalarPerVector,
+                                                ABlockTransferSrcScalarPerVector,
-                                                       ABlockTransferDstScalarPerVector_K1,
+                                                ABlockTransferDstScalarPerVector_K1,
-                                                       AThreadTransferSrcResetCoordinateAfterRun,
+                                                AThreadTransferSrcResetCoordinateAfterRun,
-                                                       BBlockTransferThreadSliceLengths_K0_N_K1,
+                                                BBlockTransferThreadSliceLengths_K0_N_K1,
-                                                       BBlockTransferThreadClusterLengths_K0_N_K1,
+                                                BBlockTransferThreadClusterLengths_K0_N_K1,
-                                                       BBlockTransferThreadClusterArrangeOrder,
+                                                BBlockTransferThreadClusterArrangeOrder,
-                                                       BBlockTransferSrcAccessOrder,
+                                                BBlockTransferSrcAccessOrder,
-                                                       BBlockTransferSrcVectorDim,
+                                                BBlockTransferSrcVectorDim,
-                                                       BBlockTransferSrcScalarPerVector,
+                                                BBlockTransferSrcScalarPerVector,
-                                                       BBlockTransferDstScalarPerVector_K1,
+                                                BBlockTransferDstScalarPerVector_K1,
-                                                       BThreadTransferSrcResetCoordinateAfterRun,
+                                                BThreadTransferSrcResetCoordinateAfterRun,
-                                                       CThreadTransferSrcDstAccessOrder,
+                                                CThreadTransferSrcDstAccessOrder,
-                                                       CThreadTransferSrcDstVectorDim,
+                                                CThreadTransferSrcDstVectorDim,
-                                                       CThreadTransferDstScalarPerVector,
+                                                CThreadTransferDstScalarPerVector,
-                                                       AGridIteratorHacks,
+                                                AGridIteratorHacks,
-                                                       BGridIteratorHacks,
+                                                BGridIteratorHacks,
-                                                       CGridIteratorHacks,
+                                                CGridIteratorHacks,
-                                                       AGridMoveSliceWindowIteratorHacks,
+                                                AGridMoveSliceWindowIteratorHacks,
-                                                       BGridMoveSliceWindowIteratorHacks,
+                                                BGridMoveSliceWindowIteratorHacks,
-                                                       false>;
+                                                false>;
    constexpr auto c_m0_m1_m2_n_grid_desc_tmp =
        GridwiseGemm::MakeCM0M1M2NGridDescriptor(c_m_n_grid_desc);
    constexpr auto c_blockid_to_m0_n0_block_cluster_adaptor_tmp =

--- a/composable_kernel/src/kernel_wrapper/dynamic_convolution_forward_implicit_gemm_v6r1_dlops_nchw_kcyx_nkhw.cpp
+++ b/composable_kernel/src/kernel_wrapper/dynamic_convolution_forward_implicit_gemm_v6r1_dlops_nchw_kcyx_nkhw.cpp
 #include "common_header.hpp"
-#include "dynamic_tensor_descriptor.hpp"
+#include "tensor_descriptor.hpp"
-#include "dynamic_tensor_descriptor_helper.hpp"
+#include "tensor_descriptor_helper.hpp"
-#include "gridwise_dynamic_contraction_dlops_v1r2.hpp"
+#include "gridwise_contraction_dlops_v1r2.hpp"
 #include "transform_forward_convolution_into_gemm_v6r1_nchw_kcyx_nkhw.hpp"
 using namespace ck;
@@ -62,22 +62,22 @@ constexpr bool HasMainKBlockLoop       = static_cast<bool>(CK_PARAM_HasMainKBloc
 constexpr bool HasDoubleTailKBlockLoop = static_cast<bool>(CK_PARAM_HasDoubleTailKBlockLoop);
 extern "C" __global__ void
-dynamic_convolution_forward_implicit_gemm_v6r1_dlops_nchw_kcyx_nkhw_prepare(index_t N,
+convolution_forward_implicit_gemm_v6r1_dlops_nchw_kcyx_nkhw_prepare(index_t N,
-                                                                            index_t C,
+                                                                    index_t C,
-                                                                            index_t Hi,
+                                                                    index_t Hi,
-                                                                            index_t Wi,
+                                                                    index_t Wi,
-                                                                            index_t K,
+                                                                    index_t K,
-                                                                            index_t Y,
+                                                                    index_t Y,
-                                                                            index_t X,
+                                                                    index_t X,
-                                                                            index_t ConvStrideH,
+                                                                    index_t ConvStrideH,
-                                                                            index_t ConvStrideW,
+                                                                    index_t ConvStrideW,
-                                                                            index_t ConvDilationH,
+                                                                    index_t ConvDilationH,
-                                                                            index_t ConvDilationW,
+                                                                    index_t ConvDilationW,
-                                                                            index_t InLeftPadH,
+                                                                    index_t InLeftPadH,
-                                                                            index_t InLeftPadW,
+                                                                    index_t InLeftPadW,
-                                                                            index_t InRightPadH,
+                                                                    index_t InRightPadH,
-                                                                            index_t InRightPadW,
+                                                                    index_t InRightPadW,
-                                                                            void* p_desc_tuple)
+                                                                    void* p_desc_tuple)
 {
    constexpr auto I0 = Number<0>{};
    constexpr auto I1 = Number<1>{};
@@ -88,12 +88,9 @@ dynamic_convolution_forward_implicit_gemm_v6r1_dlops_nchw_kcyx_nkhw_prepare(inde
    const index_t Wo =
        (Wi + InLeftPadW + InRightPadW - ConvDilationW * (X - 1) - 1) / ConvStrideW + 1;
-    const auto in_n_c_hi_wi_desc =
+    const auto in_n_c_hi_wi_desc  = make_naive_tensor_descriptor_packed(make_tuple(N, C, Hi, Wi));
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(N, C, Hi, Wi));
+    const auto wei_k_c_y_x_desc   = make_naive_tensor_descriptor_packed(make_tuple(K, C, Y, X));
-    const auto wei_k_c_y_x_desc =
+    const auto out_n_k_ho_wo_desc = make_naive_tensor_descriptor_packed(make_tuple(N, K, Ho, Wo));
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(K, C, Y, X));
-    const auto out_n_k_ho_wo_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(N, K, Ho, Wo));
    const auto descs = transform_forward_convolution_into_contraction_v6r1_nchw_kcyx_nkhw_pad(
        wei_k_c_y_x_desc,
@@ -160,7 +157,7 @@ dynamic_convolution_forward_implicit_gemm_v6r1_dlops_nchw_kcyx_nkhw_prepare(inde
        Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 2, 0, 0, 0, 0, 0>;
    using GridwiseContraction =
-        GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0_GM1_GN0_GN1<
+        GridwiseContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0_GM1_GN0_GN1<
            BlockSize,
            FloatAB,
            FloatAcc,
@@ -220,7 +217,7 @@ extern "C" __global__ void
 #if CK_USE_LAUNCH_BOUNDS
    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
 #endif
-        dynamic_convolution_forward_implicit_gemm_v6r1_dlops_nchw_kcyx_nkhw(
+        convolution_forward_implicit_gemm_v6r1_dlops_nchw_kcyx_nkhw(
            const FloatAB* __restrict__ p_a_grid,
            const FloatAB* __restrict__ p_b_grid,
            FloatC* __restrict__ p_c_grid,
@@ -232,11 +229,11 @@ extern "C" __global__ void
    constexpr auto I3 = Number<3>{};
    constexpr auto in_n_c_hi_wi_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(256, 256, 28, 28));
+        make_naive_tensor_descriptor_packed(make_tuple(256, 256, 28, 28));
    constexpr auto wei_k_c_y_x_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(256, 256, 3, 3));
+        make_naive_tensor_descriptor_packed(make_tuple(256, 256, 3, 3));
    constexpr auto out_n_k_ho_wo_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(make_tuple(256, 256, 28, 28));
+        make_naive_tensor_descriptor_packed(make_tuple(256, 256, 28, 28));
    constexpr auto descs =
        transform_forward_convolution_into_contraction_v6r1_nchw_kcyx_nkhw_pad(wei_k_c_y_x_desc,
@@ -303,7 +300,7 @@ extern "C" __global__ void
        Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 2, 0, 0, 0, 0, 0>;
    using GridwiseContraction =
-        GridwiseDynamicContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0_GM1_GN0_GN1<
+        GridwiseContractionDlops_A_GK0_GM0_GM1_GK1_B_GK0_GN0_GN1_GK1_C_GM0_GM1_GN0_GN1<
            BlockSize,
            FloatAB,
            FloatAcc,

--- a/host/driver_offline/include/device_dynamic_convolution_backward_data_implicit_gemm_v4r1_xdlops_nhwc_kyxc_nhwk.hpp
+++ b/host/driver_offline/include/device_dynamic_convolution_backward_data_implicit_gemm_v4r1_xdlops_nhwc_kyxc_nhwk.hpp
@@ -2,7 +2,7 @@
 #include "device.hpp"
 #include "host_tensor.hpp"
 #include "transform_backward_data_convolution_into_gemm_v4r1_nhwc_kyxc_nhwk.hpp"
-#include "driver_dynamic_gemm_xdlops_v2r3.hpp"
+#include "driver_gemm_xdlops_v2r3.hpp"
 template <typename TInWei,
          typename TAcc,
@@ -14,7 +14,7 @@ template <typename TInWei,
          typename ConvDilations,
          typename InLeftPads,
          typename InRightPads>
-void device_dynamic_convolution_backward_data_implicit_gemm_v4r1_xdlops_nhwc_kyxc_nhwk(
+void device_convolution_backward_data_implicit_gemm_v4r1_xdlops_nhwc_kyxc_nhwk(
    const InLengths& in_n_hi_wi_c_lengths,
    const WeiLengths& wei_k_y_x_c_lengths,
    const OutLengths& out_n_ho_wo_k_lengths,
@@ -44,12 +44,9 @@ void device_dynamic_convolution_backward_data_implicit_gemm_v4r1_xdlops_nhwc_kyx
    wei_k_y_x_c_device_buf.ToDevice(wei_k_y_x_c.mData.data());
    out_n_ho_wo_k_device_buf.ToDevice(out_n_ho_wo_k.mData.data());
-    const auto in_n_hi_wi_c_desc =
+    const auto in_n_hi_wi_c_desc  = make_naive_tensor_descriptor_packed(in_n_hi_wi_c_lengths);
-        make_dynamic_naive_tensor_descriptor_packed_v2(in_n_hi_wi_c_lengths);
+    const auto wei_k_y_x_c_desc   = make_naive_tensor_descriptor_packed(wei_k_y_x_c_lengths);
-    const auto wei_k_y_x_c_desc =
+    const auto out_n_ho_wo_k_desc = make_naive_tensor_descriptor_packed(out_n_ho_wo_k_lengths);
-        make_dynamic_naive_tensor_descriptor_packed_v2(wei_k_y_x_c_lengths);
-    const auto out_n_ho_wo_k_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(out_n_ho_wo_k_lengths);
 #if 1
    // [M, N, K0, K1] = [128, 128, 4, 4] for fp32
@@ -254,7 +251,7 @@ void device_dynamic_convolution_backward_data_implicit_gemm_v4r1_xdlops_nhwc_kyx
    for(index_t i = 0; i < 5; ++i)
    {
-        float ave_time = driver_dynamic_gemm_xdlops_v2r3<
+        float ave_time = driver_gemm_xdlops_v2r3<
            BlockSize,
            TInWei,
            TAcc,

--- a/host/driver_offline/include/device_dynamic_convolution_backward_data_implicit_gemm_v4r1r2_xdlops_nhwc_kyxc_nhwk.hpp
+++ b/host/driver_offline/include/device_dynamic_convolution_backward_data_implicit_gemm_v4r1r2_xdlops_nhwc_kyxc_nhwk.hpp
@@ -2,7 +2,7 @@
 #include "device.hpp"
 #include "host_tensor.hpp"
 #include "transform_backward_data_convolution_into_gemm_v4r1r2_nhwc_kyxc_nhwk.hpp"
-#include "driver_dynamic_gemm_xdlops_v2r3.hpp"
+#include "driver_gemm_xdlops_v2r3.hpp"
 template <typename TInWei,
          typename TAcc,
@@ -14,7 +14,7 @@ template <typename TInWei,
          typename ConvDilations,
          typename InLeftPads,
          typename InRightPads>
-void device_dynamic_convolution_backward_data_implicit_gemm_v4r1r2_xdlops_nhwc_kyxc_nhwk(
+void device_convolution_backward_data_implicit_gemm_v4r1r2_xdlops_nhwc_kyxc_nhwk(
    const InLengths& in_n_hi_wi_c_lengths,
    const WeiLengths& wei_k_y_x_c_lengths,
    const OutLengths& out_n_ho_wo_k_lengths,
@@ -44,12 +44,9 @@ void device_dynamic_convolution_backward_data_implicit_gemm_v4r1r2_xdlops_nhwc_k
    wei_k_y_x_c_device_buf.ToDevice(wei_k_y_x_c.mData.data());
    out_n_ho_wo_k_device_buf.ToDevice(out_n_ho_wo_k.mData.data());
-    const auto in_n_hi_wi_c_desc =
+    const auto in_n_hi_wi_c_desc  = make_naive_tensor_descriptor_packed(in_n_hi_wi_c_lengths);
-        make_dynamic_naive_tensor_descriptor_packed_v2(in_n_hi_wi_c_lengths);
+    const auto wei_k_y_x_c_desc   = make_naive_tensor_descriptor_packed(wei_k_y_x_c_lengths);
-    const auto wei_k_y_x_c_desc =
+    const auto out_n_ho_wo_k_desc = make_naive_tensor_descriptor_packed(out_n_ho_wo_k_lengths);
-        make_dynamic_naive_tensor_descriptor_packed_v2(wei_k_y_x_c_lengths);
-    const auto out_n_ho_wo_k_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(out_n_ho_wo_k_lengths);
 #if 0
    // [M, N, K0, K1] = [256, 128, 4, 4] for fp32
@@ -226,7 +223,7 @@ void device_dynamic_convolution_backward_data_implicit_gemm_v4r1r2_xdlops_nhwc_k
    for(index_t i = 0; i < 5; ++i)
    {
-        float ave_time = driver_dynamic_gemm_xdlops_v2r3<
+        float ave_time = driver_gemm_xdlops_v2r3<
            BlockSize,
            TInWei,
            TAcc,

--- a/host/driver_offline/include/device_dynamic_convolution_forward_implicit_gemm_v4r4_dlops_nchw_kcyx_nkhw.hpp
+++ b/host/driver_offline/include/device_dynamic_convolution_forward_implicit_gemm_v4r4_dlops_nchw_kcyx_nkhw.hpp
@@ -2,7 +2,7 @@
 #include "device.hpp"
 #include "host_tensor.hpp"
 #include "transform_forward_convolution_into_gemm_v4r4_nchw_kcyx_nkhw.hpp"
-#include "driver_dynamic_gemm_dlops_v1r2.hpp"
+#include "driver_gemm_dlops_v1r2.hpp"
 template <typename TInWei,
          typename TAcc,
@@ -14,7 +14,7 @@ template <typename TInWei,
          typename ConvDilations,
          typename InLeftPads,
          typename InRightPads>
-void device_dynamic_convolution_forward_implicit_gemm_v4r4_dlops_nchw_kcyx_nkhw(
+void device_convolution_forward_implicit_gemm_v4r4_dlops_nchw_kcyx_nkhw(
    const InLengths& in_n_c_hi_wi_lengths,
    const WeiLengths& wei_k_c_y_x_lengths,
    const OutLengths& out_n_k_ho_wo_lengths,
@@ -43,12 +43,9 @@ void device_dynamic_convolution_forward_implicit_gemm_v4r4_dlops_nchw_kcyx_nkhw(
    wei_k_c_y_x_device_buf.ToDevice(wei_k_c_y_x.mData.data());
    out_n_k_ho_wo_device_buf.ToDevice(out_n_k_ho_wo.mData.data());
-    const auto in_n_c_hi_wi_desc =
+    const auto in_n_c_hi_wi_desc  = make_naive_tensor_descriptor_packed(in_n_c_hi_wi_lengths);
-        make_dynamic_naive_tensor_descriptor_packed_v2(in_n_c_hi_wi_lengths);
+    const auto wei_k_c_y_x_desc   = make_naive_tensor_descriptor_packed(wei_k_c_y_x_lengths);
-    const auto wei_k_c_y_x_desc =
+    const auto out_n_k_ho_wo_desc = make_naive_tensor_descriptor_packed(out_n_k_ho_wo_lengths);
-        make_dynamic_naive_tensor_descriptor_packed_v2(wei_k_c_y_x_lengths);
-    const auto out_n_k_ho_wo_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(out_n_k_ho_wo_lengths);
 #if 1
    // cdata = 64, BlockSize = 256, 128x128x8
@@ -136,7 +133,7 @@ void device_dynamic_convolution_forward_implicit_gemm_v4r4_dlops_nchw_kcyx_nkhw(
    for(index_t i = 0; i < 5; ++i)
    {
-        float ave_time = driver_dynamic_gemm_dlops_v1r2<
+        float ave_time = driver_gemm_dlops_v1r2<
            BlockSize,
            TInWei,
            TAcc,

--- a/host/driver_offline/include/device_dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw.hpp
+++ b/host/driver_offline/include/device_dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw.hpp
 #include <unistd.h>
 #include "device.hpp"
 #include "host_tensor.hpp"
-#include "driver_dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw.hpp"
+#include "driver_convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw.hpp"
 template <typename TInWei,
          typename TAcc,
@@ -13,7 +13,7 @@ template <typename TInWei,
          typename ConvDilations,
          typename InLeftPads,
          typename InRightPads>
-void device_dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw(
+void device_convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw(
    const InLengths& in_n_c_hi_wi_lengths,
    const WeiLengths& wei_k_c_y_x_lengths,
    const OutLengths& out_n_k_ho_wo_lengths,
@@ -48,12 +48,9 @@ void device_dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw
    wei_k_c_y_x_device_buf.ToDevice(wei_k_c_y_x.mData.data());
    out_n_k_ho_wo_device_buf.ToDevice(out_n_k_ho_wo.mData.data());
-    const auto in_n_c_hi_wi_desc =
+    const auto in_n_c_hi_wi_desc  = make_naive_tensor_descriptor_packed(in_n_c_hi_wi_lengths);
-        make_dynamic_naive_tensor_descriptor_packed_v2(in_n_c_hi_wi_lengths);
+    const auto wei_k_c_y_x_desc   = make_naive_tensor_descriptor_packed(wei_k_c_y_x_lengths);
-    const auto wei_k_c_y_x_desc =
+    const auto out_n_k_ho_wo_desc = make_naive_tensor_descriptor_packed(out_n_k_ho_wo_lengths);
-        make_dynamic_naive_tensor_descriptor_packed_v2(wei_k_c_y_x_lengths);
-    const auto out_n_k_ho_wo_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(out_n_k_ho_wo_lengths);
 #if 0
    constexpr index_t BlockSize = 256;
@@ -212,9 +209,9 @@ void device_dynamic_convolution_forward_implicit_gemm_v4r4_xdlops_nchw_kcyx_nkhw
    for(index_t i = 0; i < 5; ++i)
    {
 #if 0
-        float ave_time = launch_kernel_dynamic_gemm_xdlops_v1
+        float ave_time = launch_kernel_gemm_xdlops_v1
 #else
-        float ave_time = launch_kernel_dynamic_gemm_xdlops_v2
+        float ave_time = launch_kernel_gemm_xdlops_v2
 #endif
        <BlockSize,
         TInWei,

--- a/host/driver_offline/include/device_dynamic_convolution_forward_implicit_gemm_v4r4r2_dlops_nhwc_kyxc_nhwk.hpp
+++ b/host/driver_offline/include/device_dynamic_convolution_forward_implicit_gemm_v4r4r2_dlops_nhwc_kyxc_nhwk.hpp
@@ -2,7 +2,7 @@
 #include "device.hpp"
 #include "host_tensor.hpp"
 #include "transform_forward_convolution_into_gemm_v4r4r4_nhwc_kyxc_nhwk.hpp"
-#include "driver_dynamic_gemm_dlops_v1r3.hpp"
+#include "driver_gemm_dlops_v1r3.hpp"
 template <typename TInWei,
          typename TAcc,
@@ -14,7 +14,7 @@ template <typename TInWei,
          typename ConvDilations,
          typename InLeftPads,
          typename InRightPads>
-void device_dynamic_convolution_forward_implicit_gemm_v4r4r2_dlops_nhwc_kyxc_nhwk(
+void device_convolution_forward_implicit_gemm_v4r4r2_dlops_nhwc_kyxc_nhwk(
    const InLengths& in_n_hi_wi_c_lengths,
    const WeiLengths& wei_k_y_x_c_lengths,
    const OutLengths& out_n_ho_wo_k_lengths,
@@ -44,12 +44,9 @@ void device_dynamic_convolution_forward_implicit_gemm_v4r4r2_dlops_nhwc_kyxc_nhw
    wei_k_y_x_c_device_buf.ToDevice(wei_k_y_x_c.mData.data());
    out_n_ho_wo_k_device_buf.ToDevice(out_n_ho_wo_k.mData.data());
-    const auto in_n_hi_wi_c_desc =
+    const auto in_n_hi_wi_c_desc  = make_naive_tensor_descriptor_packed(in_n_hi_wi_c_lengths);
-        make_dynamic_naive_tensor_descriptor_packed_v2(in_n_hi_wi_c_lengths);
+    const auto wei_k_y_x_c_desc   = make_naive_tensor_descriptor_packed(wei_k_y_x_c_lengths);
-    const auto wei_k_y_x_c_desc =
+    const auto out_n_ho_wo_k_desc = make_naive_tensor_descriptor_packed(out_n_ho_wo_k_lengths);
-        make_dynamic_naive_tensor_descriptor_packed_v2(wei_k_y_x_c_lengths);
-    const auto out_n_ho_wo_k_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(out_n_ho_wo_k_lengths);
 #if 0
    // [M, N, K0, K1] = [128, 128, 8, 1] for fp32
@@ -200,7 +197,7 @@ void device_dynamic_convolution_forward_implicit_gemm_v4r4r2_dlops_nhwc_kyxc_nhw
    for(index_t i = 0; i < 5; ++i)
    {
-        float ave_time = driver_dynamic_gemm_dlops_v1r3<
+        float ave_time = driver_gemm_dlops_v1r3<
            BlockSize,
            TInWei,
            TAcc,

--- a/host/driver_offline/include/device_dynamic_convolution_forward_implicit_gemm_v4r4r2_xdlops_nchw_kcyx_nkhw.hpp
+++ b/host/driver_offline/include/device_dynamic_convolution_forward_implicit_gemm_v4r4r2_xdlops_nchw_kcyx_nkhw.hpp
@@ -2,7 +2,7 @@
 #include "device.hpp"
 #include "host_tensor.hpp"
 #include "transform_forward_convolution_into_gemm_v4r4r2_nchw_kcyx_nkhw.hpp"
-#include "driver_dynamic_gemm_xdlops_v2r3.hpp"
+#include "driver_gemm_xdlops_v2r3.hpp"
 template <typename TInWei,
          typename TAcc,
@@ -14,7 +14,7 @@ template <typename TInWei,
          typename ConvDilations,
          typename InLeftPads,
          typename InRightPads>
-void device_dynamic_convolution_forward_implicit_gemm_v4r4r2_xdlops_nchw_kcyx_nkhw(
+void device_convolution_forward_implicit_gemm_v4r4r2_xdlops_nchw_kcyx_nkhw(
    const InLengths& in_n_c_hi_wi_lengths,
    const WeiLengths& wei_k_c_y_x_lengths,
    const OutLengths& out_n_k_ho_wo_lengths,
@@ -43,12 +43,9 @@ void device_dynamic_convolution_forward_implicit_gemm_v4r4r2_xdlops_nchw_kcyx_nk
    wei_k_c_y_x_device_buf.ToDevice(wei_k_c_y_x.mData.data());
    out_n_k_ho_wo_device_buf.ToDevice(out_n_k_ho_wo.mData.data());
-    const auto in_n_c_hi_wi_desc =
+    const auto in_n_c_hi_wi_desc  = make_naive_tensor_descriptor_packed(in_n_c_hi_wi_lengths);
-        make_dynamic_naive_tensor_descriptor_packed_v2(in_n_c_hi_wi_lengths);
+    const auto wei_k_c_y_x_desc   = make_naive_tensor_descriptor_packed(wei_k_c_y_x_lengths);
-    const auto wei_k_c_y_x_desc =
+    const auto out_n_k_ho_wo_desc = make_naive_tensor_descriptor_packed(out_n_k_ho_wo_lengths);
-        make_dynamic_naive_tensor_descriptor_packed_v2(wei_k_c_y_x_lengths);
-    const auto out_n_k_ho_wo_desc =
-        make_dynamic_naive_tensor_descriptor_packed_v2(out_n_k_ho_wo_lengths);
 #if 1
    // [M, N, K0, K1] = [256, 128, 4, 8] for fp16
@@ -134,7 +131,7 @@ void device_dynamic_convolution_forward_implicit_gemm_v4r4r2_xdlops_nchw_kcyx_nk
    for(index_t i = 0; i < 5; ++i)
    {
-        float ave_time = driver_dynamic_gemm_xdlops_v2r3<
+        float ave_time = driver_gemm_xdlops_v2r3<
            BlockSize,
            TInWei,
            TAcc,