add nhwc

9f92c019 · Jing Zhang · fd368ca6 · 9f92c019 · 9f92c019 · 9f92c019
Commit 9f92c019 authored Sep 13, 2021 by Jing Zhang
6 changed files
--- a/host/driver_offline/include/device_convolution_forward_implicit_gemm_v5r1_dlops_nchw_kcyx_nkhw.hpp
+++ b/host/driver_offline/include/device_convolution_forward_implicit_gemm_v5r1_dlops_nchw_kcyx_nkhw.hpp
@@ -49,7 +49,7 @@ void device_convolution_forward_implicit_gemm_v5r1_dlops_nchw_kcyx_nkhw(
    const auto Y = wei_k_c_y_x_lengths[I2];
    const auto X = wei_k_c_y_x_lengths[I3];

-#if 1
+#if 0
    const auto C0 = C / Number<InWeiVectorSize>{};
    const auto C1 = Number<InWeiVectorSize>{};


--- a/host/driver_offline/include/device_convolution_forward_implicit_gemm_v5r1_dlops_nhwc_kyxc_nhwk.hpp
+++ b/host/driver_offline/include/device_convolution_forward_implicit_gemm_v5r1_dlops_nhwc_kyxc_nhwk.hpp
+#include <unistd.h>
+#include "device.hpp"
+#include "host_tensor.hpp"
+#include "driver_convolution_forward_implicit_gemm_v5r1_dlops_nhwc_kyxc_nhwk.hpp"
+
+template <typename TInWei,
+          typename TAcc,
+          typename TOut,
+          typename InLengths,
+          typename WeiLengths,
+          typename OutLengths,
+          typename ConvStrides,
+          typename ConvDilations,
+          typename InLeftPads,
+          typename InRightPads>
+void device_convolution_forward_implicit_gemm_v5r1_dlops_nhwc_kyxc_nhwk(
+    const InLengths& in_n_hi_wi_c_lengths,
+    const WeiLengths& wei_k_y_x_c_lengths,
+    const OutLengths& out_n_ho_wo_k_lengths,
+    const ConvStrides& conv_strides,
+    const ConvDilations& conv_dilations,
+    const InLeftPads& in_left_pads,
+    const InRightPads& in_right_pads,
+    const Tensor<TInWei>& in_n_hi_wi_c,
+    const Tensor<TInWei>& wei_k_y_x_c,
+    Tensor<TOut>& out_n_ho_wo_k,
+    ck::index_t nrepeat)
+{
+    using namespace ck;
+
+    std::cout << __func__ << std::endl;
+
+    constexpr auto I0 = Number<0>{};
+    constexpr auto I1 = Number<1>{};
+    constexpr auto I2 = Number<2>{};
+    constexpr auto I3 = Number<3>{};
+
+    const auto Hi = in_n_hi_wi_c_lengths[I1];
+    const auto Wi = in_n_hi_wi_c_lengths[I2];
+
+    const auto N  = out_n_ho_wo_k_lengths[I0];
+    const auto Ho = out_n_ho_wo_k_lengths[I1];
+    const auto Wo = out_n_ho_wo_k_lengths[I2];
+    const auto K  = out_n_ho_wo_k_lengths[I3];
+
+    const auto Y = wei_k_y_x_c_lengths[I1];
+    const auto X = wei_k_y_x_c_lengths[I2];
+    const auto C = wei_k_y_x_c_lengths[I3];
+
+    DeviceMem in_n_hi_wi_c_device_buf(sizeof(TInWei) * in_n_hi_wi_c.mDesc.GetElementSpace());
+    DeviceMem wei_k_y_x_c_device_buf(sizeof(TInWei) * wei_k_y_x_c.mDesc.GetElementSpace());
+    DeviceMem out_n_ho_wo_k_device_buf(sizeof(TOut) * out_n_ho_wo_k.mDesc.GetElementSpace());
+
+    in_n_hi_wi_c_device_buf.ToDevice(in_n_hi_wi_c.mData.data());
+    wei_k_y_x_c_device_buf.ToDevice(wei_k_y_x_c.mData.data());
+
+    const auto in_n_hi_wi_c_desc  = make_naive_tensor_descriptor_packed(make_tuple(N, Hi, Wi, C));
+    const auto wei_k_y_x_c_desc   = make_naive_tensor_descriptor_packed(make_tuple(K, Y, X, C));
+    const auto out_n_ho_wo_k_desc = make_naive_tensor_descriptor_packed(make_tuple(N, Ho, Wo, K));
+
+#if 0
+    // cdata = 64, BlockSize = 64, 16x8x32x4
+    constexpr index_t BlockSize = 64;
+
+    constexpr index_t KPerBlock  = 16;
+    constexpr index_t HoPerBlock = 16;
+    constexpr index_t WoPerBlock = 16;
+
+    constexpr index_t E1        = 2;
+    constexpr index_t E2        = 8;
+    constexpr index_t EPerBlock = 2;
+
+    constexpr index_t KPerThread  = KPerBlock;
+    constexpr index_t HoPerThread = 2;
+    constexpr index_t WoPerThread = 2;
+    constexpr index_t EPerThread  = 1;
+
+    using ABlockTransferThreadSliceLengths_E0_E1_K_E2   = Sequence<1, 1, 1, 8>;
+    using ABlockTransferThreadClusterLengths_E0_E1_K_E2 = Sequence<1, EPerBlock, 16, 1>;
+
+    constexpr index_t ABlockTransferSrcScalarPerVector_E2 = E2;
+    constexpr index_t ABlockTransferDstScalarPerVector_E2 = E2;
+
+    constexpr index_t BThreadTransferSrcScalarPerVector_E2 = E2;
+
+    constexpr index_t CThreadTransferDstScalarPerVector_K = 8;
+
+#else
+    // cdata = 64, BlockSize = 64, 16x8x32x4
+    constexpr index_t BlockSize = 64;
+
+    constexpr index_t KPerBlock  = 16;
+    constexpr index_t HoPerBlock = 8;
+    constexpr index_t WoPerBlock = 32;
+
+    constexpr index_t E1        = 2 * 9;
+    constexpr index_t E2        = 8;
+    constexpr index_t EPerBlock = 2;
+
+    constexpr index_t KPerThread  = KPerBlock;
+    constexpr index_t HoPerThread = 2;
+    constexpr index_t WoPerThread = 2;
+    constexpr index_t EPerThread  = 1;
+
+    using ABlockTransferThreadSliceLengths_E0_E1_K_E2   = Sequence<1, 9, 1, 8>;
+    using ABlockTransferThreadClusterLengths_E0_E1_K_E2 = Sequence<1, EPerBlock, 16, 1>;
+
+    constexpr index_t ABlockTransferSrcScalarPerVector_E2 = E2;
+    constexpr index_t ABlockTransferDstScalarPerVector_E2 = E2;
+
+    constexpr index_t BThreadTransferSrcScalarPerVector_E2 = E2;
+
+    constexpr index_t CThreadTransferDstScalarPerVector_K = 8;
+#endif
+
+    constexpr auto conv_driver =
+        DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nhwc_kyxc_nhwk_outpad<
+            BlockSize,
+            TInWei,
+            TAcc,
+            TOut,
+            E1,
+            E2,
+            KPerBlock,
+            HoPerBlock,
+            WoPerBlock,
+            EPerBlock,
+            KPerThread,
+            HoPerThread,
+            WoPerThread,
+            EPerThread,
+            ABlockTransferThreadSliceLengths_E0_E1_K_E2,
+            ABlockTransferThreadClusterLengths_E0_E1_K_E2,
+            ABlockTransferSrcScalarPerVector_E2,
+            ABlockTransferDstScalarPerVector_E2,
+            BThreadTransferSrcScalarPerVector_E2,
+            CThreadTransferDstScalarPerVector_K>{};
+
+    const auto ave_time =
+        conv_driver.Run(wei_k_y_x_c_desc,
+                        in_n_hi_wi_c_desc,
+                        out_n_ho_wo_k_desc,
+                        conv_strides,
+                        conv_dilations,
+                        in_left_pads,
+                        in_right_pads,
+                        static_cast<TInWei*>(wei_k_y_x_c_device_buf.GetDeviceBuffer()),
+                        static_cast<TInWei*>(in_n_hi_wi_c_device_buf.GetDeviceBuffer()),
+                        static_cast<TOut*>(out_n_ho_wo_k_device_buf.GetDeviceBuffer()),
+                        nrepeat);
+
+    {
+        float perf = static_cast<float>(std::size_t(2) * N * K * Ho * Wo * C * Y * X) /
+                     (std::size_t(1000) * 1000 * 1000) / ave_time;
+
+        std::cout << "Average time : " << ave_time << " ms, " << perf << " TFlop/s" << std::endl;
+    }
+
+    out_n_ho_wo_k_device_buf.FromDevice(out_n_ho_wo_k.mData.data());
+}
--- a/host/driver_offline/include/driver_convolution_forward_implicit_gemm_v5r1_dlops_nchw_kcyx_nkhw_outpad.hpp
+++ b/host/driver_offline/include/driver_convolution_forward_implicit_gemm_v5r1_dlops_nchw_kcyx_nkhw_outpad.hpp
@@ -11,20 +11,20 @@ template <ck::index_t BlockSize,
          typename FloatAcc,
          typename FloatC,
          ck::index_t E1,
-          ck::index_t E2,
+          ck::index_t C1PerBlock,
          ck::index_t KPerBlock,
          ck::index_t HoPerBlock,
          ck::index_t WoPerBlock,
-          ck::index_t EPerBlock,
+          ck::index_t E1PerBlock,
          ck::index_t KPerThread,
          ck::index_t HoPerThread,
          ck::index_t WoPerThread,
          ck::index_t EPerThread,
-          typename ABlockTransferThreadSliceLengths_E0_E1_K_E2,
-          typename ABlockTransferThreadClusterLengths_E0_E1_K_E2,
-          ck::index_t ABlockTransferSrcScalarPerVector_E2,
-          ck::index_t ABlockTransferDstScalarPerVector_E2,
-          ck::index_t BThreadTransferSrcScalarPerVector_E2,
+          typename ABlockTransferThreadSliceLengths_E0_E1_K_C1,
+          typename ABlockTransferThreadClusterLengths_E0_E1_K_C1,
+          ck::index_t ABlockTransferSrcScalarPerVector_C1,
+          ck::index_t ABlockTransferDstScalarPerVector_C1,
+          ck::index_t BThreadTransferSrcScalarPerVector_C1,
          ck::index_t CThreadTransferDstScalarPerVector_K>
 struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outpad
 {
@@ -95,25 +95,22 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp

        const auto E = C0 * Y * X;

-        // static_assert(E % E1 == 0, "");
-        static_assert(E2 == C1, "");
-
        const auto E0 = E / E1;

        // weight tensor
-        const auto a_e0_k_e2_grid_desc = transform_tensor_descriptor(
-            make_naive_tensor_descriptor_packed(make_tuple(K, C0 * Y * X, E2)),
+        const auto a_e0_k_c2_grid_desc = transform_tensor_descriptor(
+            make_naive_tensor_descriptor_packed(make_tuple(K, C0 * Y * X, C1)),
            make_tuple(make_pass_through_transform(K),
                       make_pass_through_transform(C0 * Y * X),
-                       make_pass_through_transform(E2)),
+                       make_pass_through_transform(C1)),
            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}),
            make_tuple(Sequence<1>{}, Sequence<0>{}, Sequence<2>{}));

-        const auto a_e0_e1_k_e2_grid_desc =
-            transform_tensor_descriptor(a_e0_k_e2_grid_desc,
+        const auto a_e0_e1_k_c2_grid_desc =
+            transform_tensor_descriptor(a_e0_k_c2_grid_desc,
                                        make_tuple(make_unmerge_transform(make_tuple(E0, E1)),
                                                   make_pass_through_transform(K),
-                                                   make_pass_through_transform(E2)),
+                                                   make_pass_through_transform(C1)),
                                        make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}),
                                        make_tuple(Sequence<0, 1>{}, Sequence<2>{}, Sequence<3>{}));

@@ -124,7 +121,7 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                       make_pass_through_transform(C0),
                       make_pad_transform(Hi, InLeftPadH, InRightPadH),
                       make_pad_transform(Wi, InLeftPadW, InRightPadW),
-                       make_pass_through_transform(E2)),
+                       make_pass_through_transform(C1)),
            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}, Sequence<3>{}, Sequence<4>{}),
            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}, Sequence<3>{}, Sequence<4>{}));

@@ -135,29 +132,29 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                make_pass_through_transform(C0),
                make_embed_transform(make_tuple(Y, Hop), make_tuple(ConvDilationH, ConvStrideH)),
                make_embed_transform(make_tuple(X, Wop), make_tuple(ConvDilationW, ConvStrideW)),
-                make_pass_through_transform(E2)),
+                make_pass_through_transform(C1)),
            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}, Sequence<3>{}, Sequence<4>{}),
            make_tuple(
                Sequence<0>{}, Sequence<1>{}, Sequence<2, 3>{}, Sequence<4, 5>{}, Sequence<6>{}));

-        const auto b_e0_n_ho_wo_e2_grid_desc = transform_tensor_descriptor(
+        const auto b_e0_n_ho_wo_c2_grid_desc = transform_tensor_descriptor(
            in_n_c0_y_ho_x_wo_c1_global_desc,
            make_tuple(make_merge_transform(make_tuple(C0, Y, X)),
                       make_pass_through_transform(N),
                       make_pass_through_transform(Hop),
                       make_pass_through_transform(Wop),
-                       make_pass_through_transform(E2)),
+                       make_pass_through_transform(C1)),
            make_tuple(
                Sequence<1, 2, 4>{}, Sequence<0>{}, Sequence<3>{}, Sequence<5>{}, Sequence<6>{}),
            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}, Sequence<3>{}, Sequence<4>{}));

-        const auto b_e0_e1_n_ho_wo_e2_grid_desc = transform_tensor_descriptor(
-            b_e0_n_ho_wo_e2_grid_desc,
+        const auto b_e0_e1_n_ho_wo_c2_grid_desc = transform_tensor_descriptor(
+            b_e0_n_ho_wo_c2_grid_desc,
            make_tuple(make_unmerge_transform(make_tuple(E0, E1)),
                       make_pass_through_transform(N),
                       make_pass_through_transform(Hop),
                       make_pass_through_transform(Wop),
-                       make_pass_through_transform(E2)),
+                       make_pass_through_transform(C1)),
            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}, Sequence<3>{}, Sequence<4>{}),
            make_tuple(
                Sequence<0, 1>{}, Sequence<2>{}, Sequence<3>{}, Sequence<4>{}, Sequence<5>{}));
@@ -175,7 +172,8 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
        std::cerr << "Hop = " << Hop << " Wop = " << Wop << std::endl;

        if(!((K % KPerBlock) == 0 && (Hop % HoPerBlock) == 0 && (Wop % WoPerBlock) == 0 &&
-             (E1 % EPerBlock) == 0))
+             (E1 % E1PerBlock) == 0) &&
+           (C1 % C1PerBlock))
        {
            throw std::runtime_error("wrong! GEMM size no divisible");
        }
@@ -230,30 +228,30 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
            FloatAcc,
            FloatC,
            InMemoryDataOperationEnum_t::Set,
-            decltype(a_e0_e1_k_e2_grid_desc),
-            decltype(b_e0_e1_n_ho_wo_e2_grid_desc),
+            decltype(a_e0_e1_k_c2_grid_desc),
+            decltype(b_e0_e1_n_ho_wo_c2_grid_desc),
            decltype(c_k_n_hop_wop_grid_desc),
            E1,
-            E2,
+            C1PerBlock,
            KPerBlock,
            HoPerBlock,
            WoPerBlock,
-            EPerBlock,
+            E1PerBlock,
            KPerThread,
            HoPerThread,
            WoPerThread,
            EPerThread,
-            ABlockTransferThreadSliceLengths_E0_E1_K_E2,
-            ABlockTransferThreadClusterLengths_E0_E1_K_E2,
+            ABlockTransferThreadSliceLengths_E0_E1_K_C1,
+            ABlockTransferThreadClusterLengths_E0_E1_K_C1,
            Sequence<2, 0, 1, 3>,
            Sequence<2, 0, 1, 3>,
            3,
-            ABlockTransferSrcScalarPerVector_E2,
-            ABlockTransferDstScalarPerVector_E2,
+            ABlockTransferSrcScalarPerVector_C1,
+            ABlockTransferDstScalarPerVector_C1,
            false, // don't move back src coordinate after threadwise copy
            Sequence<0, 2, 3, 4, 1, 5>,
            5,
-            BThreadTransferSrcScalarPerVector_E2,
+            BThreadTransferSrcScalarPerVector_C1,
            false, // don't move back src coordinate after threadwise copy, which will be fused with
                   // MoveSrcSliceWindow() to save addr computation
            Sequence<2, 3, 1, 0>,
@@ -265,15 +263,15 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
            decltype(a_e0_e1_k_e2_global_move_slice_window_step_hack),
            decltype(b_e0_e1_n_ho_wo_e2_global_move_slice_window_step_hack)>;

-        using AGridDesc_E0_E1_K_E2       = decltype(a_e0_e1_k_e2_grid_desc);
-        using BGridDesc_E0_E1_N_Ho_Wo_E2 = decltype(b_e0_e1_n_ho_wo_e2_grid_desc);
+        using AGridDesc_E0_E1_K_C1       = decltype(a_e0_e1_k_c2_grid_desc);
+        using BGridDesc_E0_E1_N_Ho_Wo_C1 = decltype(b_e0_e1_n_ho_wo_c2_grid_desc);
        using CGridDesc_K_N_Ho_Wo        = decltype(c_k_n_hop_wop_grid_desc);

        const auto grid_size = (K / KPerBlock) * (Hop / HoPerBlock) * (Wop / WoPerBlock) * N;

-        const bool has_main_k_block_loop = (E1 + EPerBlock) / (2 * EPerBlock) > 1;
+        const bool has_main_k_block_loop = (E1 + E1PerBlock) / (2 * E1PerBlock) > 1;

-        const bool has_double_tail_k_block_loop = (E1 / EPerBlock) % 2 == 0;
+        const bool has_double_tail_k_block_loop = (E1 / E1PerBlock) % 2 == 0;

        std::cerr << "has_main_k_block_loop = " << has_main_k_block_loop
                  << " has_double_tail_k_block_loop = " << has_double_tail_k_block_loop
@@ -296,8 +294,8 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                kernel_gemm_dlops_v2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
-                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<AGridDesc_E0_E1_K_C1>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_C1>,
                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
                                     true,
@@ -311,8 +309,8 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                                              p_a_grid,
                                              p_b_grid,
                                              p_c_grid,
-                                              a_e0_e1_k_e2_grid_desc,
-                                              b_e0_e1_n_ho_wo_e2_grid_desc,
+                                              a_e0_e1_k_c2_grid_desc,
+                                              b_e0_e1_n_ho_wo_c2_grid_desc,
                                              c_k_n_hop_wop_grid_desc,
                                              c_blockid_to_k_n_ho_wo_block_cluster_adaptor);
        }
@@ -322,8 +320,8 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                kernel_gemm_dlops_v2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
-                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<AGridDesc_E0_E1_K_C1>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_C1>,
                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
                                     true,
@@ -337,8 +335,8 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                                              p_a_grid,
                                              p_b_grid,
                                              p_c_grid,
-                                              a_e0_e1_k_e2_grid_desc,
-                                              b_e0_e1_n_ho_wo_e2_grid_desc,
+                                              a_e0_e1_k_c2_grid_desc,
+                                              b_e0_e1_n_ho_wo_c2_grid_desc,
                                              c_k_n_hop_wop_grid_desc,
                                              c_blockid_to_k_n_ho_wo_block_cluster_adaptor);
        }
@@ -348,8 +346,8 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                kernel_gemm_dlops_v2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
-                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<AGridDesc_E0_E1_K_C1>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_C1>,
                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
                                     false,
@@ -363,8 +361,8 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                                              p_a_grid,
                                              p_b_grid,
                                              p_c_grid,
-                                              a_e0_e1_k_e2_grid_desc,
-                                              b_e0_e1_n_ho_wo_e2_grid_desc,
+                                              a_e0_e1_k_c2_grid_desc,
+                                              b_e0_e1_n_ho_wo_c2_grid_desc,
                                              c_k_n_hop_wop_grid_desc,
                                              c_blockid_to_k_n_ho_wo_block_cluster_adaptor);
        }
@@ -374,8 +372,8 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                kernel_gemm_dlops_v2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
-                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<AGridDesc_E0_E1_K_C1>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_C1>,
                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
                                     false,
@@ -389,22 +387,22 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                                              p_a_grid,
                                              p_b_grid,
                                              p_c_grid,
-                                              a_e0_e1_k_e2_grid_desc,
-                                              b_e0_e1_n_ho_wo_e2_grid_desc,
+                                              a_e0_e1_k_c2_grid_desc,
+                                              b_e0_e1_n_ho_wo_c2_grid_desc,
                                              c_k_n_hop_wop_grid_desc,
                                              c_blockid_to_k_n_ho_wo_block_cluster_adaptor);
        }

        return ave_time;
 #elif CK_EXPERIMENTAL_PASS_TENSOR_DESCRIPTOR_BY_VOID_POINTER
-        DeviceMem a_e0_e1_k_e2_grid_desc_dev_buf(sizeof(AGridDesc_E0_E1_K_E2));
-        DeviceMem b_e0_e1_n_ho_wo_e2_grid_desc_dev_buf(sizeof(BGridDesc_E0_E1_N_Ho_Wo_E2));
+        DeviceMem a_e0_e1_k_c2_grid_desc_dev_buf(sizeof(AGridDesc_E0_E1_K_C1));
+        DeviceMem b_e0_e1_n_ho_wo_c2_grid_desc_dev_buf(sizeof(BGridDesc_E0_E1_N_Ho_Wo_C1));
        DeviceMem c_k_n_hop_wop_grid_desc_dev_buf(sizeof(CGridDesc_K_N_Ho_Wo));
        DeviceMem c_blockid_to_k_n_ho_wo_block_cluster_adaptor_dev_buf(
            sizeof(CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo));

-        a_e0_e1_k_e2_grid_desc_dev_buf.ToDevice(&a_e0_e1_k_e2_grid_desc);
-        b_e0_e1_n_ho_wo_e2_grid_desc_dev_buf.ToDevice(&b_e0_e1_n_ho_wo_e2_grid_desc);
+        a_e0_e1_k_c2_grid_desc_dev_buf.ToDevice(&a_e0_e1_k_c2_grid_desc);
+        b_e0_e1_n_ho_wo_c2_grid_desc_dev_buf.ToDevice(&b_e0_e1_n_ho_wo_c2_grid_desc);
        c_k_n_hop_wop_grid_desc_dev_buf.ToDevice(&c_k_n_hop_wop_grid_desc);
        c_blockid_to_k_n_ho_wo_block_cluster_adaptor_dev_buf.ToDevice(
            &c_blockid_to_k_n_ho_wo_block_cluster_adaptor);
@@ -417,8 +415,8 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                kernel_gemm_dlops_v2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
-                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<AGridDesc_E0_E1_K_C1>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_C1>,
                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
                                     true,
@@ -434,9 +432,9 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                p_b_grid,
                p_c_grid,
                cast_pointer_to_constant_address_space(
-                    a_e0_e1_k_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                    a_e0_e1_k_c2_grid_desc_dev_buf.GetDeviceBuffer()),
                cast_pointer_to_constant_address_space(
-                    b_e0_e1_n_ho_wo_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                    b_e0_e1_n_ho_wo_c2_grid_desc_dev_buf.GetDeviceBuffer()),
                cast_pointer_to_constant_address_space(
                    c_k_n_hop_wop_grid_desc_dev_buf.GetDeviceBuffer()),
                cast_pointer_to_constant_address_space(
@@ -448,8 +446,8 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                kernel_gemm_dlops_v2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
-                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<AGridDesc_E0_E1_K_C1>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_C1>,
                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
                                     true,
@@ -465,9 +463,9 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                p_b_grid,
                p_c_grid,
                cast_pointer_to_constant_address_space(
-                    a_e0_e1_k_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                    a_e0_e1_k_c2_grid_desc_dev_buf.GetDeviceBuffer()),
                cast_pointer_to_constant_address_space(
-                    b_e0_e1_n_ho_wo_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                    b_e0_e1_n_ho_wo_c2_grid_desc_dev_buf.GetDeviceBuffer()),
                cast_pointer_to_constant_address_space(
                    c_k_n_hop_wop_grid_desc_dev_buf.GetDeviceBuffer()),
                cast_pointer_to_constant_address_space(
@@ -479,8 +477,8 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                kernel_gemm_dlops_v2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
-                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<AGridDesc_E0_E1_K_C1>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_C1>,
                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
                                     false,
@@ -496,9 +494,9 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                p_b_grid,
                p_c_grid,
                cast_pointer_to_constant_address_space(
-                    a_e0_e1_k_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                    a_e0_e1_k_c2_grid_desc_dev_buf.GetDeviceBuffer()),
                cast_pointer_to_constant_address_space(
-                    b_e0_e1_n_ho_wo_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                    b_e0_e1_n_ho_wo_c2_grid_desc_dev_buf.GetDeviceBuffer()),
                cast_pointer_to_constant_address_space(
                    c_k_n_hop_wop_grid_desc_dev_buf.GetDeviceBuffer()),
                cast_pointer_to_constant_address_space(
@@ -510,8 +508,8 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                kernel_gemm_dlops_v2<GridwiseGemm,
                                     FloatAB,
                                     FloatC,
-                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
-                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<AGridDesc_E0_E1_K_C1>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_C1>,
                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
                                     false,
@@ -527,9 +525,9 @@ struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nchw_kcyx_nkhw_outp
                p_b_grid,
                p_c_grid,
                cast_pointer_to_constant_address_space(
-                    a_e0_e1_k_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                    a_e0_e1_k_c2_grid_desc_dev_buf.GetDeviceBuffer()),
                cast_pointer_to_constant_address_space(
-                    b_e0_e1_n_ho_wo_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                    b_e0_e1_n_ho_wo_c2_grid_desc_dev_buf.GetDeviceBuffer()),
                cast_pointer_to_constant_address_space(
                    c_k_n_hop_wop_grid_desc_dev_buf.GetDeviceBuffer()),
                cast_pointer_to_constant_address_space(

--- a/host/driver_offline/include/driver_convolution_forward_implicit_gemm_v5r1_dlops_nhwc_kyxc_nhwk.hpp
+++ b/host/driver_offline/include/driver_convolution_forward_implicit_gemm_v5r1_dlops_nhwc_kyxc_nhwk.hpp
+#ifndef DRIVER_CONVOLUTION_FORWARD_IMPLICIT_GEMM_V5R1_DLOPS_NHWC_KYXC_NHWK_HPP
+#define DRIVER_CONVOLUTION_FORWARD_IMPLICIT_GEMM_V5R1_DLOPS_NHWC_KYXC_NHWK_HPP
+
+#include "common_header.hpp"
+#include "tensor_descriptor.hpp"
+#include "tensor_descriptor_helper.hpp"
+#include "gridwise_gemm_dlops_v2.hpp"
+
+template <ck::index_t BlockSize,
+          typename FloatAB,
+          typename FloatAcc,
+          typename FloatC,
+          ck::index_t E1,
+          ck::index_t E2,
+          ck::index_t KPerBlock,
+          ck::index_t HoPerBlock,
+          ck::index_t WoPerBlock,
+          ck::index_t E1PerBlock,
+          ck::index_t KPerThread,
+          ck::index_t HoPerThread,
+          ck::index_t WoPerThread,
+          ck::index_t EPerThread,
+          typename ABlockTransferThreadSliceLengths_E0_E1_K_E2,
+          typename ABlockTransferThreadClusterLengths_E0_E1_K_E2,
+          ck::index_t ABlockTransferSrcScalarPerVector_E2,
+          ck::index_t ABlockTransferDstScalarPerVector_E2,
+          ck::index_t BThreadTransferSrcScalarPerVector_E2,
+          ck::index_t CThreadTransferDstScalarPerVector_K>
+struct DriverDynamicConvolutionForwardImplicitGemmDlops_v5r1_nhwc_kyxc_nhwk_outpad
+{
+    template <typename... Wei,
+              typename... In,
+              typename... Out,
+              typename ConvStrides,
+              typename ConvDilations,
+              typename InLeftPads,
+              typename InRightPads>
+    __host__ float Run(const ck::TensorDescriptor<Wei...>& wei_k_y_x_c_global_desc,
+                       const ck::TensorDescriptor<In...>& in_n_hi_wi_c_global_desc,
+                       const ck::TensorDescriptor<Out...>& out_n_ho_wo_k_global_desc,
+                       const ConvStrides& conv_strides,
+                       const ConvDilations& conv_dilations,
+                       const InLeftPads& in_left_pads,
+                       const InRightPads& in_right_pads,
+                       const FloatAB* __restrict__ p_a_grid,
+                       const FloatAB* __restrict__ p_b_grid,
+                       FloatC* __restrict__ p_c_grid,
+                       const int nrepeat) const
+    {
+        using namespace ck;
+
+        constexpr auto I0 = Number<0>{};
+        constexpr auto I1 = Number<1>{};
+        constexpr auto I2 = Number<2>{};
+        constexpr auto I3 = Number<3>{};
+        constexpr auto I4 = Number<4>{};
+
+        const auto N  = in_n_hi_wi_c_global_desc.GetLength(I0);
+        const auto Hi = in_n_hi_wi_c_global_desc.GetLength(I1);
+        const auto Wi = in_n_hi_wi_c_global_desc.GetLength(I2);
+        const auto C  = in_n_hi_wi_c_global_desc.GetLength(I3);
+
+        const auto Ho = out_n_ho_wo_k_global_desc.GetLength(I1);
+        const auto Wo = out_n_ho_wo_k_global_desc.GetLength(I2);
+        const auto K  = out_n_ho_wo_k_global_desc.GetLength(I3);
+
+        const auto Y = wei_k_y_x_c_global_desc.GetLength(I1);
+        const auto X = wei_k_y_x_c_global_desc.GetLength(I2);
+
+        const auto ConvStrideH = conv_strides[I0];
+        const auto ConvStrideW = conv_strides[I1];
+
+        const auto ConvDilationH = conv_dilations[I0];
+        const auto ConvDilationW = conv_dilations[I1];
+
+        const auto Hop = (Ho + HoPerBlock - 1) / HoPerBlock * HoPerBlock;
+        const auto Wop = (Wo + WoPerBlock - 1) / WoPerBlock * WoPerBlock;
+
+        const auto OutRightPadH = Hop - Ho;
+        const auto OutRightPadW = Wop - Wo;
+
+        const auto InLeftPadH = in_left_pads[I0];
+        const auto InLeftPadW = in_left_pads[I1];
+
+        const auto InRightPadH = in_right_pads[I0] + OutRightPadH * ConvStrideH;
+        const auto InRightPadW = in_right_pads[I1] + OutRightPadW * ConvStrideW;
+
+        std::cerr << "OutRightPadH = " << OutRightPadH << " OutRightPadW = " << OutRightPadW
+                  << std::endl;
+        std::cerr << "InRightPadH = " << InRightPadH << " InRightPadW = " << InRightPadW
+                  << std::endl;
+
+        const auto C0 = C / E2;
+        const auto E  = Y * X * C0;
+
+        const auto E0 = E / E1;
+
+        // weight tensor
+        const auto a_e_k_e2_grid_desc =
+            transform_tensor_descriptor(make_naive_tensor_descriptor_packed(make_tuple(K, E, E2)),
+                                        make_tuple(make_pass_through_transform(K),
+                                                   make_pass_through_transform(E),
+                                                   make_pass_through_transform(E2)),
+                                        make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}),
+                                        make_tuple(Sequence<1>{}, Sequence<0>{}, Sequence<2>{}));
+
+        const auto a_e0_e1_k_e2_grid_desc =
+            transform_tensor_descriptor(a_e_k_e2_grid_desc,
+                                        make_tuple(make_unmerge_transform(make_tuple(E0, E1)),
+                                                   make_pass_through_transform(K),
+                                                   make_pass_through_transform(E2)),
+                                        make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}),
+                                        make_tuple(Sequence<0, 1>{}, Sequence<2>{}, Sequence<3>{}));
+
+        // input tensor
+        const auto in_n_hip_wip_c_global_desc = transform_tensor_descriptor(
+            in_n_hi_wi_c_global_desc,
+            make_tuple(make_pass_through_transform(N),
+                       make_pad_transform(Hi, InLeftPadH, InRightPadH),
+                       make_pad_transform(Wi, InLeftPadW, InRightPadW),
+                       make_pass_through_transform(C)),
+            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}, Sequence<3>{}),
+            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}, Sequence<3>{}));
+
+        const auto in_n_y_ho_x_wo_c0_e2_global_desc = transform_tensor_descriptor(
+            in_n_hip_wip_c_global_desc,
+            make_tuple(
+                make_pass_through_transform(N),
+                make_embed_transform(make_tuple(Y, Hop), make_tuple(ConvDilationH, ConvStrideH)),
+                make_embed_transform(make_tuple(X, Wop), make_tuple(ConvDilationW, ConvStrideW)),
+                make_unmerge_transform(make_tuple(C0, E2))),
+            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}, Sequence<3>{}),
+            make_tuple(Sequence<0>{}, Sequence<1, 2>{}, Sequence<3, 4>{}, Sequence<5, 6>{}));
+
+        const auto b_e_n_ho_wo_e2_grid_desc = transform_tensor_descriptor(
+            in_n_y_ho_x_wo_c0_e2_global_desc,
+            make_tuple(make_merge_transform(make_tuple(Y, X, C0)),
+                       make_pass_through_transform(N),
+                       make_pass_through_transform(Hop),
+                       make_pass_through_transform(Wop),
+                       make_pass_through_transform(E2)),
+            make_tuple(
+                Sequence<1, 3, 5>{}, Sequence<0>{}, Sequence<2>{}, Sequence<4>{}, Sequence<6>{}),
+            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}, Sequence<3>{}, Sequence<4>{}));
+
+        const auto b_e0_e1_n_ho_wo_e2_grid_desc = transform_tensor_descriptor(
+            b_e_n_ho_wo_e2_grid_desc,
+            make_tuple(make_unmerge_transform(make_tuple(E0, E1)),
+                       make_pass_through_transform(N),
+                       make_pass_through_transform(Hop),
+                       make_pass_through_transform(Wop),
+                       make_pass_through_transform(E2)),
+            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}, Sequence<3>{}, Sequence<4>{}),
+            make_tuple(
+                Sequence<0, 1>{}, Sequence<2>{}, Sequence<3>{}, Sequence<4>{}, Sequence<5>{}));
+
+        // output tensor
+        const auto c_k_n_hop_wop_grid_desc = transform_tensor_descriptor(
+            out_n_ho_wo_k_global_desc,
+            make_tuple(make_pass_through_transform(N),
+                       make_pad_transform(Ho, 0, OutRightPadH),
+                       make_pad_transform(Wo, 0, OutRightPadW),
+                       make_pass_through_transform(K)),
+            make_tuple(Sequence<3>{}, Sequence<0>{}, Sequence<1>{}, Sequence<2>{}),
+            make_tuple(Sequence<0>{}, Sequence<1>{}, Sequence<2>{}, Sequence<3>{}));
+
+        std::cerr << "Hop = " << Hop << " Wop = " << Wop << std::endl;
+
+        if(!((K % KPerBlock) == 0 && (Hop % HoPerBlock) == 0 && (Wop % WoPerBlock) == 0 &&
+             (E1 % E1PerBlock) == 0))
+        {
+            throw std::runtime_error("wrong! GEMM size no divisible");
+        }
+
+        // hack to control index calculation when iterating over a_k_m_global tensor
+        constexpr auto a_e0_e1_k_e2_global_step_hacks =
+            make_tuple(make_tuple(Sequence<0, 0, 0, 0, 0, 0, 0>{},
+                                  Sequence<0, 0, 0, 0, 0, 0, 0>{},
+                                  Sequence<0, 0, 0, 0, 0, 0, 0>{},
+                                  Sequence<0, 0, 0, 0, 0, 0, 0>{}),
+                       make_tuple(Sequence<0, 0, 0, 0, 0, 0, 0>{},
+                                  Sequence<0, 0, 0, 0, 0, 0, 0>{},
+                                  Sequence<0, 0, 0, 0, 0, 0, 0>{},
+                                  Sequence<0, 0, 0, 0, 0, 0, 0>{}));
+
+        constexpr auto a_e0_e1_k_e2_global_move_slice_window_step_hack =
+            Sequence<0, 0, 0, 0, 0, 0, 0>{};
+
+        constexpr auto b_e0_e1_n_ho_wo_e2_global_step_hacks = make_tuple(
+            make_tuple(Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0>{},
+                       Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0>{},
+                       Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0>{},
+                       Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0>{},
+                       Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0>{},
+                       Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0>{}),
+            make_tuple(Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0>{},
+                       Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0>{},
+                       Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0>{},
+                       Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0>{},
+                       Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0>{},
+                       Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0>{}));
+
+        constexpr auto b_e0_e1_n_ho_wo_e2_global_move_slice_window_step_hack =
+            Sequence<0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0>{};
+
+        // hack to control index calculation when iterating over c_m0_m1_n0_n1_global tensor
+        // hack for NKHW format
+        constexpr auto c_k_n_ho_wo_global_tensor_step_hacks =
+            make_tuple(make_tuple(Sequence<0, 0, 0, 0, 0>{},
+                                  Sequence<0, 0, 0, 0, 0>{},
+                                  Sequence<0, 0, 0, 0, 0>{},
+                                  Sequence<0, 0, 0, 0, 0>{}),
+                       make_tuple(Sequence<0, 0, 0, 0, 0>{},
+                                  Sequence<0, 0, 0, 0, 0>{},
+                                  Sequence<0, 0, 0, 0, 0>{},
+                                  Sequence<0, 0, 0, 0, 0>{}));
+
+        // GEMM
+        using GridwiseGemm = GridwiseGemmDlops_km_kn_mn_v3<
+            BlockSize,
+            FloatAB,
+            FloatAcc,
+            FloatC,
+            InMemoryDataOperationEnum_t::Set,
+            decltype(a_e0_e1_k_e2_grid_desc),
+            decltype(b_e0_e1_n_ho_wo_e2_grid_desc),
+            decltype(c_k_n_hop_wop_grid_desc),
+            E1,
+            E2,
+            KPerBlock,
+            HoPerBlock,
+            WoPerBlock,
+            E1PerBlock,
+            KPerThread,
+            HoPerThread,
+            WoPerThread,
+            EPerThread,
+            ABlockTransferThreadSliceLengths_E0_E1_K_E2,
+            ABlockTransferThreadClusterLengths_E0_E1_K_E2,
+            Sequence<2, 0, 1, 3>,
+            Sequence<2, 0, 1, 3>,
+            3,
+            ABlockTransferSrcScalarPerVector_E2,
+            ABlockTransferDstScalarPerVector_E2,
+            false, // don't move back src coordinate after threadwise copy
+            Sequence<0, 2, 3, 4, 1, 5>,
+            5,
+            BThreadTransferSrcScalarPerVector_E2,
+            false, // don't move back src coordinate after threadwise copy, which will be fused with
+                   // MoveSrcSliceWindow() to save addr computation
+            Sequence<2, 3, 1, 0>,
+            0,
+            CThreadTransferDstScalarPerVector_K,
+            decltype(a_e0_e1_k_e2_global_step_hacks),
+            decltype(b_e0_e1_n_ho_wo_e2_global_step_hacks),
+            decltype(c_k_n_ho_wo_global_tensor_step_hacks),
+            decltype(a_e0_e1_k_e2_global_move_slice_window_step_hack),
+            decltype(b_e0_e1_n_ho_wo_e2_global_move_slice_window_step_hack)>;
+
+        using AGridDesc_E0_E1_K_E2       = decltype(a_e0_e1_k_e2_grid_desc);
+        using BGridDesc_E0_E1_N_Ho_Wo_E2 = decltype(b_e0_e1_n_ho_wo_e2_grid_desc);
+        using CGridDesc_K_N_Ho_Wo        = decltype(c_k_n_hop_wop_grid_desc);
+
+        const auto grid_size = (K / KPerBlock) * (Hop / HoPerBlock) * (Wop / WoPerBlock) * N;
+
+        const bool has_main_k_block_loop = (E1 + E1PerBlock) / (2 * E1PerBlock) > 1;
+
+        const bool has_double_tail_k_block_loop = (E1 / E1PerBlock) % 2 == 0;
+
+        std::cerr << "has_main_k_block_loop = " << has_main_k_block_loop
+                  << " has_double_tail_k_block_loop = " << has_double_tail_k_block_loop
+                  << std::endl;
+
+        const auto c_blockid_to_k_n_ho_wo_block_cluster_adaptor =
+            make_single_stage_tensor_adaptor(make_tuple(make_merge_transform(make_tuple(I0, I0))),
+                                             make_tuple(Sequence<0, 1>{}),
+                                             make_tuple(Sequence<0>{}));
+
+        using CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo =
+            decltype(c_blockid_to_k_n_ho_wo_block_cluster_adaptor);
+
+#if CK_EXPERIMENTAL_PASS_TENSOR_DESCRIPTOR_BY_VALUE
+        float ave_time = 0;
+
+        if(has_main_k_block_loop && has_double_tail_k_block_loop)
+        {
+            const auto kernel =
+                kernel_gemm_dlops_v2<GridwiseGemm,
+                                     FloatAB,
+                                     FloatC,
+                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
+                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
+                                     true,
+                                     true>;
+
+            ave_time = launch_and_time_kernel(kernel,
+                                              nrepeat,
+                                              dim3(grid_size),
+                                              dim3(BlockSize),
+                                              0,
+                                              p_a_grid,
+                                              p_b_grid,
+                                              p_c_grid,
+                                              a_e0_e1_k_e2_grid_desc,
+                                              b_e0_e1_n_ho_wo_e2_grid_desc,
+                                              c_k_n_hop_wop_grid_desc,
+                                              c_blockid_to_k_n_ho_wo_block_cluster_adaptor);
+        }
+        else if(has_main_k_block_loop && !has_double_tail_k_block_loop)
+        {
+            const auto kernel =
+                kernel_gemm_dlops_v2<GridwiseGemm,
+                                     FloatAB,
+                                     FloatC,
+                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
+                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
+                                     true,
+                                     false>;
+
+            ave_time = launch_and_time_kernel(kernel,
+                                              nrepeat,
+                                              dim3(grid_size),
+                                              dim3(BlockSize),
+                                              0,
+                                              p_a_grid,
+                                              p_b_grid,
+                                              p_c_grid,
+                                              a_e0_e1_k_e2_grid_desc,
+                                              b_e0_e1_n_ho_wo_e2_grid_desc,
+                                              c_k_n_hop_wop_grid_desc,
+                                              c_blockid_to_k_n_ho_wo_block_cluster_adaptor);
+        }
+        else if(!has_main_k_block_loop && has_double_tail_k_block_loop)
+        {
+            const auto kernel =
+                kernel_gemm_dlops_v2<GridwiseGemm,
+                                     FloatAB,
+                                     FloatC,
+                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
+                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
+                                     false,
+                                     true>;
+
+            ave_time = launch_and_time_kernel(kernel,
+                                              nrepeat,
+                                              dim3(grid_size),
+                                              dim3(BlockSize),
+                                              0,
+                                              p_a_grid,
+                                              p_b_grid,
+                                              p_c_grid,
+                                              a_e0_e1_k_e2_grid_desc,
+                                              b_e0_e1_n_ho_wo_e2_grid_desc,
+                                              c_k_n_hop_wop_grid_desc,
+                                              c_blockid_to_k_n_ho_wo_block_cluster_adaptor);
+        }
+        else
+        {
+            const auto kernel =
+                kernel_gemm_dlops_v2<GridwiseGemm,
+                                     FloatAB,
+                                     FloatC,
+                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
+                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
+                                     false,
+                                     false>;
+
+            ave_time = launch_and_time_kernel(kernel,
+                                              nrepeat,
+                                              dim3(grid_size),
+                                              dim3(BlockSize),
+                                              0,
+                                              p_a_grid,
+                                              p_b_grid,
+                                              p_c_grid,
+                                              a_e0_e1_k_e2_grid_desc,
+                                              b_e0_e1_n_ho_wo_e2_grid_desc,
+                                              c_k_n_hop_wop_grid_desc,
+                                              c_blockid_to_k_n_ho_wo_block_cluster_adaptor);
+        }
+
+        return ave_time;
+#elif CK_EXPERIMENTAL_PASS_TENSOR_DESCRIPTOR_BY_VOID_POINTER
+        DeviceMem a_e0_e1_k_e2_grid_desc_dev_buf(sizeof(AGridDesc_E0_E1_K_E2));
+        DeviceMem b_e0_e1_n_ho_wo_e2_grid_desc_dev_buf(sizeof(BGridDesc_E0_E1_N_Ho_Wo_E2));
+        DeviceMem c_k_n_hop_wop_grid_desc_dev_buf(sizeof(CGridDesc_K_N_Ho_Wo));
+        DeviceMem c_blockid_to_k_n_ho_wo_block_cluster_adaptor_dev_buf(
+            sizeof(CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo));
+
+        a_e0_e1_k_e2_grid_desc_dev_buf.ToDevice(&a_e0_e1_k_e2_grid_desc);
+        b_e0_e1_n_ho_wo_e2_grid_desc_dev_buf.ToDevice(&b_e0_e1_n_ho_wo_e2_grid_desc);
+        c_k_n_hop_wop_grid_desc_dev_buf.ToDevice(&c_k_n_hop_wop_grid_desc);
+        c_blockid_to_k_n_ho_wo_block_cluster_adaptor_dev_buf.ToDevice(
+            &c_blockid_to_k_n_ho_wo_block_cluster_adaptor);
+
+        float ave_time = 0;
+
+        if(has_main_k_block_loop && has_double_tail_k_block_loop)
+        {
+            const auto kernel =
+                kernel_gemm_dlops_v2<GridwiseGemm,
+                                     FloatAB,
+                                     FloatC,
+                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
+                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
+                                     true,
+                                     true>;
+
+            ave_time = launch_and_time_kernel(
+                kernel,
+                nrepeat,
+                dim3(grid_size),
+                dim3(BlockSize),
+                0,
+                p_a_grid,
+                p_b_grid,
+                p_c_grid,
+                cast_pointer_to_constant_address_space(
+                    a_e0_e1_k_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                cast_pointer_to_constant_address_space(
+                    b_e0_e1_n_ho_wo_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                cast_pointer_to_constant_address_space(
+                    c_k_n_hop_wop_grid_desc_dev_buf.GetDeviceBuffer()),
+                cast_pointer_to_constant_address_space(
+                    c_blockid_to_k_n_ho_wo_block_cluster_adaptor_dev_buf.GetDeviceBuffer()));
+        }
+        else if(has_main_k_block_loop && !has_double_tail_k_block_loop)
+        {
+            const auto kernel =
+                kernel_gemm_dlops_v2<GridwiseGemm,
+                                     FloatAB,
+                                     FloatC,
+                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
+                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
+                                     true,
+                                     false>;
+
+            ave_time = launch_and_time_kernel(
+                kernel,
+                nrepeat,
+                dim3(grid_size),
+                dim3(BlockSize),
+                0,
+                p_a_grid,
+                p_b_grid,
+                p_c_grid,
+                cast_pointer_to_constant_address_space(
+                    a_e0_e1_k_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                cast_pointer_to_constant_address_space(
+                    b_e0_e1_n_ho_wo_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                cast_pointer_to_constant_address_space(
+                    c_k_n_hop_wop_grid_desc_dev_buf.GetDeviceBuffer()),
+                cast_pointer_to_constant_address_space(
+                    c_blockid_to_k_n_ho_wo_block_cluster_adaptor_dev_buf.GetDeviceBuffer()));
+        }
+        else if(!has_main_k_block_loop && has_double_tail_k_block_loop)
+        {
+            const auto kernel =
+                kernel_gemm_dlops_v2<GridwiseGemm,
+                                     FloatAB,
+                                     FloatC,
+                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
+                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
+                                     false,
+                                     true>;
+
+            ave_time = launch_and_time_kernel(
+                kernel,
+                nrepeat,
+                dim3(grid_size),
+                dim3(BlockSize),
+                0,
+                p_a_grid,
+                p_b_grid,
+                p_c_grid,
+                cast_pointer_to_constant_address_space(
+                    a_e0_e1_k_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                cast_pointer_to_constant_address_space(
+                    b_e0_e1_n_ho_wo_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                cast_pointer_to_constant_address_space(
+                    c_k_n_hop_wop_grid_desc_dev_buf.GetDeviceBuffer()),
+                cast_pointer_to_constant_address_space(
+                    c_blockid_to_k_n_ho_wo_block_cluster_adaptor_dev_buf.GetDeviceBuffer()));
+        }
+        else
+        {
+            const auto kernel =
+                kernel_gemm_dlops_v2<GridwiseGemm,
+                                     FloatAB,
+                                     FloatC,
+                                     remove_reference_t<AGridDesc_E0_E1_K_E2>,
+                                     remove_reference_t<BGridDesc_E0_E1_N_Ho_Wo_E2>,
+                                     remove_reference_t<CGridDesc_K_N_Ho_Wo>,
+                                     remove_reference_t<CBlockIdToBlockClusterAdaptor_K_N_Ho_Wo>,
+                                     false,
+                                     false>;
+
+            ave_time = launch_and_time_kernel(
+                kernel,
+                nrepeat,
+                dim3(grid_size),
+                dim3(BlockSize),
+                0,
+                p_a_grid,
+                p_b_grid,
+                p_c_grid,
+                cast_pointer_to_constant_address_space(
+                    a_e0_e1_k_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                cast_pointer_to_constant_address_space(
+                    b_e0_e1_n_ho_wo_e2_grid_desc_dev_buf.GetDeviceBuffer()),
+                cast_pointer_to_constant_address_space(
+                    c_k_n_hop_wop_grid_desc_dev_buf.GetDeviceBuffer()),
+                cast_pointer_to_constant_address_space(
+                    c_blockid_to_k_n_ho_wo_block_cluster_adaptor_dev_buf.GetDeviceBuffer()));
+        }
+
+        return ave_time;
+#endif
+    }
+};
+#endif
--- a/host/driver_offline/src/conv_fwd_driver_offline.cpp
+++ b/host/driver_offline/src/conv_fwd_driver_offline.cpp
@@ -16,6 +16,7 @@
 #include "device_convolution_forward_implicit_gemm_v4r4r2_dlops_nhwc_kyxc_nhwk.hpp"
 #include "device_convolution_forward_implicit_gemm_v6r1_dlops_nchw_kcyx_nkhw.hpp"
 #include "device_convolution_forward_implicit_gemm_v5r1_dlops_nchw_kcyx_nkhw.hpp"
+#include "device_convolution_forward_implicit_gemm_v5r1_dlops_nhwc_kyxc_nhwk.hpp"
 #include "device_convolution_forward_implicit_gemm_v4r4r2_xdlops_nchw_kcyx_nkhw.hpp"
 #include "device_convolution_forward_implicit_gemm_v4r4r4_xdlops_nhwc_kyxc_nhwk.hpp"

@@ -23,7 +24,7 @@
 #define USE_CONV_FWD_V4R4_NCHW 0
 #define USE_CONV_FWD_V4R4R2_NHWC 0
 #define USE_CONV_FWD_V6R1_NCHW 0
-#define USE_CONV_FWD_V5R1_NCHW 1
+#define USE_CONV_FWD_V5R1_NHWC 1
 #define USE_CONV_FWD_V4R4R2_XDL_NCHW 0
 #define USE_CONV_FWD_V4R4R4_XDL_NHWC 0

@@ -32,7 +33,7 @@ enum ConvForwardAlgo
    V4R4NCHW,      // 0
    V4R4R2NHWC,    // 1
    V6R1NCHW,      // 2
-    V5R1NCHW,      // 3
+    V5R1NHWC,      // 3
    V4R4R2XDLNCHW, // 4
    V4R4R4XDLNHWC  // 5
 };
@@ -341,18 +342,17 @@ int main(int argc, char* argv[])
    }
 #endif

-#if USE_CONV_FWD_V5R1_NCHW
-    if(algo == ConvForwardAlgo::V5R1NCHW)
+#if USE_CONV_FWD_V5R1_NHWC
+    if(algo == ConvForwardAlgo::V5R1NHWC)
    {
-        if(layout != ConvTensorLayout::NCHW)
+        if(layout != ConvTensorLayout::NHWC)
        {
            throw std::runtime_error("wrong! layout");
        }

-        const auto tmp = f_make_for_device_nchw();
+        const auto tmp = f_make_for_device_nhwc();

-        device_convolution_forward_implicit_gemm_v5r1_dlops_nchw_kcyx_nkhw<in_data_t,
-                                                                           8,
+        device_convolution_forward_implicit_gemm_v5r1_dlops_nhwc_kyxc_nhwk<in_data_t,
                                                                           acc_data_t,
                                                                           out_data_t>(tmp[I0],
                                                                                       tmp[I1],

--- a/script/run.sh
+++ b/script/run.sh
@@ -52,7 +52,7 @@ REPEAT=$6
 #./host/driver_online/conv_fwd_driver_online    $LAYOUT $ALGO $VERIFY $INIT $LOG $REPEAT  128  128  192 3 3  71   71     2 2       1 1      1 1       1 1

 ./host/driver_offline/conv_fwd_driver_offline  $LAYOUT $ALGO $VERIFY $INIT $LOG $REPEAT  1  16  16 3 3  1080   1920     1 1       1 1      1 1       1 1
-#./host/driver_offline/conv_fwd_driver_offline  $LAYOUT $ALGO $VERIFY $INIT $LOG $REPEAT  1  16  16 1 1  8   8     1 1       1 1      1 1       1 1
+#./host/driver_offline/conv_fwd_driver_offline  $LAYOUT $ALGO $VERIFY $INIT $LOG $REPEAT  1  16  16 1 1  16   16     1 1       1 1      0 0       0 0

 ################################################ layout  algo  verify  init  log  repeat  M___ N___ K___
 #./host/driver_offline/gemm_driver_offline      $LAYOUT $ALGO $VERIFY $INIT $LOG $REPEAT   960 1024 1024