Replace multiD with multiABD

7a4f83e0 · Bartlomiej Kocot · 95479e67 · 7a4f83e0 · 7a4f83e0 · 7a4f83e0
Commit 7a4f83e0 authored Nov 08, 2023 by Bartlomiej Kocot
20 changed files
--- a/example/40_conv2d_fwd_quantization/conv2d_fwd_xdl_bias_relu_perchannel_quantization_int8.cpp
+++ b/example/40_conv2d_fwd_quantization/conv2d_fwd_xdl_bias_relu_perchannel_quantization_int8.cpp
@@ -2,7 +2,7 @@
 // Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
 #include "common.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_d_xdl_cshuffle.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_abd_xdl_cshuffle.hpp"
 using InDataType           = int8_t;
 using WeiDataType          = int8_t;
@@ -33,7 +33,7 @@ template <ck::index_t NDimSpatial,
          typename RequantScaleLayout,
          typename OutLayout>
 using DeviceGroupedConvNDFwdInstance =
-    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD_Xdl_CShuffle<
+    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<
        NDimSpatial,
        InLayout,
        WeiLayout,

--- a/example/40_conv2d_fwd_quantization/conv2d_fwd_xdl_bias_relu_perlayer_quantization_int8.cpp
+++ b/example/40_conv2d_fwd_quantization/conv2d_fwd_xdl_bias_relu_perlayer_quantization_int8.cpp
@@ -2,7 +2,7 @@
 // Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
 #include "common.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_d_xdl_cshuffle.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_abd_xdl_cshuffle.hpp"
 using InDataType       = int8_t;
 using WeiDataType      = int8_t;
@@ -31,7 +31,7 @@ template <ck::index_t NDimSpatial,
          typename BiasLayout,
          typename OutLayout>
 using DeviceGroupedConvNDFwdInstance =
-    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD_Xdl_CShuffle<
+    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<
        NDimSpatial,
        InLayout,
        WeiLayout,

--- a/example/40_conv2d_fwd_quantization/conv2d_fwd_xdl_perchannel_quantization_int8.cpp
+++ b/example/40_conv2d_fwd_quantization/conv2d_fwd_xdl_perchannel_quantization_int8.cpp
@@ -2,7 +2,7 @@
 // Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
 #include "common.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_d_xdl_cshuffle.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_abd_xdl_cshuffle.hpp"
 using InDataType           = int8_t;
 using WeiDataType          = int8_t;
@@ -31,7 +31,7 @@ template <ck::index_t NDimSpatial,
          typename RequantScaleLayout,
          typename OutLayout>
 using DeviceGroupedConvNDFwdInstance =
-    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD_Xdl_CShuffle<
+    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<
        NDimSpatial,
        InLayout,
        WeiLayout,

--- a/example/40_conv2d_fwd_quantization/conv2d_fwd_xdl_perlayer_quantization_int8.cpp
+++ b/example/40_conv2d_fwd_quantization/conv2d_fwd_xdl_perlayer_quantization_int8.cpp
@@ -2,7 +2,7 @@
 // Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
 #include "common.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_d_xdl_cshuffle.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_abd_xdl_cshuffle.hpp"
 using InDataType       = int8_t;
 using WeiDataType      = int8_t;
@@ -26,7 +26,7 @@ static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecializatio
 template <ck::index_t NDimSpatial, typename InLayout, typename WeiLayout, typename OutLayout>
 using DeviceGroupedConvNDFwdInstance =
-    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD_Xdl_CShuffle<
+    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<
        NDimSpatial,
        InLayout,
        WeiLayout,

--- a/example/62_conv_fwd_activ/convnd_fwd_activ_common.hpp
+++ b/example/62_conv_fwd_activ/convnd_fwd_activ_common.hpp
@@ -11,7 +11,7 @@
 #include "ck/ck.hpp"
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_d_xdl_cshuffle.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_abd_xdl_cshuffle.hpp"
 #include "ck/library/utility/algorithm.hpp"
 #include "ck/library/utility/check_err.hpp"
@@ -47,7 +47,7 @@ static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecializatio
 template <typename OutElementOp>
 using DeviceGroupedConvNDFwdInstance =
-    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD_Xdl_CShuffle<
+    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<
        NDimSpatial,
        InLayout,
        WeiLayout,

--- a/example/62_conv_fwd_activ/convnd_fwd_xdl_scaleadd_scaleadd_relu_fp16.cpp
+++ b/example/62_conv_fwd_activ/convnd_fwd_xdl_scaleadd_scaleadd_relu_fp16.cpp
@@ -9,7 +9,7 @@
 #include "ck/ck.hpp"
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_d_xdl_cshuffle.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_abd_xdl_cshuffle.hpp"
 #include "ck/library/utility/algorithm.hpp"
 #include "ck/library/utility/check_err.hpp"
@@ -47,7 +47,7 @@ static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecializatio
 template <typename OutElementOp>
 using DeviceGroupedConvNDFwdInstance =
-    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD_Xdl_CShuffle<
+    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<
        NDimSpatial,
        InLayout,
        WeiLayout,

--- a/example/62_conv_fwd_activ/multi_AB/convnd_fwd_activ_multi_ab_common.hpp
+++ b/example/62_conv_fwd_activ/multi_AB/convnd_fwd_activ_multi_ab_common.hpp
@@ -9,7 +9,7 @@
 #include "ck/ck.hpp"
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_d_xdl_cshuffle.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_abd_xdl_cshuffle.hpp"
 #include "ck/library/utility/algorithm.hpp"
 #include "ck/library/utility/check_err.hpp"
@@ -44,7 +44,7 @@ template <typename DataType,
          typename InElementOp,
          typename WeiElementOp>
 using DeviceGroupedConvNDMultiABFwdInstance =
-    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD_Xdl_CShuffle<
+    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle<
        NDimSpatial,
        InLayout,
        WeiLayout,

--- a/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_dl_multiple_d_nhwc_kyxc_nhwk.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_dl_multiple_d_nhwc_kyxc_nhwk.hpp
@@ -15,7 +15,7 @@
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
 #include "ck/tensor_operation/gpu/device/convolution_forward_specialization.hpp"
 #include "ck/tensor_operation/operator_transform/transform_conv_fwd_to_gemm.hpp"
-#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_d.hpp"
+#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_abd.hpp"
 #include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
 #include "ck/tensor_operation/gpu/device/matrix_padder.hpp"
 #include "ck/tensor_operation/gpu/grid/gridwise_gemm_dl_multiple_d.hpp"
@@ -216,18 +216,18 @@ template <index_t NDimSpatial,
          index_t CThreadTransferSrcDstVectorDim,
          index_t CThreadTransferDstScalarPerVector>
 struct DeviceGroupedConvFwdDlMultipleD_NHWC_KYXC_NHWK
-    : public DeviceGroupedConvFwdMultipleD<NDimSpatial,
+    : public DeviceGroupedConvFwdMultipleABD<NDimSpatial,
-                                           ALayout,
+                                             ALayout,
-                                           BLayout,
+                                             BLayout,
-                                           DsLayout,
+                                             DsLayout,
-                                           ELayout,
+                                             ELayout,
-                                           ADataType,
+                                             ADataType,
-                                           BDataType,
+                                             BDataType,
-                                           DsDataType,
+                                             DsDataType,
-                                           EDataType,
+                                             EDataType,
-                                           AElementwiseOperation,
+                                             AElementwiseOperation,
-                                           BElementwiseOperation,
+                                             BElementwiseOperation,
-                                           CDEElementwiseOperation>
+                                             CDEElementwiseOperation>
 {
    using DeviceOp = DeviceGroupedConvFwdDlMultipleD_NHWC_KYXC_NHWK;

--- a/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_d_multiple_r_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_d_multiple_r_xdl_cshuffle.hpp
@@ -1090,7 +1090,7 @@ struct DeviceGroupedConvFwdMultipleDMultipleR_Xdl_CShuffle
        auto str = std::stringstream();
        // clang-format off
-        str << "DeviceGroupedConvFwdMultipleD_Xdl_CShuffle"
+        str << "DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle"
            << "<"
            << BlockSize << ", "
            << MPerBlock << ", "

--- a/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_d_wmma_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_d_wmma_cshuffle.hpp
@@ -15,7 +15,7 @@
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
 #include "ck/tensor_operation/gpu/device/convolution_forward_specialization.hpp"
 #include "ck/tensor_operation/operator_transform/transform_conv_fwd_to_gemm.hpp"
-#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_d.hpp"
+#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_abd.hpp"
 #include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
 #include "ck/tensor_operation/gpu/device/matrix_padder.hpp"
 #include "ck/tensor_operation/gpu/grid/gridwise_gemm_multiple_d_wmma_cshuffle.hpp"
@@ -92,18 +92,18 @@ template <index_t NDimSpatial,
          LoopScheduler LoopSched         = make_default_loop_scheduler(),
          ck::PipelineVersion PipelineVer = ck::PipelineVersion::v1>
 struct DeviceGroupedConvFwdMultipleD_Wmma_CShuffle
-    : public DeviceGroupedConvFwdMultipleD<NDimSpatial,
+    : public DeviceGroupedConvFwdMultipleABD<NDimSpatial,
-                                           ALayout,
+                                             ALayout,
-                                           BLayout,
+                                             BLayout,
-                                           DsLayout,
+                                             DsLayout,
-                                           ELayout,
+                                             ELayout,
-                                           ADataType,
+                                             ADataType,
-                                           BDataType,
+                                             BDataType,
-                                           DsDataType,
+                                             DsDataType,
-                                           EDataType,
+                                             EDataType,
-                                           AElementwiseOperation,
+                                             AElementwiseOperation,
-                                           BElementwiseOperation,
+                                             BElementwiseOperation,
-                                           CDEElementwiseOperation>
+                                             CDEElementwiseOperation>
 {
    using DeviceOp = DeviceGroupedConvFwdMultipleD_Wmma_CShuffle;

--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_fwd/device_grouped_conv_fwd_xdl_instance.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_fwd/device_grouped_conv_fwd_xdl_instance.hpp
--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_fwd/device_grouped_conv_fwd_xdl_scaleadd_ab_instance.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_fwd/device_grouped_conv_fwd_xdl_scaleadd_ab_instance.hpp
--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_fwd/device_grouped_conv_fwd_xdl_scaleadd_scaleadd_relu_instance.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_conv_fwd/device_grouped_conv_fwd_xdl_scaleadd_scaleadd_relu_instance.hpp
--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_convolution_forward.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_convolution_forward.hpp
--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_convolution_forward_scaleadd_ab.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_convolution_forward_scaleadd_ab.hpp
@@ -7,7 +7,7 @@
 #include <memory>
 #include "ck/ck.hpp"
-#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_d.hpp"
+#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_abd.hpp"
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
@@ -24,66 +24,66 @@ using ScaleAdd    = ck::tensor_operation::element_wise::ScaleAdd;
 #ifdef CK_ENABLE_BF16
 // grouped conv3d forward multi AB scaleadd, NDHWGC/GKZYXC/NDHWGK
 void add_device_grouped_conv3d_fwd_xdl_scaleadd_ab_ndhwgc_gkzyxc_ndhwgk_bf16_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              ck::Tuple<>,
+                                                                ck::Tuple<>,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              ck::Tuple<BF16, BF16>,
+                                                                ck::Tuple<BF16, BF16>,
-                                                              ck::Tuple<BF16, BF16>,
+                                                                ck::Tuple<BF16, BF16>,
-                                                              ck::Tuple<>,
+                                                                ck::Tuple<>,
-                                                              BF16,
+                                                                BF16,
-                                                              ScaleAdd,
+                                                                ScaleAdd,
-                                                              ScaleAdd,
+                                                                ScaleAdd,
-                                                              PassThrough>>>& instances);
+                                                                PassThrough>>>& instances);
 #endif
 #ifdef CK_ENABLE_FP16
 void add_device_grouped_conv3d_fwd_xdl_scaleadd_ab_ndhwgc_gkzyxc_ndhwgk_f16_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              ck::Tuple<>,
+                                                                ck::Tuple<>,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              ck::Tuple<F16, F16>,
+                                                                ck::Tuple<F16, F16>,
-                                                              ck::Tuple<F16, F16>,
+                                                                ck::Tuple<F16, F16>,
-                                                              ck::Tuple<>,
+                                                                ck::Tuple<>,
-                                                              F16,
+                                                                F16,
-                                                              ScaleAdd,
+                                                                ScaleAdd,
-                                                              ScaleAdd,
+                                                                ScaleAdd,
-                                                              PassThrough>>>& instances);
+                                                                PassThrough>>>& instances);
 #endif
 #ifdef CK_ENABLE_FP32
 void add_device_grouped_conv3d_fwd_xdl_scaleadd_ab_ndhwgc_gkzyxc_ndhwgk_f32_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              ck::Tuple<>,
+                                                                ck::Tuple<>,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              ck::Tuple<F32, F32>,
+                                                                ck::Tuple<F32, F32>,
-                                                              ck::Tuple<F32, F32>,
+                                                                ck::Tuple<F32, F32>,
-                                                              ck::Tuple<>,
+                                                                ck::Tuple<>,
-                                                              F32,
+                                                                F32,
-                                                              ScaleAdd,
+                                                                ScaleAdd,
-                                                              ScaleAdd,
+                                                                ScaleAdd,
-                                                              PassThrough>>>& instances);
+                                                                PassThrough>>>& instances);
 #endif
 #ifdef CK_ENABLE_INT8
 void add_device_grouped_conv3d_fwd_xdl_scaleadd_ab_ndhwgc_gkzyxc_ndhwgk_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              ck::Tuple<>,
+                                                                ck::Tuple<>,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              ck::Tuple<int8_t, int8_t>,
+                                                                ck::Tuple<int8_t, int8_t>,
-                                                              ck::Tuple<int8_t, int8_t>,
+                                                                ck::Tuple<int8_t, int8_t>,
-                                                              ck::Tuple<>,
+                                                                ck::Tuple<>,
-                                                              int8_t,
+                                                                int8_t,
-                                                              ScaleAdd,
+                                                                ScaleAdd,
-                                                              ScaleAdd,
+                                                                ScaleAdd,
-                                                              PassThrough>>>& instances);
+                                                                PassThrough>>>& instances);
 #endif
 template <ck::index_t NumDimSpatial,
@@ -96,7 +96,7 @@ template <ck::index_t NumDimSpatial,
          typename DDataTypes,
          typename OutDataType,
          typename ComputeType>
-struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD<
+struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD<
    NumDimSpatial,
    InLayout,
    WeiLayout,
@@ -111,19 +111,20 @@ struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupe
    ck::tensor_operation::element_wise::PassThrough,
    ComputeType>>
 {
-    using DeviceOp = DeviceGroupedConvFwdMultipleD<NumDimSpatial,
+    using DeviceOp =
-                                                   InLayout,
+        DeviceGroupedConvFwdMultipleABD<NumDimSpatial,
-                                                   WeiLayout,
+                                        InLayout,
-                                                   DLayouts,
+                                        WeiLayout,
-                                                   OutLayout,
+                                        DLayouts,
-                                                   InDataType,
+                                        OutLayout,
-                                                   WeiDataType,
+                                        InDataType,
-                                                   DDataTypes,
+                                        WeiDataType,
-                                                   OutDataType,
+                                        DDataTypes,
-                                                   ck::tensor_operation::element_wise::ScaleAdd,
+                                        OutDataType,
-                                                   ck::tensor_operation::element_wise::ScaleAdd,
+                                        ck::tensor_operation::element_wise::ScaleAdd,
-                                                   ck::tensor_operation::element_wise::PassThrough,
+                                        ck::tensor_operation::element_wise::ScaleAdd,
-                                                   ComputeType>;
+                                        ck::tensor_operation::element_wise::PassThrough,
+                                        ComputeType>;
    static auto GetInstances()
    {

--- a/library/include/ck/library/tensor_operation_instance/gpu/grouped_convolution_forward_scaleadd_scaleadd_relu.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/grouped_convolution_forward_scaleadd_scaleadd_relu.hpp
@@ -7,7 +7,7 @@
 #include <memory>
 #include "ck/ck.hpp"
-#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_d.hpp"
+#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_abd.hpp"
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
@@ -24,66 +24,66 @@ using ScaleAddScaleAddRelu = ck::tensor_operation::element_wise::ScaleAddScaleAd
 #ifdef CK_ENABLE_BF16
 // grouped conv3d forward, NDHWGC/GKZYXC/NDHWGK
 void add_device_grouped_conv3d_fwd_xdl_scaleadd_scaleadd_relu_ndhwgc_gkzyxc_ndhwgk_bf16_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              ck::Tuple<NDHWGK, NDHWGK>,
+                                                                ck::Tuple<NDHWGK, NDHWGK>,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              BF16,
+                                                                BF16,
-                                                              BF16,
+                                                                BF16,
-                                                              ck::Tuple<BF16, BF16>,
+                                                                ck::Tuple<BF16, BF16>,
-                                                              BF16,
+                                                                BF16,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              ScaleAddScaleAddRelu>>>& instances);
+                                                                ScaleAddScaleAddRelu>>>& instances);
 #endif
 #ifdef CK_ENABLE_FP16
 void add_device_grouped_conv3d_fwd_xdl_scaleadd_scaleadd_relu_ndhwgc_gkzyxc_ndhwgk_f16_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              ck::Tuple<NDHWGK, NDHWGK>,
+                                                                ck::Tuple<NDHWGK, NDHWGK>,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              F16,
+                                                                F16,
-                                                              F16,
+                                                                F16,
-                                                              ck::Tuple<F16, F16>,
+                                                                ck::Tuple<F16, F16>,
-                                                              F16,
+                                                                F16,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              ScaleAddScaleAddRelu>>>& instances);
+                                                                ScaleAddScaleAddRelu>>>& instances);
 #endif
 #ifdef CK_ENABLE_FP32
 void add_device_grouped_conv3d_fwd_xdl_scaleadd_scaleadd_relu_ndhwgc_gkzyxc_ndhwgk_f32_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              ck::Tuple<NDHWGK, NDHWGK>,
+                                                                ck::Tuple<NDHWGK, NDHWGK>,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              F32,
+                                                                F32,
-                                                              F32,
+                                                                F32,
-                                                              ck::Tuple<F32, F32>,
+                                                                ck::Tuple<F32, F32>,
-                                                              F32,
+                                                                F32,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              ScaleAddScaleAddRelu>>>& instances);
+                                                                ScaleAddScaleAddRelu>>>& instances);
 #endif
 #ifdef CK_ENABLE_INT8
 void add_device_grouped_conv3d_fwd_xdl_scaleadd_scaleadd_relu_ndhwgc_gkzyxc_ndhwgk_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              ck::Tuple<NDHWGK, NDHWGK>,
+                                                                ck::Tuple<NDHWGK, NDHWGK>,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              ck::Tuple<F32, F32>,
+                                                                ck::Tuple<F32, F32>,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              ScaleAddScaleAddRelu>>>& instances);
+                                                                ScaleAddScaleAddRelu>>>& instances);
 #endif
 template <ck::index_t NumDimSpatial,
@@ -96,7 +96,7 @@ template <ck::index_t NumDimSpatial,
          typename DDataTypes,
          typename OutDataType,
          typename ComputeType>
-struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD<
+struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD<
    NumDimSpatial,
    InLayout,
    WeiLayout,
@@ -112,19 +112,19 @@ struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupe
    ComputeType>>
 {
    using DeviceOp =
-        DeviceGroupedConvFwdMultipleD<NumDimSpatial,
+        DeviceGroupedConvFwdMultipleABD<NumDimSpatial,
-                                      InLayout,
+                                        InLayout,
-                                      WeiLayout,
+                                        WeiLayout,
-                                      DLayouts,
+                                        DLayouts,
-                                      OutLayout,
+                                        OutLayout,
-                                      InDataType,
+                                        InDataType,
-                                      WeiDataType,
+                                        WeiDataType,
-                                      DDataTypes,
+                                        DDataTypes,
-                                      OutDataType,
+                                        OutDataType,
-                                      ck::tensor_operation::element_wise::PassThrough,
+                                        ck::tensor_operation::element_wise::PassThrough,
-                                      ck::tensor_operation::element_wise::PassThrough,
+                                        ck::tensor_operation::element_wise::PassThrough,
-                                      ck::tensor_operation::element_wise::ScaleAddScaleAddRelu,
+                                        ck::tensor_operation::element_wise::ScaleAddScaleAddRelu,
-                                      ComputeType>;
+                                        ComputeType>;
    static auto GetInstances()
    {

--- a/library/include/ck/library/tensor_operation_instance/gpu/quantization/grouped_convolution_bias_forward_perchannel_quantization.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/quantization/grouped_convolution_bias_forward_perchannel_quantization.hpp
@@ -7,7 +7,7 @@
 #include "ck/ck.hpp"
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_d.hpp"
+#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_abd.hpp"
 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
 #include "ck/library/tensor_operation_instance/device_operation_instance_factory.hpp"
@@ -20,96 +20,96 @@ namespace instance {
 // grouped conv2d forward, NHWGC/GKYXC/NHWGK
 void add_device_conv2d_dl_bias_perchannel_quantization_int8_instances(
    std::vector<
-        std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+        std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                      NHWGC,
+                                                        NHWGC,
-                                                      GKYXC,
+                                                        GKYXC,
-                                                      GK_GK_Tuple,
+                                                        GK_GK_Tuple,
-                                                      NHWGK,
+                                                        NHWGK,
-                                                      int8_t,
+                                                        int8_t,
-                                                      int8_t,
+                                                        int8_t,
-                                                      I32_F32_Tuple,
+                                                        I32_F32_Tuple,
-                                                      int8_t,
+                                                        int8_t,
-                                                      PassThrough,
+                                                        PassThrough,
-                                                      PassThrough,
+                                                        PassThrough,
-                                                      Add_Activation_Mul2_Clamp<PassThrough>>>>&
+                                                        Add_Activation_Mul2_Clamp<PassThrough>>>>&
        instances);
 void add_device_conv2d_dl_bias_relu_perchannel_quantization_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                              NHWGC,
+                                                                NHWGC,
-                                                              GKYXC,
+                                                                GKYXC,
-                                                              GK_GK_Tuple,
+                                                                GK_GK_Tuple,
-                                                              NHWGK,
+                                                                NHWGK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              I32_F32_Tuple,
+                                                                I32_F32_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              Add_Activation_Mul2_Clamp<Relu>>>>&
+                                                                Add_Activation_Mul2_Clamp<Relu>>>>&
        instances);
 void add_device_conv2d_dl_bias_tanh_perchannel_quantization_int8_instances(
    std::vector<
-        std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+        std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                      NHWGC,
+                                                        NHWGC,
-                                                      GKYXC,
+                                                        GKYXC,
-                                                      GK_GK_Tuple,
+                                                        GK_GK_Tuple,
-                                                      NHWGK,
+                                                        NHWGK,
-                                                      int8_t,
+                                                        int8_t,
-                                                      int8_t,
+                                                        int8_t,
-                                                      I32_F32_Tuple,
+                                                        I32_F32_Tuple,
-                                                      int8_t,
+                                                        int8_t,
-                                                      PassThrough,
+                                                        PassThrough,
-                                                      PassThrough,
+                                                        PassThrough,
-                                                      Add_Mul2_Activation_Mul_Clamp<TanH>>>>&
+                                                        Add_Mul2_Activation_Mul_Clamp<TanH>>>>&
        instances);
 #endif
 void add_device_conv2d_xdl_bias_perchannel_quantization_int8_instances(
    std::vector<
-        std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+        std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                      NHWGC,
+                                                        NHWGC,
-                                                      GKYXC,
+                                                        GKYXC,
-                                                      GK_GK_Tuple,
+                                                        GK_GK_Tuple,
-                                                      NHWGK,
+                                                        NHWGK,
-                                                      int8_t,
+                                                        int8_t,
-                                                      int8_t,
+                                                        int8_t,
-                                                      I32_F32_Tuple,
+                                                        I32_F32_Tuple,
-                                                      int8_t,
+                                                        int8_t,
-                                                      PassThrough,
+                                                        PassThrough,
-                                                      PassThrough,
+                                                        PassThrough,
-                                                      Add_Activation_Mul2_Clamp<PassThrough>>>>&
+                                                        Add_Activation_Mul2_Clamp<PassThrough>>>>&
        instances);
 void add_device_conv2d_xdl_bias_relu_perchannel_quantization_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                              NHWGC,
+                                                                NHWGC,
-                                                              GKYXC,
+                                                                GKYXC,
-                                                              GK_GK_Tuple,
+                                                                GK_GK_Tuple,
-                                                              NHWGK,
+                                                                NHWGK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              I32_F32_Tuple,
+                                                                I32_F32_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              Add_Activation_Mul2_Clamp<Relu>>>>&
+                                                                Add_Activation_Mul2_Clamp<Relu>>>>&
        instances);
 void add_device_conv2d_xdl_bias_tanh_perchannel_quantization_int8_instances(
    std::vector<
-        std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+        std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                      NHWGC,
+                                                        NHWGC,
-                                                      GKYXC,
+                                                        GKYXC,
-                                                      GK_GK_Tuple,
+                                                        GK_GK_Tuple,
-                                                      NHWGK,
+                                                        NHWGK,
-                                                      int8_t,
+                                                        int8_t,
-                                                      int8_t,
+                                                        int8_t,
-                                                      I32_F32_Tuple,
+                                                        I32_F32_Tuple,
-                                                      int8_t,
+                                                        int8_t,
-                                                      PassThrough,
+                                                        PassThrough,
-                                                      PassThrough,
+                                                        PassThrough,
-                                                      Add_Mul2_Activation_Mul_Clamp<TanH>>>>&
+                                                        Add_Mul2_Activation_Mul_Clamp<TanH>>>>&
        instances);
 // piecewise activation function
@@ -123,7 +123,7 @@ template <ck::index_t NumDimSpatial,
          typename DsDataType,
          typename OutDataType,
          typename Activation>
-struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD<
+struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD<
    NumDimSpatial,
    InLayout,
    WeiLayout,
@@ -137,18 +137,19 @@ struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupe
    ck::tensor_operation::element_wise::PassThrough,
    Add_Activation_Mul2_Clamp<Activation>>>
 {
-    using DeviceOp = DeviceGroupedConvFwdMultipleD<NumDimSpatial,
+    using DeviceOp =
-                                                   InLayout,
+        DeviceGroupedConvFwdMultipleABD<NumDimSpatial,
-                                                   WeiLayout,
+                                        InLayout,
-                                                   DsLayout,
+                                        WeiLayout,
-                                                   OutLayout,
+                                        DsLayout,
-                                                   InDataType,
+                                        OutLayout,
-                                                   WeiDataType,
+                                        InDataType,
-                                                   DsDataType,
+                                        WeiDataType,
-                                                   OutDataType,
+                                        DsDataType,
-                                                   ck::tensor_operation::element_wise::PassThrough,
+                                        OutDataType,
-                                                   ck::tensor_operation::element_wise::PassThrough,
+                                        ck::tensor_operation::element_wise::PassThrough,
-                                                   Add_Activation_Mul2_Clamp<Activation>>;
+                                        ck::tensor_operation::element_wise::PassThrough,
+                                        Add_Activation_Mul2_Clamp<Activation>>;
    static auto GetInstances()
    {
@@ -193,7 +194,7 @@ template <ck::index_t NumDimSpatial,
          typename DsDataType,
          typename OutDataType,
          typename Activation>
-struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD<
+struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD<
    NumDimSpatial,
    InLayout,
    WeiLayout,
@@ -207,18 +208,19 @@ struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupe
    ck::tensor_operation::element_wise::PassThrough,
    Add_Mul2_Activation_Mul_Clamp<Activation>>>
 {
-    using DeviceOp = DeviceGroupedConvFwdMultipleD<NumDimSpatial,
+    using DeviceOp =
-                                                   InLayout,
+        DeviceGroupedConvFwdMultipleABD<NumDimSpatial,
-                                                   WeiLayout,
+                                        InLayout,
-                                                   DsLayout,
+                                        WeiLayout,
-                                                   OutLayout,
+                                        DsLayout,
-                                                   InDataType,
+                                        OutLayout,
-                                                   WeiDataType,
+                                        InDataType,
-                                                   DsDataType,
+                                        WeiDataType,
-                                                   OutDataType,
+                                        DsDataType,
-                                                   ck::tensor_operation::element_wise::PassThrough,
+                                        OutDataType,
-                                                   ck::tensor_operation::element_wise::PassThrough,
+                                        ck::tensor_operation::element_wise::PassThrough,
-                                                   Add_Mul2_Activation_Mul_Clamp<Activation>>;
+                                        ck::tensor_operation::element_wise::PassThrough,
+                                        Add_Mul2_Activation_Mul_Clamp<Activation>>;
    static auto GetInstances()
    {

--- a/library/include/ck/library/tensor_operation_instance/gpu/quantization/grouped_convolution_bias_forward_perlayer_quantization.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/quantization/grouped_convolution_bias_forward_perlayer_quantization.hpp
@@ -7,7 +7,7 @@
 #include "ck/ck.hpp"
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_d.hpp"
+#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_abd.hpp"
 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
 #include "ck/library/tensor_operation_instance/device_operation_instance_factory.hpp"
@@ -20,94 +20,96 @@ namespace instance {
 // grouped conv2d forward, NHWGC/GKYXC/NHWGK
 void add_device_conv2d_dl_bias_perlayer_quantization_int8_instances(
    std::vector<
-        std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+        std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                      NHWGC,
+                                                        NHWGC,
-                                                      GKYXC,
+                                                        GKYXC,
-                                                      GK_Tuple,
+                                                        GK_Tuple,
-                                                      NHWGK,
+                                                        NHWGK,
-                                                      int8_t,
+                                                        int8_t,
-                                                      int8_t,
+                                                        int8_t,
-                                                      I32_Tuple,
+                                                        I32_Tuple,
-                                                      int8_t,
+                                                        int8_t,
-                                                      PassThrough,
+                                                        PassThrough,
-                                                      PassThrough,
+                                                        PassThrough,
-                                                      Add_Activation_Mul_Clamp<PassThrough>>>>&
+                                                        Add_Activation_Mul_Clamp<PassThrough>>>>&
        instances);
 void add_device_conv2d_dl_bias_relu_perlayer_quantization_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                              NHWGC,
+                                                                NHWGC,
-                                                              GKYXC,
+                                                                GKYXC,
-                                                              GK_Tuple,
+                                                                GK_Tuple,
-                                                              NHWGK,
+                                                                NHWGK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              I32_Tuple,
+                                                                I32_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              Add_Activation_Mul_Clamp<Relu>>>>&
+                                                                Add_Activation_Mul_Clamp<Relu>>>>&
        instances);
 void add_device_conv2d_dl_bias_tanh_perlayer_quantization_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+    std::vector<
-                                                              NHWGC,
+        std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                              GKYXC,
+                                                        NHWGC,
-                                                              GK_Tuple,
+                                                        GKYXC,
-                                                              NHWGK,
+                                                        GK_Tuple,
-                                                              int8_t,
+                                                        NHWGK,
-                                                              int8_t,
+                                                        int8_t,
-                                                              I32_Tuple,
+                                                        int8_t,
-                                                              int8_t,
+                                                        I32_Tuple,
-                                                              PassThrough,
+                                                        int8_t,
-                                                              PassThrough,
+                                                        PassThrough,
-                                                              Add_Mul_Activation_Mul_Clamp<TanH>>>>&
+                                                        PassThrough,
+                                                        Add_Mul_Activation_Mul_Clamp<TanH>>>>&
        instances);
 #endif
 void add_device_conv2d_xdl_bias_perlayer_quantization_int8_instances(
    std::vector<
-        std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+        std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                      NHWGC,
+                                                        NHWGC,
-                                                      GKYXC,
+                                                        GKYXC,
-                                                      GK_Tuple,
+                                                        GK_Tuple,
-                                                      NHWGK,
+                                                        NHWGK,
-                                                      int8_t,
+                                                        int8_t,
-                                                      int8_t,
+                                                        int8_t,
-                                                      I32_Tuple,
+                                                        I32_Tuple,
-                                                      int8_t,
+                                                        int8_t,
-                                                      PassThrough,
+                                                        PassThrough,
-                                                      PassThrough,
+                                                        PassThrough,
-                                                      Add_Activation_Mul_Clamp<PassThrough>>>>&
+                                                        Add_Activation_Mul_Clamp<PassThrough>>>>&
        instances);
 void add_device_conv2d_xdl_bias_relu_perlayer_quantization_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                              NHWGC,
+                                                                NHWGC,
-                                                              GKYXC,
+                                                                GKYXC,
-                                                              GK_Tuple,
+                                                                GK_Tuple,
-                                                              NHWGK,
+                                                                NHWGK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              I32_Tuple,
+                                                                I32_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              Add_Activation_Mul_Clamp<Relu>>>>&
+                                                                Add_Activation_Mul_Clamp<Relu>>>>&
        instances);
 void add_device_conv2d_xdl_bias_tanh_perlayer_quantization_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+    std::vector<
-                                                              NHWGC,
+        std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                              GKYXC,
+                                                        NHWGC,
-                                                              GK_Tuple,
+                                                        GKYXC,
-                                                              NHWGK,
+                                                        GK_Tuple,
-                                                              int8_t,
+                                                        NHWGK,
-                                                              int8_t,
+                                                        int8_t,
-                                                              I32_Tuple,
+                                                        int8_t,
-                                                              int8_t,
+                                                        I32_Tuple,
-                                                              PassThrough,
+                                                        int8_t,
-                                                              PassThrough,
+                                                        PassThrough,
-                                                              Add_Mul_Activation_Mul_Clamp<TanH>>>>&
+                                                        PassThrough,
+                                                        Add_Mul_Activation_Mul_Clamp<TanH>>>>&
        instances);
 // piecewise activation function
@@ -121,7 +123,7 @@ template <ck::index_t NumDimSpatial,
          typename DsDataType,
          typename OutDataType,
          typename Activation>
-struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD<
+struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD<
    NumDimSpatial,
    InLayout,
    WeiLayout,
@@ -135,18 +137,19 @@ struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupe
    ck::tensor_operation::element_wise::PassThrough,
    Add_Activation_Mul_Clamp<Activation>>>
 {
-    using DeviceOp = DeviceGroupedConvFwdMultipleD<NumDimSpatial,
+    using DeviceOp =
-                                                   InLayout,
+        DeviceGroupedConvFwdMultipleABD<NumDimSpatial,
-                                                   WeiLayout,
+                                        InLayout,
-                                                   DsLayout,
+                                        WeiLayout,
-                                                   OutLayout,
+                                        DsLayout,
-                                                   InDataType,
+                                        OutLayout,
-                                                   WeiDataType,
+                                        InDataType,
-                                                   DsDataType,
+                                        WeiDataType,
-                                                   OutDataType,
+                                        DsDataType,
-                                                   ck::tensor_operation::element_wise::PassThrough,
+                                        OutDataType,
-                                                   ck::tensor_operation::element_wise::PassThrough,
+                                        ck::tensor_operation::element_wise::PassThrough,
-                                                   Add_Activation_Mul_Clamp<Activation>>;
+                                        ck::tensor_operation::element_wise::PassThrough,
+                                        Add_Activation_Mul_Clamp<Activation>>;
    static auto GetInstances()
    {
@@ -191,7 +194,7 @@ template <ck::index_t NumDimSpatial,
          typename DsDataType,
          typename OutDataType,
          typename Activation>
-struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD<
+struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD<
    NumDimSpatial,
    InLayout,
    WeiLayout,
@@ -205,18 +208,19 @@ struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupe
    ck::tensor_operation::element_wise::PassThrough,
    Add_Mul_Activation_Mul_Clamp<Activation>>>
 {
-    using DeviceOp = DeviceGroupedConvFwdMultipleD<NumDimSpatial,
+    using DeviceOp =
-                                                   InLayout,
+        DeviceGroupedConvFwdMultipleABD<NumDimSpatial,
-                                                   WeiLayout,
+                                        InLayout,
-                                                   DsLayout,
+                                        WeiLayout,
-                                                   OutLayout,
+                                        DsLayout,
-                                                   InDataType,
+                                        OutLayout,
-                                                   WeiDataType,
+                                        InDataType,
-                                                   DsDataType,
+                                        WeiDataType,
-                                                   OutDataType,
+                                        DsDataType,
-                                                   ck::tensor_operation::element_wise::PassThrough,
+                                        OutDataType,
-                                                   ck::tensor_operation::element_wise::PassThrough,
+                                        ck::tensor_operation::element_wise::PassThrough,
-                                                   Add_Mul_Activation_Mul_Clamp<Activation>>;
+                                        ck::tensor_operation::element_wise::PassThrough,
+                                        Add_Mul_Activation_Mul_Clamp<Activation>>;
    static auto GetInstances()
    {

--- a/library/include/ck/library/tensor_operation_instance/gpu/quantization/grouped_convolution_forward_perchannel_quantization.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/quantization/grouped_convolution_forward_perchannel_quantization.hpp
@@ -7,7 +7,7 @@
 #include "ck/ck.hpp"
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_d.hpp"
+#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_abd.hpp"
 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
 #include "ck/library/tensor_operation_instance/device_operation_instance_factory.hpp"
@@ -19,63 +19,65 @@ namespace instance {
 #ifdef DL_KERNELS
 // grouped conv2d forward, NHWGC/GKYXC/NHWGK
 void add_device_conv2d_dl_perchannel_quantization_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+    std::vector<
-                                                              NHWGC,
+        std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                              GKYXC,
+                                                        NHWGC,
-                                                              GK_Tuple,
+                                                        GKYXC,
-                                                              NHWGK,
+                                                        GK_Tuple,
-                                                              int8_t,
+                                                        NHWGK,
-                                                              int8_t,
+                                                        int8_t,
-                                                              F32_Tuple,
+                                                        int8_t,
-                                                              int8_t,
+                                                        F32_Tuple,
-                                                              PassThrough,
+                                                        int8_t,
-                                                              PassThrough,
+                                                        PassThrough,
-                                                              Activation_Mul2_Clamp<PassThrough>>>>&
+                                                        PassThrough,
+                                                        Activation_Mul2_Clamp<PassThrough>>>>&
        instances);
 void add_device_conv2d_dl_relu_perchannel_quantization_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                              NHWGC,
+                                                                NHWGC,
-                                                              GKYXC,
+                                                                GKYXC,
-                                                              GK_Tuple,
+                                                                GK_Tuple,
-                                                              NHWGK,
+                                                                NHWGK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              F32_Tuple,
+                                                                F32_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              Activation_Mul2_Clamp<Relu>>>>&
+                                                                Activation_Mul2_Clamp<Relu>>>>&
        instances);
 #endif
 void add_device_conv2d_xdl_perchannel_quantization_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+    std::vector<
-                                                              NHWGC,
+        std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                              GKYXC,
+                                                        NHWGC,
-                                                              GK_Tuple,
+                                                        GKYXC,
-                                                              NHWGK,
+                                                        GK_Tuple,
-                                                              int8_t,
+                                                        NHWGK,
-                                                              int8_t,
+                                                        int8_t,
-                                                              F32_Tuple,
+                                                        int8_t,
-                                                              int8_t,
+                                                        F32_Tuple,
-                                                              PassThrough,
+                                                        int8_t,
-                                                              PassThrough,
+                                                        PassThrough,
-                                                              Activation_Mul2_Clamp<PassThrough>>>>&
+                                                        PassThrough,
+                                                        Activation_Mul2_Clamp<PassThrough>>>>&
        instances);
 void add_device_conv2d_xdl_relu_perchannel_quantization_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                              NHWGC,
+                                                                NHWGC,
-                                                              GKYXC,
+                                                                GKYXC,
-                                                              GK_Tuple,
+                                                                GK_Tuple,
-                                                              NHWGK,
+                                                                NHWGK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              F32_Tuple,
+                                                                F32_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              Activation_Mul2_Clamp<Relu>>>>&
+                                                                Activation_Mul2_Clamp<Relu>>>>&
        instances);
 template <ck::index_t NumDimSpatial,
@@ -88,7 +90,7 @@ template <ck::index_t NumDimSpatial,
          typename DsDataType,
          typename OutDataType,
          typename Activation>
-struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD<
+struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD<
    NumDimSpatial,
    InLayout,
    WeiLayout,
@@ -102,18 +104,19 @@ struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupe
    ck::tensor_operation::element_wise::PassThrough,
    Activation_Mul2_Clamp<Activation>>>
 {
-    using DeviceOp = DeviceGroupedConvFwdMultipleD<NumDimSpatial,
+    using DeviceOp =
-                                                   InLayout,
+        DeviceGroupedConvFwdMultipleABD<NumDimSpatial,
-                                                   WeiLayout,
+                                        InLayout,
-                                                   GK_Tuple,
+                                        WeiLayout,
-                                                   OutLayout,
+                                        GK_Tuple,
-                                                   InDataType,
+                                        OutLayout,
-                                                   WeiDataType,
+                                        InDataType,
-                                                   F32_Tuple,
+                                        WeiDataType,
-                                                   OutDataType,
+                                        F32_Tuple,
-                                                   ck::tensor_operation::element_wise::PassThrough,
+                                        OutDataType,
-                                                   ck::tensor_operation::element_wise::PassThrough,
+                                        ck::tensor_operation::element_wise::PassThrough,
-                                                   Activation_Mul2_Clamp<Activation>>;
+                                        ck::tensor_operation::element_wise::PassThrough,
+                                        Activation_Mul2_Clamp<Activation>>;
    static auto GetInstances()
    {

--- a/library/include/ck/library/tensor_operation_instance/gpu/quantization/grouped_convolution_forward_perlayer_quantization.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/quantization/grouped_convolution_forward_perlayer_quantization.hpp
@@ -7,7 +7,7 @@
 #include "ck/ck.hpp"
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_d.hpp"
+#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_abd.hpp"
 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
 #include "ck/library/tensor_operation_instance/device_operation_instance_factory.hpp"
@@ -19,63 +19,65 @@ namespace instance {
 #ifdef DL_KERNELS
 // grouped conv2d forward, NHWGC/GKYXC/NHWGK
 void add_device_conv2d_dl_perlayer_quantization_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+    std::vector<
-                                                              NHWGC,
+        std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                              GKYXC,
+                                                        NHWGC,
-                                                              Empty_Tuple,
+                                                        GKYXC,
-                                                              NHWGK,
+                                                        Empty_Tuple,
-                                                              int8_t,
+                                                        NHWGK,
-                                                              int8_t,
+                                                        int8_t,
-                                                              Empty_Tuple,
+                                                        int8_t,
-                                                              int8_t,
+                                                        Empty_Tuple,
-                                                              PassThrough,
+                                                        int8_t,
-                                                              PassThrough,
+                                                        PassThrough,
-                                                              Activation_Mul_Clamp<PassThrough>>>>&
+                                                        PassThrough,
+                                                        Activation_Mul_Clamp<PassThrough>>>>&
        instances);
 void add_device_conv2d_dl_relu_perlayer_quantization_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                              NHWGC,
+                                                                NHWGC,
-                                                              GKYXC,
+                                                                GKYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NHWGK,
+                                                                NHWGK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              Activation_Mul_Clamp<Relu>>>>&
+                                                                Activation_Mul_Clamp<Relu>>>>&
        instances);
 #endif
 void add_device_conv2d_xdl_perlayer_quantization_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+    std::vector<
-                                                              NHWGC,
+        std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                              GKYXC,
+                                                        NHWGC,
-                                                              Empty_Tuple,
+                                                        GKYXC,
-                                                              NHWGK,
+                                                        Empty_Tuple,
-                                                              int8_t,
+                                                        NHWGK,
-                                                              int8_t,
+                                                        int8_t,
-                                                              Empty_Tuple,
+                                                        int8_t,
-                                                              int8_t,
+                                                        Empty_Tuple,
-                                                              PassThrough,
+                                                        int8_t,
-                                                              PassThrough,
+                                                        PassThrough,
-                                                              Activation_Mul_Clamp<PassThrough>>>>&
+                                                        PassThrough,
+                                                        Activation_Mul_Clamp<PassThrough>>>>&
        instances);
 void add_device_conv2d_xdl_relu_perlayer_quantization_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<2,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<2,
-                                                              NHWGC,
+                                                                NHWGC,
-                                                              GKYXC,
+                                                                GKYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NHWGK,
+                                                                NHWGK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              Activation_Mul_Clamp<Relu>>>>&
+                                                                Activation_Mul_Clamp<Relu>>>>&
        instances);
 template <ck::index_t NumDimSpatial,
@@ -86,7 +88,7 @@ template <ck::index_t NumDimSpatial,
          typename WeiDataType,
          typename OutDataType,
          typename Activation>
-struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD<
+struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupedConvFwdMultipleABD<
    NumDimSpatial,
    InLayout,
    WeiLayout,
@@ -100,18 +102,19 @@ struct DeviceOperationInstanceFactory<ck::tensor_operation::device::DeviceGroupe
    ck::tensor_operation::element_wise::PassThrough,
    Activation_Mul_Clamp<Activation>>>
 {
-    using DeviceOp = DeviceGroupedConvFwdMultipleD<NumDimSpatial,
+    using DeviceOp =
-                                                   InLayout,
+        DeviceGroupedConvFwdMultipleABD<NumDimSpatial,
-                                                   WeiLayout,
+                                        InLayout,
-                                                   Empty_Tuple,
+                                        WeiLayout,
-                                                   OutLayout,
+                                        Empty_Tuple,
-                                                   InDataType,
+                                        OutLayout,
-                                                   WeiDataType,
+                                        InDataType,
-                                                   Empty_Tuple,
+                                        WeiDataType,
-                                                   OutDataType,
+                                        Empty_Tuple,
-                                                   ck::tensor_operation::element_wise::PassThrough,
+                                        OutDataType,
-                                                   ck::tensor_operation::element_wise::PassThrough,
+                                        ck::tensor_operation::element_wise::PassThrough,
-                                                   Activation_Mul_Clamp<Activation>>;
+                                        ck::tensor_operation::element_wise::PassThrough,
+                                        Activation_Mul_Clamp<Activation>>;
    static auto GetInstances()
    {