clean

61510f0a · Chao Liu · 65c56e56 · 65c56e56 · 65c56e56 · 65c56e56
Commit 61510f0a authored Jul 25, 2022 by Chao Liu
16 changed files
--- a/example/06_conv2d_fwd_bias_relu/CMakeLists.txt
+++ b/example/06_conv2d_fwd_bias_relu/CMakeLists.txt
-add_example_executable(example_conv2d_fwd_bias_relu_xdl_fp16 conv2d_fwd_bias_relu_xdl_fp16.cpp)
-target_link_libraries(example_conv2d_fwd_bias_relu_xdl_fp16 PRIVATE utility)
-add_example_executable(example_convnd_fwd_bias_relu_xdl_fp16 convnd_fwd_bias_relu_xdl_fp16.cpp)
-target_link_libraries(example_convnd_fwd_bias_relu_xdl_fp16 PRIVATE utility)
--- a/example/06_conv2d_fwd_bias_relu/README.md
+++ b/example/06_conv2d_fwd_bias_relu/README.md
-# Instructions for ```example_conv_xdl_bias_relu```
-## Run ```example_conv_xdl_bias_relu```
-```bash
-#arg1: verification (0=no, 1=yes)
-#arg2: initialization (0=no init, 1=integer value, 2=decimal value)
-#arg3: run kernel # of times (>1)
-#arg4 to 18: N, K, C, Y, X, Hi, Wi, Sy, Sx, Dy, Dx, LeftPy, LeftPx, RightPy, RightPx
-./bin/example_conv_xdl_bias_relu 0 1 5
-```
-Result (MI100 @ 1087Mhz, 133.5TFlops peak FP16)
-```
-in_n_c_hi_wi: dim 4, lengths {128, 192, 71, 71}, strides {967872, 1, 13632, 192}
-wei_k_c_y_x: dim 4, lengths {256, 192, 3, 3}, strides {1728, 1, 576, 192}
-out_n_k_ho_wo: dim 4, lengths {128, 256, 36, 36}, strides {331776, 1, 9216, 256}
-bias_k: dim 1, lengths {256}, strides {1}
-launch_and_time_kernel: grid_dim {1296, 1, 1}, block_dim {256, 1, 1}
-Warm up
-Start running 5 times...
-Perf: 1.39009 ms, 105.581 TFlops, 239.981 GB/s
-```
--- a/example/06_conv2d_fwd_bias_relu/conv2d_fwd_bias_relu_xdl_fp16.cpp
+++ b/example/06_conv2d_fwd_bias_relu/conv2d_fwd_bias_relu_xdl_fp16.cpp
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
-#include <iostream>
-#include <numeric>
-#include <initializer_list>
-#include <cstdlib>
-#include "ck/ck.hpp"
-#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "ck/tensor_operation/gpu/device/device_conv2d_fwd_xdl_c_shuffle_bias_activation_nhwc_kyxc_nhwk.hpp"
-#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-#include "ck/library/utility/check_err.hpp"
-#include "ck/library/utility/convolution_parameter.hpp"
-#include "ck/library/utility/device_memory.hpp"
-#include "ck/library/utility/host_tensor.hpp"
-#include "ck/library/utility/host_tensor_generator.hpp"
-#include "ck/library/reference_tensor_operation/cpu/reference_conv_fwd.hpp"
-namespace {
-using InDataType  = ck::half_t;
-using WeiDataType = ck::half_t;
-using OutDataType = ck::half_t;
-using AccDataType = float;
-template <ck::index_t... Is>
-using S = ck::Sequence<Is...>;
-using InLayout  = ck::tensor_layout::convolution::NHWC;
-using WeiLayout = ck::tensor_layout::convolution::KYXC;
-using OutLayout = ck::tensor_layout::convolution::NHWK;
-using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-using InElementOp  = PassThrough;
-using WeiElementOp = PassThrough;
-using OutElementOp = ck::tensor_operation::element_wise::AddRelu;
-static constexpr auto MemorySet = ck::InMemoryDataOperationEnum::Set;
-static constexpr auto ConvFwdDefault =
-    ck::tensor_operation::device::ConvolutionForwardSpecialization::Default;
-// clang-format off
-using DeviceConvFwdInstance = ck::tensor_operation::device::
-    DeviceConv2dFwdXdl_C_Shuffle_Bias_Activation_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_N_Ho_Wo_K<
-        InDataType,                   // InDataType
-        WeiDataType,                  // WeiDataType
-        OutDataType,                  // OutDataType
-        AccDataType,                  // AccDataType
-        InElementOp,                  // InElementwiseOperation
-        WeiElementOp,                 // WeiElementwiseOperation
-        OutElementOp,                 // OutElementwiseOperation
-        MemorySet,                    // OutGlobalMemoryDataOperation
-        ConvFwdDefault,               // ConvForwardSpecialization
-        256,                          // BlockSize
-        128,                          // MPerBlock
-        256,                          // NPerBlock
-        4,                            // K0PerBlock
-        8,                            // K1
-        32,                           // MPerXdl
-        32,                           // NPerXdl
-        2,                            // MXdlPerWave
-        4,                            // NXdlPerWave
-        S<4, 64, 1>,                  // ABlockTransferThreadClusterLengths_K0_M_K1
-        S<1, 0, 2>,                   // ABlockTransferThreadClusterArrangeOrder
-        S<1, 0, 2>,                   // ABlockTransferSrcAccessOrder
-        2,                            // ABlockTransferSrcVectorDim
-        8,                            // ABlockTransferSrcScalarPerVector
-        8,                            // ABlockTransferDstScalarPerVector_K1
-        true,                         // ABlockLdsAddExtraM
-        S<4, 64, 1>,                  // BBlockTransferThreadClusterLengths_K0_N_K1
-        S<1, 0, 2>,                   // BBlockTransferThreadClusterArrangeOrder
-        S<1, 0, 2>,                   // BBlockTransferSrcAccessOrder
-        2,                            // BBlockTransferSrcVectorDim
-        8,                            // BBlockTransferSrcScalarPerVector
-        8,                            // BBlockTransferDstScalarPerVector_K1
-        true,                         // BBlockLdsAddExtraN
-        1,                            // CShuffleMXdlPerWavePerShuffle
-        1,                            // CShuffleNXdlPerWavePerShuffle
-        S<1, 1, 32, 1, 1, 8>,         // CBlockTransferClusterLengths_MBlock_MXdlPerWave_MWaveMPerXdl_NBlock_NXdlPerWave_NWaveNPerXdl
-        8>;                           // CBlockTransferScalarPerVector_NWaveNPerXdl
-// clang-format on
-void print_helper_msg()
-{
-    std::cout << "arg1: verification (0=no, 1=yes)\n"
-              << "arg2: initialization (0=no init, 1=integer value, 2=decimal value)\n"
-              << "arg3: time kernel (0=no, 1=yes)\n"
-              << "arg4: N spatial dimensions (default 2)\n"
-              << "Following arguments (depending on number of spatial dims):\n"
-              << " N, K, C, \n"
-              << " <filter spatial dimensions>, (ie Y, X for 2D)\n"
-              << " <input image spatial dimensions>, (ie Hi, Wi for 2D)\n"
-              << " <strides>, (ie Sy, Sx for 2D)\n"
-              << " <dilations>, (ie Dy, Dx for 2D)\n"
-              << " <left padding>, (ie LeftPy, LeftPx for 2D)\n"
-              << " <right padding>, (ie RightPy, RightPx for 2D)\n"
-              << std::endl;
-}
-ck::utils::conv::ConvParam parse_conv_param(int num_dim_spatial, int arg_idx, char* const argv[])
-{
-    const ck::index_t N = std::stoi(argv[arg_idx++]);
-    const ck::index_t K = std::stoi(argv[arg_idx++]);
-    const ck::index_t C = std::stoi(argv[arg_idx++]);
-    std::vector<ck::index_t> filter_spatial_lengths(num_dim_spatial);
-    std::vector<ck::index_t> input_spatial_lengths(num_dim_spatial);
-    std::vector<ck::index_t> conv_filter_strides(num_dim_spatial);
-    std::vector<ck::index_t> conv_filter_dilations(num_dim_spatial);
-    std::vector<ck::index_t> input_left_pads(num_dim_spatial);
-    std::vector<ck::index_t> input_right_pads(num_dim_spatial);
-    for(int i = 0; i < num_dim_spatial; ++i)
-    {
-        filter_spatial_lengths[i] = std::stoi(argv[arg_idx++]);
-    }
-    for(int i = 0; i < num_dim_spatial; ++i)
-    {
-        input_spatial_lengths[i] = std::stoi(argv[arg_idx++]);
-    }
-    for(int i = 0; i < num_dim_spatial; ++i)
-    {
-        conv_filter_strides[i] = std::stoi(argv[arg_idx++]);
-    }
-    for(int i = 0; i < num_dim_spatial; ++i)
-    {
-        conv_filter_dilations[i] = std::stoi(argv[arg_idx++]);
-    }
-    for(int i = 0; i < num_dim_spatial; ++i)
-    {
-        input_left_pads[i] = std::stoi(argv[arg_idx++]);
-    }
-    for(int i = 0; i < num_dim_spatial; ++i)
-    {
-        input_right_pads[i] = std::stoi(argv[arg_idx++]);
-    }
-    return ck::utils::conv::ConvParam{num_dim_spatial,
-                                      N,
-                                      K,
-                                      C,
-                                      filter_spatial_lengths,
-                                      input_spatial_lengths,
-                                      conv_filter_strides,
-                                      conv_filter_dilations,
-                                      input_left_pads,
-                                      input_right_pads};
-}
-} // namespace
-int main(int argc, char* argv[])
-{
-    print_helper_msg();
-    bool do_verification = true;
-    int init_method      = 1;
-    bool time_kernel     = false;
-    int num_dim_spatial  = 2;
-    ck::utils::conv::ConvParam params{
-        2, 128, 256, 192, {3, 3}, {71, 71}, {2, 2}, {1, 1}, {1, 1}, {1, 1}};
-    if(argc == 1)
-    {
-        // use default
-    }
-    else if(argc == 4)
-    {
-        do_verification = std::stoi(argv[1]);
-        init_method     = std::stoi(argv[2]);
-        time_kernel     = std::stoi(argv[3]);
-    }
-    else
-    {
-        do_verification = std::stoi(argv[1]);
-        init_method     = std::stoi(argv[2]);
-        time_kernel     = std::stoi(argv[3]);
-        num_dim_spatial = std::stoi(argv[4]);
-        params = parse_conv_params(num_dim_spatial, 5, argv);
-    }
-    const auto in_element_op  = InElementOp{};
-    const auto wei_element_op = WeiElementOp{};
-    const auto out_element_op = OutElementOp{};
-    auto f_nhwc_host_tensor_descriptor =
-        [](ck::index_t n, ck::index_t c, std::vector<ck::index_t> spatial_lengths) {
-            std::vector<std::size_t> nhwc_lengths{static_cast<std::size_t>(n),
-                                                  static_cast<std::size_t>(c)};
-            nhwc_lengths.insert(
-                nhwc_lengths.begin() + 1, spatial_lengths.begin(), spatial_lengths.end());
-            return HostTensorDescriptor(nhwc_lengths);
-        };
-    Tensor<InDataType> in_n_hi_wi_c(
-        f_nhwc_host_tensor_descriptor(params.N_, params.C_, params.input_spatial_lengths_));
-    Tensor<WeiDataType> wei_k_y_x_c(
-        f_nhwc_host_tensor_descriptor(params.K_, params.C_, params.filter_spatial_lengths_));
-    // bias: assume contiguous 1d vector
-    Tensor<OutDataType> bias_k(
-        HostTensorDescriptor(std::vector<std::size_t>({static_cast<std::size_t>(params.K_)})));
-    Tensor<OutDataType> out_n_ho_wo_k_host(
-        f_nhwc_host_tensor_descriptor(params.N_, params.K_, params.GetOutputSpatialLengths()));
-    Tensor<OutDataType> out_n_ho_wo_k_device(
-        f_nhwc_host_tensor_descriptor(params.N_, params.K_, params.GetOutputSpatialLengths()));
-    std::cout << "in_n_hi_wi_c: " << in_n_hi_wi_c.mDesc << std::endl;
-    std::cout << "wei_k_y_x_c: " << wei_k_y_x_c.mDesc << std::endl;
-    std::cout << "bias_k: " << bias_k.mDesc << std::endl;
-    std::cout << "output: " << out_n_ho_wo_k_host.mDesc << std::endl;
-    switch(init_method)
-    {
-    case 0: break;
-    case 1:
-        in_n_hi_wi_c.GenerateTensorValue(GeneratorTensor_2<InDataType>{-5, 5});
-        wei_k_y_x_c.GenerateTensorValue(GeneratorTensor_2<WeiDataType>{-5, 5});
-        bias_k.GenerateTensorValue(GeneratorTensor_2<OutDataType>{-5, 5});
-        break;
-    default:
-        in_n_hi_wi_c.GenerateTensorValue(GeneratorTensor_3<InDataType>{0.0, 1.0});
-        wei_k_y_x_c.GenerateTensorValue(GeneratorTensor_3<WeiDataType>{-0.5, 0.5});
-        bias_k.GenerateTensorValue(GeneratorTensor_3<OutDataType>{0.0, 1.0});
-    }
-    DeviceMem in_device_buf(sizeof(InDataType) * in_n_hi_wi_c.mDesc.GetElementSpaceSize());
-    DeviceMem wei_device_buf(sizeof(WeiDataType) * wei_k_y_x_c.mDesc.GetElementSpaceSize());
-    DeviceMem bias_device_buf(sizeof(OutDataType) * bias_k.mDesc.GetElementSpaceSize());
-    DeviceMem out_device_buf(sizeof(OutDataType) *
-                             out_n_ho_wo_k_device.mDesc.GetElementSpaceSize());
-    in_device_buf.ToDevice(in_n_hi_wi_c.mData.data());
-    wei_device_buf.ToDevice(wei_k_y_x_c.mData.data());
-    bias_device_buf.ToDevice(bias_k.mData.data());
-    // do GEMM
-    auto conv    = DeviceConvFwdInstance{};
-    auto invoker = conv.MakeInvoker();
-    auto argument =
-        conv.MakeArgument(static_cast<const InDataType*>(in_device_buf.GetDeviceBuffer()),
-                          static_cast<const WeiDataType*>(wei_device_buf.GetDeviceBuffer()),
-                          static_cast<OutDataType*>(out_device_buf.GetDeviceBuffer()),
-                          static_cast<const OutDataType*>(bias_device_buf.GetDeviceBuffer()),
-                          params.N_,
-                          params.K_,
-                          params.C_,
-                          params.input_spatial_lengths_,
-                          params.filter_spatial_lengths_,
-                          params.GetOutputSpatialLengths(),
-                          params.conv_filter_strides_,
-                          params.conv_filter_dilations_,
-                          params.input_left_pads_,
-                          params.input_right_pads_,
-                          in_element_op,
-                          wei_element_op,
-                          out_element_op);
-    if(!conv.IsSupportedArgument(argument))
-    {
-        throw std::runtime_error(
-            "wrong! device_conv with the specified compilation parameters does "
-            "not support this Conv problem");
-    }
-    float avg_time = invoker.Run(argument, StreamConfig{nullptr, time_kernel});
-    std::size_t flop      = params.GetFlops();
-    std::size_t num_btype = params.GetByte<InDataType, WeiDataType, OutDataType>();
-    float tflops     = static_cast<float>(flop) / 1.E9 / avg_time;
-    float gb_per_sec = num_btype / 1.E6 / avg_time;
-    std::cout << "Perf: " << avg_time << " ms, " << tflops << " TFlops, " << gb_per_sec << " GB/s, "
-              << conv.GetTypeString() << std::endl;
-    if(do_verification)
-    {
-        // use OutDataType for intermediate data
-        Tensor<OutDataType> tmp_n_ho_wo_k_host(
-            f_nhwc_host_tensor_descriptor(params.N_, params.K_, params.GetOutputSpatialLengths()));
-        auto ref_conv =
-            ck::tensor_operation::host::ReferenceConvFwd<2,
-                                                         ck::tensor_layout::convolution::NHWC,
-                                                         ck::tensor_layout::convolution::KYXC,
-                                                         ck::tensor_layout::convolution::NHWK,
-                                                         InDataType,
-                                                         WeiDataType,
-                                                         OutDataType,
-                                                         InElementOp,
-                                                         WeiElementOp,
-                                                         PassThrough>();
-        auto ref_invoker  = ref_conv.MakeInvoker();
-        auto ref_argument = ref_conv.MakeArgument(in_n_hi_wi_c,
-                                                  wei_k_y_x_c,
-                                                  tmp_n_ho_wo_k_host,
-                                                  params.conv_filter_strides_,
-                                                  params.conv_filter_dilations_,
-                                                  params.input_left_pads_,
-                                                  params.input_right_pads_,
-                                                  in_element_op,
-                                                  wei_element_op,
-                                                  PassThrough{});
-        ref_invoker.Run(ref_argument);
-        // FIXME: implement reference pointwise operation
-        for(int n = 0; n < params.N_; n++)
-        {
-            for(int ho = 0; ho < params.output_spatial_lengths_[0]; ho++)
-            {
-                for(int wo = 0; wo < params.output_spatial_lengths_[1]; wo++)
-                {
-                    for(int k = 0; k < params.K_; k++)
-                    {
-                        out_element_op(out_n_ho_wo_k_host(n, ho, wo, k),
-                                       tmp_n_ho_wo_k_host(n, ho, wo, k),
-                                       bias_k(k));
-                    }
-                }
-            }
-        }
-        out_device_buf.FromDevice(out_n_ho_wo_k_device.mData.data());
-        return ck::utils::check_err(out_n_ho_wo_k_host.mData,
-                                    out_n_ho_wo_k_device.mData,
-                                    "Error: incorrect results!",
-                                    1e-5f,
-                                    1e-4f)
-                   ? 0
-                   : 1;
-    }
-    return 0;
-}
--- a/example/07_conv2d_fwd_bias_relu_add/CMakeLists.txt
+++ b/example/07_conv2d_fwd_bias_relu_add/CMakeLists.txt
-add_example_executable(example_conv2d_fwd_bias_relu_add_xdl_fp16 conv2d_fwd_bias_relu_add_xdl_fp16.cpp)
-target_link_libraries(example_conv2d_fwd_bias_relu_add_xdl_fp16 PRIVATE utility)
--- a/example/07_conv2d_fwd_bias_relu_add/README.md
+++ b/example/07_conv2d_fwd_bias_relu_add/README.md
-# Instructions for ```example_conv_xdl_bias_relu_add```
-## Run ```example_conv_xdl_bias_relu_add```
-```bash
-#arg1: verification (0=no, 1=yes)
-#arg2: initialization (0=no init, 1=integer value, 2=decimal value)
-#arg3: run kernel # of times (>1)
-#arg4 to 18: N, K, C, Y, X, Hi, Wi, Sy, Sx, Dy, Dx, LeftPy, LeftPx, RightPy, RightPx
-./bin/example_conv_xdl_bias_relu_add 0 1 5
-```
-Result (MI100 @ 1087Mhz, 133.5TFlops peak FP16)
-```
-in_n_c_hi_wi: dim 4, lengths {128, 192, 71, 71}, strides {967872, 1, 13632, 192}
-wei_k_c_y_x: dim 4, lengths {256, 192, 3, 3}, strides {1728, 1, 576, 192}
-out_n_k_ho_wo: dim 4, lengths {128, 256, 36, 36}, strides {331776, 1, 9216, 256}
-bias_k: dim 1, lengths {256}, strides {1}
-resi_n_k_ho_wo: dim 4, lengths {128, 256, 36, 36}, strides {331776, 1, 9216, 256}
-launch_and_time_kernel: grid_dim {1296, 1, 1}, block_dim {256, 1, 1}
-Warm up
-Start running 5 times...
-Perf: 1.44711 ms, 101.421 TFlops, 289.218 GB/s
-```
--- a/example/07_conv2d_fwd_bias_relu_add/conv2d_fwd_bias_relu_add_xdl_fp16.cpp
+++ b/example/07_conv2d_fwd_bias_relu_add/conv2d_fwd_bias_relu_add_xdl_fp16.cpp
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
-#include <iostream>
-#include <numeric>
-#include <initializer_list>
-#include <cstdlib>
-#include "ck/ck.hpp"
-#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "ck/tensor_operation/gpu/device/device_conv2d_fwd_xdl_c_shuffle_bias_activation_add_nhwc_kyxc_nhwk.hpp"
-#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-#include "ck/library/utility/check_err.hpp"
-#include "ck/library/utility/convolution_parameter.hpp"
-#include "ck/library/utility/device_memory.hpp"
-#include "ck/library/utility/host_tensor.hpp"
-#include "ck/library/utility/host_tensor_generator.hpp"
-#include "ck/library/reference_tensor_operation/cpu/reference_conv_fwd.hpp"
-namespace {
-using InDataType  = ck::half_t;
-using WeiDataType = ck::half_t;
-using OutDataType = ck::half_t;
-using AccDataType = float;
-template <ck::index_t... Is>
-using S = ck::Sequence<Is...>;
-using InLayout  = ck::tensor_layout::convolution::NHWC;
-using WeiLayout = ck::tensor_layout::convolution::KYXC;
-using OutLayout = ck::tensor_layout::convolution::NHWK;
-using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-using InElementOp  = PassThrough;
-using WeiElementOp = PassThrough;
-using OutElementOp = ck::tensor_operation::element_wise::AddReluAdd;
-static constexpr auto ConvFwdDefault =
-    ck::tensor_operation::device::ConvolutionForwardSpecialization::Default;
-// clang-format off
-using DeviceConvFwdInstance = ck::tensor_operation::device::
-    DeviceConv2dFwdXdl_C_Shuffle_Bias_Activation_Add_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_N_Ho_Wo_K<
-        InDataType,              // InDataType
-        WeiDataType,             // WeiDataType
-        OutDataType,             // OutDataType
-        AccDataType,             // AccDataType
-        InElementOp,             // InElementwiseOperation
-        WeiElementOp,            // WeiElementwiseOperation
-        OutElementOp,            // OutElementwiseOperation
-        ConvFwdDefault,          // ConvForwardSpecialization
-        256,                     // BlockSize
-        128,                     // MPerBlock
-        256,                     // NPerBlock
-        4,                       // K0PerBlock
-        8,                       // K1
-        32,                      // MPerXdl
-        32,                      // NPerXdl
-        2,                       // MXdlPerWave
-        4,                       // NXdlPerWave
-        S<4, 64, 1>,             // ABlockTransferThreadClusterLengths_K0_M_K1
-        S<1, 0, 2>,              // ABlockTransferThreadClusterArrangeOrder
-        S<1, 0, 2>,              // ABlockTransferSrcAccessOrder
-        2,                       // ABlockTransferSrcVectorDim
-        8,                       // ABlockTransferSrcScalarPerVector
-        8,                       // ABlockTransferDstScalarPerVector_K1
-        true,                    // ABlockLdsAddExtraM
-        S<4, 64, 1>,             // BBlockTransferThreadClusterLengths_K0_N_K1
-        S<1, 0, 2>,              // BBlockTransferThreadClusterArrangeOrder
-        S<1, 0, 2>,              // BBlockTransferSrcAccessOrder
-        2,                       // BBlockTransferSrcVectorDim
-        8,                       // BBlockTransferSrcScalarPerVector
-        8,                       // BBlockTransferDstScalarPerVector_K1
-        true,                    // BBlockLdsAddExtraN
-        1,                       // CShuffleMXdlPerWavePerShuffle
-        1,                       // CShuffleNXdlPerWavePerShuffle
-        S<1, 1, 32, 1, 1, 8>,    // CBlockTransferClusterLengths_MBlock_MXdlPerWave_MWaveMPerXdl_NBlock_NXdlPerWave_NWaveNPerXdl
-        8>;                      // CBlockTransferScalarPerVector_NWaveNPerXdl
-// clang-format on
-void print_helper_msg()
-{
-    std::cout << "arg1: verification (0=no, 1=yes)\n"
-              << "arg2: initialization (0=no init, 1=integer value, 2=decimal value)\n"
-              << "arg3: time kernel (0=no, 1=yes)\n"
-              << "arg4: N spatial dimensions (default 2)\n"
-              << "Following arguments (depending on number of spatial dims):\n"
-              << " N, K, C, \n"
-              << " <filter spatial dimensions>, (ie Y, X for 2D)\n"
-              << " <in_n_hi_wi_c image spatial dimensions>, (ie Hi, Wi for 2D)\n"
-              << " <strides>, (ie Sy, Sx for 2D)\n"
-              << " <dilations>, (ie Dy, Dx for 2D)\n"
-              << " <left padding>, (ie LeftPy, LeftPx for 2D)\n"
-              << " <right padding>, (ie RightPy, RightPx for 2D)\n"
-              << std::endl;
-}
-ck::utils::conv::ConvParam parse_conv_params(int num_dim_spatial, int arg_idx, char* const argv[])
-{
-    const ck::index_t N = std::stoi(argv[arg_idx++]);
-    const ck::index_t K = std::stoi(argv[arg_idx++]);
-    const ck::index_t C = std::stoi(argv[arg_idx++]);
-    std::vector<ck::index_t> filter_spatial_lengths(num_dim_spatial);
-    std::vector<ck::index_t> input_spatial_lengths(num_dim_spatial);
-    std::vector<ck::index_t> conv_filter_strides(num_dim_spatial);
-    std::vector<ck::index_t> conv_filter_dilations(num_dim_spatial);
-    std::vector<ck::index_t> input_left_pads(num_dim_spatial);
-    std::vector<ck::index_t> input_right_pads(num_dim_spatial);
-    for(int i = 0; i < num_dim_spatial; ++i)
-    {
-        filter_spatial_lengths[i] = std::stoi(argv[arg_idx++]);
-    }
-    for(int i = 0; i < num_dim_spatial; ++i)
-    {
-        input_spatial_lengths[i] = std::stoi(argv[arg_idx++]);
-    }
-    for(int i = 0; i < num_dim_spatial; ++i)
-    {
-        conv_filter_strides[i] = std::stoi(argv[arg_idx++]);
-    }
-    for(int i = 0; i < num_dim_spatial; ++i)
-    {
-        conv_filter_dilations[i] = std::stoi(argv[arg_idx++]);
-    }
-    for(int i = 0; i < num_dim_spatial; ++i)
-    {
-        input_left_pads[i] = std::stoi(argv[arg_idx++]);
-    }
-    for(int i = 0; i < num_dim_spatial; ++i)
-    {
-        input_right_pads[i] = std::stoi(argv[arg_idx++]);
-    }
-    return ck::utils::conv::ConvParam{num_dim_spatial,
-                                      N,
-                                      K,
-                                      C,
-                                      filter_spatial_lengths,
-                                      input_spatial_lengths,
-                                      conv_filter_strides,
-                                      conv_filter_dilations,
-                                      input_left_pads,
-                                      input_right_pads};
-}
-} // anonymous namespace
-int main(int argc, char* argv[])
-{
-    print_helper_msg();
-    bool do_verification = true;
-    int init_method      = 1;
-    bool time_kernel     = false;
-    int num_dim_spatial  = 2;
-    ck::utils::conv::ConvParam params{
-        2, 128, 256, 192, {3, 3}, {71, 71}, {2, 2}, {1, 1}, {1, 1}, {1, 1}};
-    if(argc == 1)
-    {
-        // use default
-    }
-    else if(argc == 4)
-    {
-        do_verification = std::stoi(argv[1]);
-        init_method     = std::stoi(argv[2]);
-        time_kernel     = std::stoi(argv[3]);
-    }
-    else
-    {
-        do_verification = std::stoi(argv[1]);
-        init_method     = std::stoi(argv[2]);
-        time_kernel     = std::stoi(argv[3]);
-        num_dim_spatial = std::stoi(argv[4]);
-        params = parse_conv_params(num_dim_spatial, 5, argv);
-    }
-    const auto in_element_op  = InElementOp{};
-    const auto wei_element_op = WeiElementOp{};
-    const auto out_element_op = OutElementOp{};
-    auto f_nhwc_host_tensor_descriptor =
-        [](ck::index_t n, ck::index_t c, std::vector<ck::index_t> spatial_lengths) {
-            std::vector<std::size_t> nhwc_lengths{static_cast<std::size_t>(n),
-                                                  static_cast<std::size_t>(c)};
-            nhwc_lengths.insert(
-                nhwc_lengths.begin() + 1, spatial_lengths.begin(), spatial_lengths.end());
-            return HostTensorDescriptor(nhwc_lengths);
-        };
-    Tensor<InDataType> in_n_hi_wi_c(
-        f_nhwc_host_tensor_descriptor(params.N_, params.C_, params.input_spatial_lengths_));
-    Tensor<WeiDataType> wei_k_y_x_c(
-        f_nhwc_host_tensor_descriptor(params.K_, params.C_, params.filter_spatial_lengths_));
-    // bias: assume contiguous 1d vector
-    Tensor<OutDataType> bias_k(
-        HostTensorDescriptor(std::vector<std::size_t>({static_cast<std::size_t>(params.K_)})));
-    // resi: assume same layout as output tensor
-    Tensor<OutDataType> resi_n_ho_wo_k(
-        f_nhwc_host_tensor_descriptor(params.N_, params.K_, params.GetOutputSpatialLengths()));
-    Tensor<OutDataType> out_n_ho_wo_k_host(
-        f_nhwc_host_tensor_descriptor(params.N_, params.K_, params.GetOutputSpatialLengths()));
-    Tensor<OutDataType> out_n_ho_wo_k_device(
-        f_nhwc_host_tensor_descriptor(params.N_, params.K_, params.GetOutputSpatialLengths()));
-    std::cout << "in_n_hi_wi_c: " << in_n_hi_wi_c.mDesc << std::endl;
-    std::cout << "wei_k_y_x_c: " << wei_k_y_x_c.mDesc << std::endl;
-    std::cout << "bias_k: " << bias_k.mDesc << std::endl;
-    std::cout << "resi_n_ho_wo_k: " << resi_n_ho_wo_k.mDesc << std::endl;
-    std::cout << "out_n_ho_wo_k: " << out_n_ho_wo_k_host.mDesc << std::endl;
-    switch(init_method)
-    {
-    case 0: break;
-    case 1:
-        in_n_hi_wi_c.GenerateTensorValue(GeneratorTensor_2<InDataType>{-5, 5});
-        wei_k_y_x_c.GenerateTensorValue(GeneratorTensor_2<WeiDataType>{-5, 5});
-        bias_k.GenerateTensorValue(GeneratorTensor_2<OutDataType>{-5, 5});
-        resi_n_ho_wo_k.GenerateTensorValue(GeneratorTensor_2<OutDataType>{-5, 5});
-        break;
-    default:
-        in_n_hi_wi_c.GenerateTensorValue(GeneratorTensor_3<InDataType>{0.0, 1.0});
-        wei_k_y_x_c.GenerateTensorValue(GeneratorTensor_3<WeiDataType>{-0.5, 0.5});
-        bias_k.GenerateTensorValue(GeneratorTensor_3<OutDataType>{0.0, 1.0});
-        resi_n_ho_wo_k.GenerateTensorValue(GeneratorTensor_3<OutDataType>{0.0, 1.0});
-    }
-    DeviceMem in_device_buf(sizeof(InDataType) * in_n_hi_wi_c.mDesc.GetElementSpaceSize());
-    DeviceMem wei_device_buf(sizeof(WeiDataType) * wei_k_y_x_c.mDesc.GetElementSpaceSize());
-    DeviceMem bias_device_buf(sizeof(OutDataType) * bias_k.mDesc.GetElementSpaceSize());
-    DeviceMem resi_device_buf(sizeof(OutDataType) * resi_n_ho_wo_k.mDesc.GetElementSpaceSize());
-    DeviceMem out_device_buf(sizeof(OutDataType) *
-                             out_n_ho_wo_k_device.mDesc.GetElementSpaceSize());
-    in_device_buf.ToDevice(in_n_hi_wi_c.mData.data());
-    wei_device_buf.ToDevice(wei_k_y_x_c.mData.data());
-    bias_device_buf.ToDevice(bias_k.mData.data());
-    resi_device_buf.ToDevice(resi_n_ho_wo_k.mData.data());
-    auto conv    = DeviceConvFwdInstance{};
-    auto invoker = conv.MakeInvoker();
-    auto argument =
-        conv.MakeArgument(static_cast<const InDataType*>(in_device_buf.GetDeviceBuffer()),
-                          static_cast<const WeiDataType*>(wei_device_buf.GetDeviceBuffer()),
-                          static_cast<OutDataType*>(out_device_buf.GetDeviceBuffer()),
-                          static_cast<const OutDataType*>(bias_device_buf.GetDeviceBuffer()),
-                          static_cast<const OutDataType*>(resi_device_buf.GetDeviceBuffer()),
-                          params.N_,
-                          params.K_,
-                          params.C_,
-                          params.input_spatial_lengths_,
-                          params.filter_spatial_lengths_,
-                          params.output_spatial_lengths_,
-                          params.conv_filter_strides_,
-                          params.conv_filter_dilations_,
-                          params.input_left_pads_,
-                          params.input_right_pads_,
-                          in_element_op,
-                          wei_element_op,
-                          out_element_op);
-    if(!conv.IsSupportedArgument(argument))
-    {
-        throw std::runtime_error(
-            "wrong! device operator with the specified compilation parameters does "
-            "not support this problem");
-    }
-    float avg_time = invoker.Run(argument, StreamConfig{nullptr, time_kernel});
-    std::size_t flop      = params.GetFlops();
-    std::size_t num_btype = params.GetByte<InDataType, WeiDataType, OutDataType>();
-    float tflops     = static_cast<float>(flop) / 1.E9 / avg_time;
-    float gb_per_sec = num_btype / 1.E6 / avg_time;
-    std::cout << "Perf: " << avg_time << " ms, " << tflops << " TFlops, " << gb_per_sec << " GB/s, "
-              << conv.GetTypeString() << std::endl;
-    if(do_verification)
-    {
-        // use OutDataType for intermediate data
-        Tensor<OutDataType> tmp_n_ho_wo_k_host(
-            f_nhwc_host_tensor_descriptor(params.N_, params.K_, params.GetOutputSpatialLengths()));
-        auto ref_conv =
-            ck::tensor_operation::host::ReferenceConvFwd<2,
-                                                         ck::tensor_layout::convolution::NHWC,
-                                                         ck::tensor_layout::convolution::KYXC,
-                                                         ck::tensor_layout::convolution::NHWK,
-                                                         InDataType,
-                                                         WeiDataType,
-                                                         OutDataType,
-                                                         InElementOp,
-                                                         WeiElementOp,
-                                                         PassThrough>();
-        auto ref_invoker  = ref_conv.MakeInvoker();
-        auto ref_argument = ref_conv.MakeArgument(in_n_hi_wi_c,
-                                                  wei_k_y_x_c,
-                                                  tmp_n_ho_wo_k_host,
-                                                  params.conv_filter_strides_,
-                                                  params.conv_filter_dilations_,
-                                                  params.input_left_pads_,
-                                                  params.input_right_pads_,
-                                                  in_element_op,
-                                                  wei_element_op,
-                                                  PassThrough{});
-        ref_invoker.Run(ref_argument);
-        // FIXME: implement reference pointwise operation
-        for(int n = 0; n < params.N_; n++)
-        {
-            for(int ho = 0; ho < params.output_spatial_lengths_[0]; ho++)
-            {
-                for(int wo = 0; wo < params.output_spatial_lengths_[1]; wo++)
-                {
-                    for(int k = 0; k < params.K_; k++)
-                    {
-                        out_element_op(out_n_ho_wo_k_host(n, ho, wo, k),
-                                       tmp_n_ho_wo_k_host(n, ho, wo, k),
-                                       bias_k(k),
-                                       resi_n_ho_wo_k(n, ho, wo, k));
-                    }
-                }
-            }
-        }
-        out_device_buf.FromDevice(out_n_ho_wo_k_device.mData.data());
-        return ck::utils::check_err(out_n_ho_wo_k_host.mData,
-                                    out_n_ho_wo_k_device.mData,
-                                    "Error: incorrect results!",
-                                    1e-5f,
-                                    1e-4f)
-                   ? 0
-                   : 1;
-    }
-    return 0;
-}
--- a/example/28_group_convnd_fwd_bias_relu/CMakeLists.txt
+++ b/example/28_group_convnd_fwd_bias_relu/CMakeLists.txt
-add_example_executable(example_group_convnd_fwd_bias_relu_xdl_fp16 group_convnd_fwd_bias_relu_xdl_fp16.cpp)
+add_example_executable(example_grouped_convnd_fwd_bias_relu_xdl_fp16 grouped_convnd_fwd_bias_relu_xdl_fp16.cpp)
+target_link_libraries(example_grouped_convnd_fwd_bias_relu_xdl_fp16 PRIVATE utility)
--- a/example/28_group_convnd_fwd_bias_relu/README.md
+++ b/example/28_group_convnd_fwd_bias_relu/README.md
+```bash
+#arg1: verification (0=no, 1=yes)
+#arg2: initialization (0=no init, 1=integer value, 2=decimal value)
+#arg3: time kernel (0=no, 1=yes)
+#Following arguments (depending on number of spatial dims):
+# N spatial dimensions
+# G, N, K, C,
+# <filter spatial dimensions>, (ie Y, X for 2D)
+# <input image spatial dimensions>, (ie Hi, Wi for 2D)
+# <strides>, (ie Sy, Sx for 2D)
+# <dilations>, (ie Dy, Dx for 2D)
+# <left padding>, (ie LeftPy, LeftPx for 2D)
+# <right padding>, (ie RightPy, RightPx for 2D)
+bin/example_grouped_convnd_fwd_bias_relu_xdl_fp16 1 1 1
+```
+Result (MI100)
+```
+in: dim 5, lengths {1, 128, 192, 71, 71}, strides {6912, 967872, 1, 13632, 192}
+wei: dim 5, lengths {1, 256, 192, 3, 3}, strides {192, 1728, 1, 576, 192}
+bias: dim 5, lengths {1, 128, 256, 36, 36}, strides {256, 0, 1, 0, 0}
+out: dim 5, lengths {1, 128, 256, 36, 36}, strides {256, 331776, 1, 9216, 256}
+launch_and_time_kernel: grid_dim {1296, 1, 1}, block_dim {256, 1, 1}
+Warm up 1 time
+Start running 10 times...
+Perf: 1.19215 ms, 123.112 TFlops, 279.827 GB/s, DeviceGroupedConvFwdMultipleD_Xdl_CShuffle<256, 128, 256, 32, Default>
+```
--- a/example/28_group_convnd_fwd_bias_relu/group_convnd_fwd_bias_relu_xdl_fp16.cpp
+++ b/example/28_group_convnd_fwd_bias_relu/group_convnd_fwd_bias_relu_xdl_fp16.cpp
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
-#include "../09_convnd_fwd/convnd_fwd_common.hpp"
-#include "ck/tensor_operation/gpu/device/device_convnd_fwd_nwc_kxc_nwk_xdl.hpp"
-#include "ck/tensor_operation/gpu/device/device_convnd_fwd_multiple_d_nwc_kxc_nwk_xdl_cshuffle.hpp"
-using InDataType  = ck::half_t;
-using WeiDataType = ck::half_t;
-using OutDataType = ck::half_t;
-using AccDataType = float;
-template <ck::index_t... Is>
-using S = ck::Sequence<Is...>;
-using InElementOp  = ck::tensor_operation::element_wise::PassThrough;
-using WeiElementOp = ck::tensor_operation::element_wise::PassThrough;
-using OutElementOp = ck::tensor_operation::element_wise::UnaryConvert;
-using CShuffleDataType = ck::half_t;
-static constexpr auto ConvSpec =
-    ck::tensor_operation::device::ConvolutionForwardSpecialization::Default;
-static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKPadding;
-template <ck::index_t NDimSpatial>
-using DeviceConvNDFwdInstance =
-    ck::tensor_operation::device::DeviceConvNdFwdMultipleD_NwcKxcNwk_Xdl_CShuffle<
-        NDimSpatial,      //
-        InDataType,       //
-        WeiDataType,      //
-        AccDataType,      //
-        CShuffleDataType, //
-        ck::Tuple<>,      //
-        OutDataType,      //
-        InElementOp,      // Input Elementwise Operation
-        WeiElementOp,     // Weights Elementwise Operation
-        OutElementOp,     // Output Elementwise Operation
-        ConvSpec,         // ConvForwardSpecialization
-        GemmSpec,         // GemmSpecialization
-        1,                //
-        256,              // BlockSize
-        128,              // MPerBlock
-        256,              // NPerBlock
-        32,               // KPerBlock
-        8,                // K1
-        32,               // MPerXdl
-        32,               // NPerXdl
-        2,                // MXdlPerWave
-        4,                // NXdlPerWave
-        S<4, 64, 1>,      // ABlockTransferThreadClusterLengths_K0_M_K1
-        S<1, 0, 2>,       // ABlockTransferThreadClusterArrangeOrder
-        S<1, 0, 2>,       // ABlockTransferSrcAccessOrder
-        2,                // ABlockTransferSrcVectorDim
-        8,                // ABlockTransferSrcScalarPerVector
-        8,                // ABlockTransferDstScalarPerVector_K1
-        1,                // ABlockLdsExtraM
-        S<4, 64, 1>,      // BBlockTransferThreadClusterLengths_K0_N_K1
-        S<1, 0, 2>,       // BBlockTransferThreadClusterArrangeOrder
-        S<1, 0, 2>,       // BBlockTransferSrcAccessOrder
-        2,                // BBlockTransferSrcVectorDim
-        8,                // BBlockTransferSrcScalarPerVector
-        8,                // BBlockTransferDstScalarPerVector_K1
-        1,                // BBlockLdsExtraN
-        1,
-        1,
-        S<1, 32, 1, 8>,
-        8>;
-int main(int argc, char* argv[])
-{
-    print_helper_msg();
-    bool do_verification = true;
-    int init_method      = 1;
-    bool time_kernel     = false;
-    int num_dim_spatial  = 2;
-    ck::utils::conv::ConvParam params{
-        2, 128, 256, 192, {3, 3}, {71, 71}, {2, 2}, {1, 1}, {1, 1}, {1, 1}};
-    if(argc == 1)
-    {
-        // use default
-    }
-    else if(argc == 4)
-    {
-        do_verification = std::stoi(argv[1]);
-        init_method     = std::stoi(argv[2]);
-        time_kernel     = std::stoi(argv[3]);
-    }
-    else
-    {
-        do_verification = std::stoi(argv[1]);
-        init_method     = std::stoi(argv[2]);
-        time_kernel     = std::stoi(argv[3]);
-        num_dim_spatial = std::stoi(argv[4]);
-        params = parse_conv_params(num_dim_spatial, 5, argv);
-    }
-    const auto in_element_op  = InElementOp{};
-    const auto wei_element_op = WeiElementOp{};
-    const auto out_element_op = OutElementOp{};
-    if(num_dim_spatial == 1)
-    {
-        return run_conv_fwd<1,
-                            ck::tensor_layout::convolution::NWC,
-                            ck::tensor_layout::convolution::KXC,
-                            ck::tensor_layout::convolution::NWK,
-                            InDataType,
-                            WeiDataType,
-                            OutDataType,
-                            InElementOp,
-                            WeiElementOp,
-                            OutElementOp,
-                            DeviceConvNDFwdInstance<1>>(do_verification,
-                                                        init_method,
-                                                        time_kernel,
-                                                        params,
-                                                        in_element_op,
-                                                        wei_element_op,
-                                                        out_element_op);
-    }
-    else if(num_dim_spatial == 2)
-    {
-        return run_conv_fwd<2,
-                            ck::tensor_layout::convolution::NHWC,
-                            ck::tensor_layout::convolution::KYXC,
-                            ck::tensor_layout::convolution::NHWK,
-                            InDataType,
-                            WeiDataType,
-                            OutDataType,
-                            InElementOp,
-                            WeiElementOp,
-                            OutElementOp,
-                            DeviceConvNDFwdInstance<2>>(do_verification,
-                                                        init_method,
-                                                        time_kernel,
-                                                        params,
-                                                        in_element_op,
-                                                        wei_element_op,
-                                                        out_element_op);
-    }
-    else if(num_dim_spatial == 3)
-    {
-        return run_conv_fwd<3,
-                            ck::tensor_layout::convolution::NDHWC,
-                            ck::tensor_layout::convolution::KZYXC,
-                            ck::tensor_layout::convolution::NDHWK,
-                            InDataType,
-                            WeiDataType,
-                            OutDataType,
-                            InElementOp,
-                            WeiElementOp,
-                            OutElementOp,
-                            DeviceConvNDFwdInstance<3>>(do_verification,
-                                                        init_method,
-                                                        time_kernel,
-                                                        params,
-                                                        in_element_op,
-                                                        wei_element_op,
-                                                        out_element_op);
-    }
-    return 0;
-}
--- a/example/06_conv2d_fwd_bias_relu/convnd_fwd_bias_common.hpp
+++ b/example/06_conv2d_fwd_bias_relu/convnd_fwd_bias_common.hpp
@@ -23,8 +23,8 @@ void print_helper_msg()
    std::cout << "arg1: verification (0=no, 1=yes)\n"
              << "arg2: initialization (0=no init, 1=integer value, 2=decimal value)\n"
              << "arg3: time kernel (0=no, 1=yes)\n"
-              << "arg4: N spatial dimensions (default 2)\n"
              << "Following arguments (depending on number of spatial dims):\n"
+              << " N spatial dimensions (1=Conv1d, 2=Conv2d, 3=Conv3d)\n"
              << " G, N, K, C, \n"
              << " <filter spatial dimensions>, (ie Y, X for 2D)\n"
              << " <input image spatial dimensions>, (ie Hi, Wi for 2D)\n"
@@ -92,7 +92,6 @@ ck::utils::conv::ConvParam parse_conv_param(int num_dim_spatial, int arg_idx, ch
                                      input_right_pads};
 }
-// FIXME: current implementation only support NCHW/NHWC layout
 template <ck::index_t NDimSpatial,
          typename InDataType,
          typename WeiDataType,
@@ -101,17 +100,17 @@ template <ck::index_t NDimSpatial,
          typename WeiElementOp,
          typename OutElementOp,
          typename DeviceConvNDFwdInstance>
-int run_conv_fwd_bias(bool do_verification,
+int run_grouped_conv_fwd_bias(bool do_verification,
-                      int init_method,
+                              int init_method,
-                      bool time_kernel,
+                              bool time_kernel,
-                      const ck::utils::conv::ConvParam& conv_param,
+                              const ck::utils::conv::ConvParam& conv_param,
-                      const HostTensorDescriptor& in_g_n_c_wis_desc,
+                              const HostTensorDescriptor& in_g_n_c_wis_desc,
-                      const HostTensorDescriptor& wei_g_k_c_xs_desc,
+                              const HostTensorDescriptor& wei_g_k_c_xs_desc,
-                      const HostTensorDescriptor& bias_g_n_k_wos_desc,
+                              const HostTensorDescriptor& bias_g_n_k_wos_desc,
-                      const HostTensorDescriptor& out_g_n_k_wos_desc,
+                              const HostTensorDescriptor& out_g_n_k_wos_desc,
-                      const InElementOp& in_element_op,
+                              const InElementOp& in_element_op,
-                      const WeiElementOp& wei_element_op,
+                              const WeiElementOp& wei_element_op,
-                      const OutElementOp& out_element_op)
+                              const OutElementOp& out_element_op)
 {
    Tensor<InDataType> in(in_g_n_c_wis_desc);
    Tensor<WeiDataType> wei(wei_g_k_c_xs_desc);
@@ -175,7 +174,7 @@ int run_conv_fwd_bias(bool do_verification,
    copy(conv_param.input_left_pads_, input_left_pads);
    copy(conv_param.input_right_pads_, input_right_pads);
-    // do GEMM
+    // do Conv
    auto conv     = DeviceConvNDFwdInstance{};
    auto invoker  = conv.MakeInvoker();
    auto argument = conv.MakeArgument(

--- a/example/06_conv2d_fwd_bias_relu/convnd_fwd_bias_relu_xdl_fp16.cpp
+++ b/example/06_conv2d_fwd_bias_relu/convnd_fwd_bias_relu_xdl_fp16.cpp
 // SPDX-License-Identifier: MIT
 // Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
-#include "convnd_fwd_bias_common.hpp"
+#include "grouped_convnd_fwd_bias_common.hpp"
-#include "ck/tensor_operation/gpu/device/device_conv_fwd_multiple_d_xdl_cshuffle.hpp"
+#include "ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_d_xdl_cshuffle.hpp"
 using InDataType       = ck::half_t;
 using WeiDataType      = ck::half_t;
@@ -29,51 +29,52 @@ template <ck::index_t NDimSpatial,
          typename WeiLayout,
          typename BiasLayout,
          typename OutLayout>
-using DeviceConvNDFwdInstance = ck::tensor_operation::device::DeviceConvFwdMultipleD_Xdl_CShuffle<
+using DeviceGroupledConvNDFwdInstance =
-    NDimSpatial,
+    ck::tensor_operation::device::DeviceGroupedConvFwdMultipleD_Xdl_CShuffle<
-    InLayout,
+        NDimSpatial,
-    WeiLayout,
+        InLayout,
-    ck::Tuple<BiasLayout>,
+        WeiLayout,
-    OutLayout,
+        ck::Tuple<BiasLayout>,
-    InDataType,
+        OutLayout,
-    WeiDataType,
+        InDataType,
-    AccDataType,
+        WeiDataType,
-    CShuffleDataType,
+        AccDataType,
-    ck::Tuple<BiasDataType>,
+        CShuffleDataType,
-    OutDataType,
+        ck::Tuple<BiasDataType>,
-    InElementOp,
+        OutDataType,
-    WeiElementOp,
+        InElementOp,
-    OutElementOp,
+        WeiElementOp,
-    ConvSpec,    // ConvForwardSpecialization
+        OutElementOp,
-    GemmSpec,    // GemmSpecialization
+        ConvSpec,    // ConvForwardSpecialization
-    1,           //
+        GemmSpec,    // GemmSpecialization
-    256,         // BlockSize
+        1,           //
-    128,         // MPerBlock
+        256,         // BlockSize
-    256,         // NPerBlock
+        128,         // MPerBlock
-    32,          // KPerBlock
+        256,         // NPerBlock
-    8,           // K1
+        32,          // KPerBlock
-    32,          // MPerXdl
+        8,           // K1
-    32,          // NPerXdl
+        32,          // MPerXdl
-    2,           // MXdlPerWave
+        32,          // NPerXdl
-    4,           // NXdlPerWave
+        2,           // MXdlPerWave
-    S<4, 64, 1>, // ABlockTransferThreadClusterLengths_K0_M_K1
+        4,           // NXdlPerWave
-    S<1, 0, 2>,  // ABlockTransferThreadClusterArrangeOrder
+        S<4, 64, 1>, // ABlockTransferThreadClusterLengths_K0_M_K1
-    S<1, 0, 2>,  // ABlockTransferSrcAccessOrder
+        S<1, 0, 2>,  // ABlockTransferThreadClusterArrangeOrder
-    2,           // ABlockTransferSrcVectorDim
+        S<1, 0, 2>,  // ABlockTransferSrcAccessOrder
-    8,           // ABlockTransferSrcScalarPerVector
+        2,           // ABlockTransferSrcVectorDim
-    8,           // ABlockTransferDstScalarPerVector_K1
+        8,           // ABlockTransferSrcScalarPerVector
-    1,           // ABlockLdsExtraM
+        8,           // ABlockTransferDstScalarPerVector_K1
-    S<4, 64, 1>, // BBlockTransferThreadClusterLengths_K0_N_K1
+        1,           // ABlockLdsExtraM
-    S<1, 0, 2>,  // BBlockTransferThreadClusterArrangeOrder
+        S<4, 64, 1>, // BBlockTransferThreadClusterLengths_K0_N_K1
-    S<1, 0, 2>,  // BBlockTransferSrcAccessOrder
+        S<1, 0, 2>,  // BBlockTransferThreadClusterArrangeOrder
-    2,           // BBlockTransferSrcVectorDim
+        S<1, 0, 2>,  // BBlockTransferSrcAccessOrder
-    8,           // BBlockTransferSrcScalarPerVector
+        2,           // BBlockTransferSrcVectorDim
-    8,           // BBlockTransferDstScalarPerVector_K1
+        8,           // BBlockTransferSrcScalarPerVector
-    1,           // BBlockLdsExtraN
+        8,           // BBlockTransferDstScalarPerVector_K1
-    1,
+        1,           // BBlockLdsExtraN
-    1,
+        1,
-    S<1, 32, 1, 8>,
+        1,
-    8>;
+        S<1, 32, 1, 8>,
+        8>;
 int main(int argc, char* argv[])
 {
@@ -155,7 +156,7 @@ int main(int argc, char* argv[])
                conv_param.G_ * conv_param.K_                                          // wo
            });
-        return run_conv_fwd_bias<
+        return run_grouped_conv_fwd_bias<
            1,
            InDataType,
            WeiDataType,
@@ -163,7 +164,7 @@ int main(int argc, char* argv[])
            InElementOp,
            WeiElementOp,
            OutElementOp,
-            DeviceConvNDFwdInstance<1, InLayout, WeiLayout, BiasLayout, OutLayout>>(
+            DeviceGroupledConvNDFwdInstance<1, InLayout, WeiLayout, BiasLayout, OutLayout>>(
            do_verification,
            init_method,
            time_kernel,
@@ -242,7 +243,7 @@ int main(int argc, char* argv[])
                conv_param.G_ * conv_param.K_                                          // wo
            });
-        return run_conv_fwd_bias<
+        return run_grouped_conv_fwd_bias<
            2,
            InDataType,
            WeiDataType,
@@ -250,7 +251,7 @@ int main(int argc, char* argv[])
            InElementOp,
            WeiElementOp,
            OutElementOp,
-            DeviceConvNDFwdInstance<2, InLayout, WeiLayout, BiasLayout, OutLayout>>(
+            DeviceGroupledConvNDFwdInstance<2, InLayout, WeiLayout, BiasLayout, OutLayout>>(
            do_verification,
            init_method,
            time_kernel,
@@ -340,7 +341,7 @@ int main(int argc, char* argv[])
                conv_param.G_ * conv_param.K_                                          // wo
            });
-        return run_conv_fwd_bias<
+        return run_grouped_conv_fwd_bias<
            3,
            InDataType,
            WeiDataType,
@@ -348,7 +349,7 @@ int main(int argc, char* argv[])
            InElementOp,
            WeiElementOp,
            OutElementOp,
-            DeviceConvNDFwdInstance<3, InLayout, WeiLayout, BiasLayout, OutLayout>>(
+            DeviceGroupledConvNDFwdInstance<3, InLayout, WeiLayout, BiasLayout, OutLayout>>(
            do_verification,
            init_method,
            time_kernel,

--- a/example/CMakeLists.txt
+++ b/example/CMakeLists.txt
@@ -25,8 +25,6 @@ add_subdirectory(01_gemm)
 add_subdirectory(02_gemm_bilinear)
 add_subdirectory(03_gemm_bias_relu)
 add_subdirectory(04_gemm_add_add_fastgelu)
-add_subdirectory(06_conv2d_fwd_bias_relu)
-add_subdirectory(07_conv2d_fwd_bias_relu_add)
 add_subdirectory(09_convnd_fwd)
 add_subdirectory(12_reduce)
 add_subdirectory(13_pool2d_fwd)

--- a/include/ck/tensor_operation/gpu/device/device_conv_fwd_multiple_d.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_conv_fwd_multiple_d.hpp
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
-#pragma once
-#include <vector>
-#include "ck/tensor_operation/gpu/device/device_base.hpp"
-namespace ck {
-namespace tensor_operation {
-namespace device {
-// Convolution Forward:
-//   input : input image A[N, C, Hi, Wi],
-//   input : weight B[K, C, Y, X],
-//   input : D0[N, K, Ho, Wo], D1[N, K, Ho, Wo], ...
-//   output : output image E[N, K, Ho, Wo]
-//   C = a_op(A) * b_op(B)
-//   E = cde_op(C, D0, D1, ...)
-template <index_t NDimSpatial,
-          typename ALayout,
-          typename BLayout,
-          typename DsLayout,
-          typename ELayout,
-          typename ADataType,
-          typename BDataType,
-          typename DsDataType,
-          typename EDataType,
-          typename AElementwiseOperation,
-          typename BElementwiseOperation,
-          typename CDEElementwiseOperation>
-struct DeviceConvFwdMultipleD : public BaseOperator
-{
-    static constexpr index_t NumDTensor = DsDataType::Size();
-    virtual std::unique_ptr<BaseArgument> MakeArgumentPointer(
-        const void* p_a,
-        const void* p_b,
-        const std::array<const void*, NumDTensor>& p_ds,
-        void* p_e,
-        const std::array<index_t, NDimSpatial + 3>& a_g_n_c_wis_lengths,
-        const std::array<index_t, NDimSpatial + 3>& a_g_n_c_wis_strides,
-        const std::array<index_t, NDimSpatial + 3>& b_g_k_c_xs_lengths,
-        const std::array<index_t, NDimSpatial + 3>& b_g_k_c_xs_strides,
-        const std::array<std::array<index_t, NDimSpatial + 3>, NumDTensor>& ds_g_n_k_wos_lengths,
-        const std::array<std::array<index_t, NDimSpatial + 3>, NumDTensor>& ds_g_n_k_wos_strides,
-        const std::array<index_t, NDimSpatial + 3>& e_g_n_k_wos_lengths,
-        const std::array<index_t, NDimSpatial + 3>& e_g_n_k_wos_strides,
-        const std::array<index_t, NDimSpatial>& conv_filter_strides,
-        const std::array<index_t, NDimSpatial>& conv_filter_dilations,
-        const std::array<index_t, NDimSpatial>& input_left_pads,
-        const std::array<index_t, NDimSpatial>& input_right_pads,
-        const AElementwiseOperation& a_element_op,
-        const BElementwiseOperation& b_element_op,
-        const CDEElementwiseOperation& cde_element_op) = 0;
-    virtual std::unique_ptr<BaseInvoker> MakeInvokerPointer() = 0;
-};
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
--- a/include/ck/tensor_operation/gpu/device/device_conv_fwd_multiple_d_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_conv_fwd_multiple_d_xdl_cshuffle.hpp
--- a/include/ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_d.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_d.hpp
@@ -11,14 +11,14 @@ namespace ck {
 namespace tensor_operation {
 namespace device {
-// Grouped Convolution Forword
+// Convolution Forward:
-//   input : input image A[G, C, N, Hi, Wi],
+//   input : input image A[G, N, C, Hi, Wi],
 //   input : weight B[G, K, C, Y, X],
 //   input : D0[G, N, K, Ho, Wo], D1[G, N, K, Ho, Wo], ...
 //   output : output image E[G, N, K, Ho, Wo]
 //   C = a_op(A) * b_op(B)
 //   E = cde_op(C, D0, D1, ...)
-template <ck::index_t NDimSpatial,
+template <index_t NDimSpatial,
          typename ALayout,
          typename BLayout,
          typename DsLayout,
@@ -34,26 +34,26 @@ struct DeviceGroupedConvFwdMultipleD : public BaseOperator
 {
    static constexpr index_t NumDTensor = DsDataType::Size();
-    virtual std::unique_ptr<BaseArgument>
+    virtual std::unique_ptr<BaseArgument> MakeArgumentPointer(
-    MakeArgumentPointer(const void* p_a,
+        const void* p_a,
-                        const void* p_b,
+        const void* p_b,
-                        std::array<const void*, NumDTensor> p_ds,
+        const std::array<const void*, NumDTensor>& p_ds,
-                        void* p_e,
+        void* p_e,
-                        const std::vector<ck::index_t>& a_g_n_c_wis_lengths,
+        const std::array<index_t, NDimSpatial + 3>& a_g_n_c_wis_lengths,
-                        const std::vector<ck::index_t>& a_g_n_c_wis_strides,
+        const std::array<index_t, NDimSpatial + 3>& a_g_n_c_wis_strides,
-                        const std::vector<ck::index_t>& b_g_k_c_xs_lengths,
+        const std::array<index_t, NDimSpatial + 3>& b_g_k_c_xs_lengths,
-                        const std::vector<ck::index_t>& b_g_k_c_xs_strides,
+        const std::array<index_t, NDimSpatial + 3>& b_g_k_c_xs_strides,
-                        std::array<std::vector<ck::index_t>, NumDTensor> ds_g_n_k_wos_lengths;
+        const std::array<std::array<index_t, NDimSpatial + 3>, NumDTensor>& ds_g_n_k_wos_lengths,
-                        std::array<std::vector<ck::index_t>, NumDTensor> ds_g_n_k_wos_strides;
+        const std::array<std::array<index_t, NDimSpatial + 3>, NumDTensor>& ds_g_n_k_wos_strides,
-                        const std::vector<ck::index_t>& e_g_n_k_wos_lengths,
+        const std::array<index_t, NDimSpatial + 3>& e_g_n_k_wos_lengths,
-                        const std::vector<ck::index_t>& e_g_n_k_wos_strides,
+        const std::array<index_t, NDimSpatial + 3>& e_g_n_k_wos_strides,
-                        const std::vector<ck::index_t>& conv_filter_strides,
+        const std::array<index_t, NDimSpatial>& conv_filter_strides,
-                        const std::vector<ck::index_t>& conv_filter_dilations,
+        const std::array<index_t, NDimSpatial>& conv_filter_dilations,
-                        const std::vector<ck::index_t>& input_left_pads,
+        const std::array<index_t, NDimSpatial>& input_left_pads,
-                        const std::vector<ck::index_t>& input_right_pads,
+        const std::array<index_t, NDimSpatial>& input_right_pads,
-                        const AElementwiseOperation& a_element_op,
+        const AElementwiseOperation& a_element_op,
-                        const BElementwiseOperation& b_element_op,
+        const BElementwiseOperation& b_element_op,
-                        const CDEElementwiseOperation& cde_element_op) = 0;
+        const CDEElementwiseOperation& cde_element_op) = 0;
    virtual std::unique_ptr<BaseInvoker> MakeInvokerPointer() = 0;
 };

--- a/include/ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_d_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_grouped_conv_fwd_multiple_d_xdl_cshuffle.hpp