Merge remote-tracking branch 'origin/develop' into batched_gemm_c_permute

0b11569f · Chao Liu · e8d3a0fb · fa9a0a5c · e8d3a0fb · 0b11569f
Commit 0b11569f authored Jul 01, 2022 by Chao Liu
20 changed files
--- a/test/batched_gemm/batched_gemm_util.hpp
+++ b/test/batched_gemm/batched_gemm_util.hpp
-#ifndef BATCHED_GEMM_UTILS_HPP
-#define BATCHED_GEMM_UTILS_HPP
-
-#include "config.hpp"
-#include "device.hpp"
-#include "host_tensor.hpp"
-
-namespace ck {
-namespace batched_gemm_util {
-
-struct GemmParams
-{
-    GemmParams()
-        : M(1024), N(1024), K(1024), StrideA(1024), StrideB(1024), StrideC(1024), alpha(1), beta(0)
-    {
-    }
-
-    ck::index_t M;
-    ck::index_t N;
-    ck::index_t K;
-
-    ck::index_t StrideA;
-    ck::index_t StrideB;
-    ck::index_t StrideC;
-
-    float alpha;
-    float beta;
-};
-
-template <typename BatchedGemmInstance,
-          typename ADataType,
-          typename BDataType,
-          typename CDataType,
-          typename AElementwiseOperation,
-          typename BElementwiseOperation,
-          typename CElementwiseOperation>
-void RunHostBatchedGemm(const Tensor<ADataType>& A,
-                        const Tensor<BDataType>& B,
-                        Tensor<CDataType>& C,
-                        AElementwiseOperation a_element_op,
-                        BElementwiseOperation b_element_op,
-                        CElementwiseOperation c_element_op)
-{
-    auto ref_batched_gemm = BatchedGemmInstance{};
-    auto ref_invoker      = ref_batched_gemm.MakeInvoker();
-
-    auto ref_argument =
-        ref_batched_gemm.MakeArgument(A, B, C, a_element_op, b_element_op, c_element_op);
-
-    ref_invoker.Run(ref_argument);
-}
-
-template <typename DeviceGemmPtr,
-          typename ADataType,
-          typename BDataType,
-          typename CDataType,
-          typename AElementwiseOperation,
-          typename BElementwiseOperation,
-          typename CElementwiseOperation>
-void RunDeviceBatchedGemm(DeviceGemmPtr& batched_gemm_ptr,
-                          const ck::batched_gemm_util::GemmParams& params,
-                          const Tensor<ADataType>& A,
-                          const Tensor<BDataType>& B,
-                          Tensor<CDataType>& C,
-                          AElementwiseOperation a_element_op,
-                          BElementwiseOperation b_element_op,
-                          CElementwiseOperation c_element_op)
-{
-    DeviceMem a_g_m_k_device_buf(sizeof(ADataType) * A.mDesc.GetElementSpace());
-    DeviceMem b_g_k_n_device_buf(sizeof(BDataType) * B.mDesc.GetElementSpace());
-    DeviceMem c_g_m_n_device_buf(sizeof(CDataType) * C.mDesc.GetElementSpace());
-
-    a_g_m_k_device_buf.ToDevice(A.mData.data());
-    b_g_k_n_device_buf.ToDevice(B.mData.data());
-
-    const auto batch_count = A.mDesc.GetLengths()[0];
-    auto invoker_ptr       = batched_gemm_ptr->MakeInvokerPointer();
-    auto argument_ptr      = batched_gemm_ptr->MakeArgumentPointer(
-        static_cast<ADataType*>(a_g_m_k_device_buf.GetDeviceBuffer()),
-        static_cast<BDataType*>(b_g_k_n_device_buf.GetDeviceBuffer()),
-        static_cast<CDataType*>(c_g_m_n_device_buf.GetDeviceBuffer()),
-        params.M,
-        params.N,
-        params.K,
-        params.StrideA,
-        params.StrideB,
-        params.StrideC,
-        a_element_op,
-        b_element_op,
-        c_element_op,
-        batch_count);
-
-    if(!batched_gemm_ptr->IsSupportedArgument(argument_ptr.get()))
-    {
-        throw std::runtime_error(
-            "wrong! device_gemm with the specified compilation parameters does "
-            "not support this GEMM problem");
-    }
-
-    invoker_ptr->Run(argument_ptr.get());
-    c_g_m_n_device_buf.FromDevice(C.mData.data());
-}
-
-} // namespace batched_gemm_util
-} // namespace ck
-#endif
--- a/test/batched_gemm_reduce/batched_gemm_reduce_fp16.cpp
+++ b/test/batched_gemm_reduce/batched_gemm_reduce_fp16.cpp
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
 #include <iostream>

 #include "profiler/include/profile_batched_gemm_reduce_impl.hpp"

--- a/test/block_to_ctile_map/test_block_to_ctile_map.cpp
+++ b/test/block_to_ctile_map/test_block_to_ctile_map.cpp
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
 #include <iostream>
 #include <vector>
 #include <gtest/gtest.h>

--- a/test/conv2d_bwd_data/conv2d_bwd_data.cpp
+++ b/test/conv2d_bwd_data/conv2d_bwd_data.cpp
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
 #include "config.hpp"
 #include "device.hpp"
 #include "host_tensor.hpp"

--- a/test/conv2d_bwd_weight/conv2d_bwd_weight.cpp
+++ b/test/conv2d_bwd_weight/conv2d_bwd_weight.cpp
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
 #include <iostream>
 #include <numeric>
 #include <initializer_list>

--- a/test/conv_util/conv_util.cpp
+++ b/test/conv_util/conv_util.cpp
-#include <iostream>
-#include <string>
-#include <vector>
-#include <gtest/gtest.h>
-
-#include "ck/ck.hpp"
-#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-
-#include "ck/library/utility/check_err.hpp"
-#include "ck/library/utility/conv_util.hpp"
-
-namespace {
-
-class TestConvUtil : public ::testing::Test
-{
-    public:
-    void SetNDParams(std::size_t ndims)
-    {
-        conv_params.num_dim_spatial_        = ndims;
-        conv_params.filter_spatial_lengths_ = std::vector<ck::index_t>(ndims, 3);
-        conv_params.input_spatial_lengths_  = std::vector<ck::index_t>(ndims, 71);
-        conv_params.conv_filter_strides_    = std::vector<ck::index_t>(ndims, 2);
-        conv_params.conv_filter_dilations_  = std::vector<ck::index_t>(ndims, 1);
-        conv_params.input_left_pads_        = std::vector<ck::index_t>(ndims, 1);
-        conv_params.input_right_pads_       = std::vector<ck::index_t>(ndims, 1);
-    }
-
-    protected:
-    // -------  default 2D -------
-    // input NCHW {128,192,71,71},
-    // weights KCYX {256,192,3,3},
-    // stride {2,2},
-    // dilations {1,1},
-    // padding {{1,1}, {1,1}}
-    ck::utils::conv::ConvParams conv_params;
-};
-
-} // namespace
-
-TEST_F(TestConvUtil, ConvParamsGetOutputSpatialLengths2D)
-{
-    ck::utils::conv::ConvParams conv_params;
-    std::vector<ck::index_t> out_spatial_len = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(ck::utils::check_err(out_spatial_len,
-                                     std::vector<ck::index_t>{36, 36},
-                                     "Error: ConvParams 2D default constructor."));
-
-    conv_params.conv_filter_strides_ = std::vector<ck::index_t>{1, 1};
-    out_spatial_len                  = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(ck::utils::check_err(
-        out_spatial_len, std::vector<ck::index_t>{71, 71}, "Error: ConvParams 2D stride {1,1}."));
-
-    conv_params.conv_filter_strides_ = std::vector<ck::index_t>{2, 2};
-    conv_params.input_left_pads_     = std::vector<ck::index_t>{2, 2};
-    conv_params.input_right_pads_    = std::vector<ck::index_t>{2, 2};
-    out_spatial_len                  = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(ck::utils::check_err(out_spatial_len,
-                                     std::vector<ck::index_t>{37, 37},
-                                     "Error: ConvParams 2D padding left/right {2,2}."));
-
-    conv_params.conv_filter_dilations_ = std::vector<ck::index_t>{2, 2};
-    out_spatial_len                    = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(ck::utils::check_err(
-        out_spatial_len, std::vector<ck::index_t>{36, 36}, "Error: ConvParams 2D dilation {2,2}."));
-
-    conv_params.conv_filter_strides_   = std::vector<ck::index_t>{3, 3};
-    conv_params.input_left_pads_       = std::vector<ck::index_t>{1, 1};
-    conv_params.input_right_pads_      = std::vector<ck::index_t>{1, 1};
-    conv_params.conv_filter_dilations_ = std::vector<ck::index_t>{2, 2};
-    out_spatial_len                    = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(
-        ck::utils::check_err(out_spatial_len,
-                             std::vector<ck::index_t>{23, 23},
-                             "Error: ConvParams 2D strides{3,3}, padding {1,1}, dilations {2,2}."));
-}
-
-TEST_F(TestConvUtil, ConvParamsGetOutputSpatialLengths1D)
-{
-    SetNDParams(1);
-
-    std::vector<ck::index_t> out_spatial_len = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(ck::utils::check_err(
-        out_spatial_len, std::vector<ck::index_t>{36}, "Error: ConvParams 1D."));
-
-    conv_params.conv_filter_strides_ = std::vector<ck::index_t>{1};
-    out_spatial_len                  = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(ck::utils::check_err(
-        out_spatial_len, std::vector<ck::index_t>{71}, "Error: ConvParams 1D stride {1}."));
-
-    conv_params.conv_filter_strides_ = std::vector<ck::index_t>{2};
-    conv_params.input_left_pads_     = std::vector<ck::index_t>{2};
-    conv_params.input_right_pads_    = std::vector<ck::index_t>{2};
-    out_spatial_len                  = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(ck::utils::check_err(out_spatial_len,
-                                     std::vector<ck::index_t>{37},
-                                     "Error: ConvParams 1D padding left/right {2}."));
-
-    conv_params.conv_filter_dilations_ = std::vector<ck::index_t>{2};
-    out_spatial_len                    = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(ck::utils::check_err(
-        out_spatial_len, std::vector<ck::index_t>{36}, "Error: ConvParams 1D dilation {2}."));
-
-    conv_params.conv_filter_strides_   = std::vector<ck::index_t>{3};
-    conv_params.input_left_pads_       = std::vector<ck::index_t>{1};
-    conv_params.input_right_pads_      = std::vector<ck::index_t>{1};
-    conv_params.conv_filter_dilations_ = std::vector<ck::index_t>{2};
-    out_spatial_len                    = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(
-        ck::utils::check_err(out_spatial_len,
-                             std::vector<ck::index_t>{23},
-                             "Error: ConvParams 1D strides{3}, padding {1}, dilations {2}."));
-}
-
-TEST_F(TestConvUtil, ConvParamsGetOutputSpatialLengths3D)
-{
-    SetNDParams(3);
-
-    std::vector<ck::index_t> out_spatial_len = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(ck::utils::check_err(
-        out_spatial_len, std::vector<ck::index_t>{36, 36, 36}, "Error: ConvParams 3D."));
-
-    conv_params.conv_filter_strides_ = std::vector<ck::index_t>{1, 1, 1};
-    out_spatial_len                  = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(ck::utils::check_err(out_spatial_len,
-                                     std::vector<ck::index_t>{71, 71, 71},
-                                     "Error: ConvParams 3D stride {1, 1, 1}."));
-
-    conv_params.conv_filter_strides_ = std::vector<ck::index_t>{2, 2, 2};
-    conv_params.input_left_pads_     = std::vector<ck::index_t>{2, 2, 2};
-    conv_params.input_right_pads_    = std::vector<ck::index_t>{2, 2, 2};
-    out_spatial_len                  = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(ck::utils::check_err(out_spatial_len,
-                                     std::vector<ck::index_t>{37, 37, 37},
-                                     "Error: ConvParams 3D padding left/right {2, 2, 2}."));
-
-    conv_params.conv_filter_dilations_ = std::vector<ck::index_t>{2, 2, 2};
-    out_spatial_len                    = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(ck::utils::check_err(out_spatial_len,
-                                     std::vector<ck::index_t>{36, 36, 36},
-                                     "Error: ConvParams 3D dilation {2, 2, 2}."));
-
-    conv_params.conv_filter_strides_   = std::vector<ck::index_t>{3, 3, 3};
-    conv_params.input_left_pads_       = std::vector<ck::index_t>{1, 1, 1};
-    conv_params.input_right_pads_      = std::vector<ck::index_t>{1, 1, 1};
-    conv_params.conv_filter_dilations_ = std::vector<ck::index_t>{2, 2, 2};
-    out_spatial_len                    = conv_params.GetOutputSpatialLengths();
-    EXPECT_TRUE(ck::utils::check_err(
-        out_spatial_len,
-        std::vector<ck::index_t>{23, 23, 23},
-        "Error: ConvParams 3D strides{3, 3, 3}, padding {1, 1, 1}, dilations {2, 2, 2}."));
-}
-
-TEST(ConvUtil, GetHostTensorDescriptor)
-{
-    namespace tl = ck::tensor_layout::convolution;
-    std::vector<std::size_t> dims{2, 3, 4, 5};
-    HostTensorDescriptor h = ck::utils::conv::get_host_tensor_descriptor(dims, tl::NHWC{});
-    EXPECT_TRUE(ck::utils::check_err(
-        h.GetLengths(), {2, 3, 4, 5}, "Error: wrong NHWC dimensions lengths!"));
-    EXPECT_TRUE(ck::utils::check_err(
-        h.GetStrides(), {3 * 4 * 5, 1, 3 * 5, 3}, "Error: wrong NHWC dimensions strides!"));
-
-    h = ck::utils::conv::get_host_tensor_descriptor(dims, tl::NCHW{});
-    EXPECT_TRUE(ck::utils::check_err(
-        h.GetLengths(), {2, 3, 4, 5}, "Error: wrong NCHW dimensions lengths!"));
-    EXPECT_TRUE(ck::utils::check_err(
-        h.GetStrides(), {3 * 4 * 5, 4 * 5, 5, 1}, "Error: wrong NCHW dimensions strides!"));
-
-    dims = std::vector<std::size_t>{2, 3, 4};
-    h    = ck::utils::conv::get_host_tensor_descriptor(dims, tl::NWC{});
-    EXPECT_TRUE(
-        ck::utils::check_err(h.GetLengths(), {2, 3, 4}, "Error: wrong NWC dimensions lengths!"));
-    EXPECT_TRUE(ck::utils::check_err(
-        h.GetStrides(), {3 * 4, 1, 3}, "Error: wrong NWC dimensions strides!"));
-
-    h = ck::utils::conv::get_host_tensor_descriptor(dims, tl::NCW{});
-    EXPECT_TRUE(
-        ck::utils::check_err(h.GetLengths(), {2, 3, 4}, "Error: wrong NCW dimensions lengths!"));
-    EXPECT_TRUE(ck::utils::check_err(
-        h.GetStrides(), {3 * 4, 4, 1}, "Error: wrong NCW dimensions strides!"));
-
-    dims = std::vector<std::size_t>{2, 3, 4, 5, 6};
-    h    = ck::utils::conv::get_host_tensor_descriptor(dims, tl::NDHWC{});
-    EXPECT_TRUE(
-        ck::utils::check_err(h.GetLengths(), dims, "Error: wrong NDHWC dimensions lengths!"));
-    EXPECT_TRUE(ck::utils::check_err(h.GetStrides(),
-                                     {3 * 4 * 5 * 6, // N
-                                      1,             // C
-                                      3 * 5 * 6,     // D
-                                      3 * 6,         // H
-                                      3},            // W
-                                     "Error: wrong NDHWC dimensions strides!"));
-
-    h = ck::utils::conv::get_host_tensor_descriptor(dims, tl::NCDHW{});
-    EXPECT_TRUE(
-        ck::utils::check_err(h.GetLengths(), dims, "Error: wrong NCDHW dimensions lengths!"));
-    EXPECT_TRUE(ck::utils::check_err(h.GetStrides(),
-                                     {3 * 4 * 5 * 6, // N
-                                      4 * 5 * 6,     // C
-                                      5 * 6,         // D
-                                      6,             // H
-                                      1},            // W
-                                     "Error: wrong NCDHW dimensions strides!"));
-}
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
+#include <iostream>
+#include <string>
+#include <vector>
+#include <gtest/gtest.h>
+
+#include "ck/ck.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
+
+#include "ck/library/utility/check_err.hpp"
+#include "ck/library/utility/conv_util.hpp"
+
+namespace {
+
+class TestConvUtil : public ::testing::Test
+{
+    public:
+    void SetNDParams(std::size_t ndims)
+    {
+        conv_params.num_dim_spatial_        = ndims;
+        conv_params.filter_spatial_lengths_ = std::vector<ck::index_t>(ndims, 3);
+        conv_params.input_spatial_lengths_  = std::vector<ck::index_t>(ndims, 71);
+        conv_params.conv_filter_strides_    = std::vector<ck::index_t>(ndims, 2);
+        conv_params.conv_filter_dilations_  = std::vector<ck::index_t>(ndims, 1);
+        conv_params.input_left_pads_        = std::vector<ck::index_t>(ndims, 1);
+        conv_params.input_right_pads_       = std::vector<ck::index_t>(ndims, 1);
+    }
+
+    protected:
+    // -------  default 2D -------
+    // input NCHW {128,192,71,71},
+    // weights KCYX {256,192,3,3},
+    // stride {2,2},
+    // dilations {1,1},
+    // padding {{1,1}, {1,1}}
+    ck::utils::conv::ConvParams conv_params;
+};
+
+} // namespace
+
+TEST_F(TestConvUtil, ConvParamsGetOutputSpatialLengths2D)
+{
+    ck::utils::conv::ConvParams conv_params;
+    std::vector<ck::index_t> out_spatial_len = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(ck::utils::check_err(out_spatial_len,
+                                     std::vector<ck::index_t>{36, 36},
+                                     "Error: ConvParams 2D default constructor."));
+
+    conv_params.conv_filter_strides_ = std::vector<ck::index_t>{1, 1};
+    out_spatial_len                  = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(ck::utils::check_err(
+        out_spatial_len, std::vector<ck::index_t>{71, 71}, "Error: ConvParams 2D stride {1,1}."));
+
+    conv_params.conv_filter_strides_ = std::vector<ck::index_t>{2, 2};
+    conv_params.input_left_pads_     = std::vector<ck::index_t>{2, 2};
+    conv_params.input_right_pads_    = std::vector<ck::index_t>{2, 2};
+    out_spatial_len                  = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(ck::utils::check_err(out_spatial_len,
+                                     std::vector<ck::index_t>{37, 37},
+                                     "Error: ConvParams 2D padding left/right {2,2}."));
+
+    conv_params.conv_filter_dilations_ = std::vector<ck::index_t>{2, 2};
+    out_spatial_len                    = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(ck::utils::check_err(
+        out_spatial_len, std::vector<ck::index_t>{36, 36}, "Error: ConvParams 2D dilation {2,2}."));
+
+    conv_params.conv_filter_strides_   = std::vector<ck::index_t>{3, 3};
+    conv_params.input_left_pads_       = std::vector<ck::index_t>{1, 1};
+    conv_params.input_right_pads_      = std::vector<ck::index_t>{1, 1};
+    conv_params.conv_filter_dilations_ = std::vector<ck::index_t>{2, 2};
+    out_spatial_len                    = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(
+        ck::utils::check_err(out_spatial_len,
+                             std::vector<ck::index_t>{23, 23},
+                             "Error: ConvParams 2D strides{3,3}, padding {1,1}, dilations {2,2}."));
+}
+
+TEST_F(TestConvUtil, ConvParamsGetOutputSpatialLengths1D)
+{
+    SetNDParams(1);
+
+    std::vector<ck::index_t> out_spatial_len = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(ck::utils::check_err(
+        out_spatial_len, std::vector<ck::index_t>{36}, "Error: ConvParams 1D."));
+
+    conv_params.conv_filter_strides_ = std::vector<ck::index_t>{1};
+    out_spatial_len                  = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(ck::utils::check_err(
+        out_spatial_len, std::vector<ck::index_t>{71}, "Error: ConvParams 1D stride {1}."));
+
+    conv_params.conv_filter_strides_ = std::vector<ck::index_t>{2};
+    conv_params.input_left_pads_     = std::vector<ck::index_t>{2};
+    conv_params.input_right_pads_    = std::vector<ck::index_t>{2};
+    out_spatial_len                  = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(ck::utils::check_err(out_spatial_len,
+                                     std::vector<ck::index_t>{37},
+                                     "Error: ConvParams 1D padding left/right {2}."));
+
+    conv_params.conv_filter_dilations_ = std::vector<ck::index_t>{2};
+    out_spatial_len                    = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(ck::utils::check_err(
+        out_spatial_len, std::vector<ck::index_t>{36}, "Error: ConvParams 1D dilation {2}."));
+
+    conv_params.conv_filter_strides_   = std::vector<ck::index_t>{3};
+    conv_params.input_left_pads_       = std::vector<ck::index_t>{1};
+    conv_params.input_right_pads_      = std::vector<ck::index_t>{1};
+    conv_params.conv_filter_dilations_ = std::vector<ck::index_t>{2};
+    out_spatial_len                    = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(
+        ck::utils::check_err(out_spatial_len,
+                             std::vector<ck::index_t>{23},
+                             "Error: ConvParams 1D strides{3}, padding {1}, dilations {2}."));
+}
+
+TEST_F(TestConvUtil, ConvParamsGetOutputSpatialLengths3D)
+{
+    SetNDParams(3);
+
+    std::vector<ck::index_t> out_spatial_len = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(ck::utils::check_err(
+        out_spatial_len, std::vector<ck::index_t>{36, 36, 36}, "Error: ConvParams 3D."));
+
+    conv_params.conv_filter_strides_ = std::vector<ck::index_t>{1, 1, 1};
+    out_spatial_len                  = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(ck::utils::check_err(out_spatial_len,
+                                     std::vector<ck::index_t>{71, 71, 71},
+                                     "Error: ConvParams 3D stride {1, 1, 1}."));
+
+    conv_params.conv_filter_strides_ = std::vector<ck::index_t>{2, 2, 2};
+    conv_params.input_left_pads_     = std::vector<ck::index_t>{2, 2, 2};
+    conv_params.input_right_pads_    = std::vector<ck::index_t>{2, 2, 2};
+    out_spatial_len                  = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(ck::utils::check_err(out_spatial_len,
+                                     std::vector<ck::index_t>{37, 37, 37},
+                                     "Error: ConvParams 3D padding left/right {2, 2, 2}."));
+
+    conv_params.conv_filter_dilations_ = std::vector<ck::index_t>{2, 2, 2};
+    out_spatial_len                    = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(ck::utils::check_err(out_spatial_len,
+                                     std::vector<ck::index_t>{36, 36, 36},
+                                     "Error: ConvParams 3D dilation {2, 2, 2}."));
+
+    conv_params.conv_filter_strides_   = std::vector<ck::index_t>{3, 3, 3};
+    conv_params.input_left_pads_       = std::vector<ck::index_t>{1, 1, 1};
+    conv_params.input_right_pads_      = std::vector<ck::index_t>{1, 1, 1};
+    conv_params.conv_filter_dilations_ = std::vector<ck::index_t>{2, 2, 2};
+    out_spatial_len                    = conv_params.GetOutputSpatialLengths();
+    EXPECT_TRUE(ck::utils::check_err(
+        out_spatial_len,
+        std::vector<ck::index_t>{23, 23, 23},
+        "Error: ConvParams 3D strides{3, 3, 3}, padding {1, 1, 1}, dilations {2, 2, 2}."));
+}
+
+TEST(ConvUtil, GetHostTensorDescriptor)
+{
+    namespace tl = ck::tensor_layout::convolution;
+    std::vector<std::size_t> dims{2, 3, 4, 5};
+    HostTensorDescriptor h = ck::utils::conv::get_host_tensor_descriptor(dims, tl::NHWC{});
+    EXPECT_TRUE(ck::utils::check_err(
+        h.GetLengths(), {2, 3, 4, 5}, "Error: wrong NHWC dimensions lengths!"));
+    EXPECT_TRUE(ck::utils::check_err(
+        h.GetStrides(), {3 * 4 * 5, 1, 3 * 5, 3}, "Error: wrong NHWC dimensions strides!"));
+
+    h = ck::utils::conv::get_host_tensor_descriptor(dims, tl::NCHW{});
+    EXPECT_TRUE(ck::utils::check_err(
+        h.GetLengths(), {2, 3, 4, 5}, "Error: wrong NCHW dimensions lengths!"));
+    EXPECT_TRUE(ck::utils::check_err(
+        h.GetStrides(), {3 * 4 * 5, 4 * 5, 5, 1}, "Error: wrong NCHW dimensions strides!"));
+
+    dims = std::vector<std::size_t>{2, 3, 4};
+    h    = ck::utils::conv::get_host_tensor_descriptor(dims, tl::NWC{});
+    EXPECT_TRUE(
+        ck::utils::check_err(h.GetLengths(), {2, 3, 4}, "Error: wrong NWC dimensions lengths!"));
+    EXPECT_TRUE(ck::utils::check_err(
+        h.GetStrides(), {3 * 4, 1, 3}, "Error: wrong NWC dimensions strides!"));
+
+    h = ck::utils::conv::get_host_tensor_descriptor(dims, tl::NCW{});
+    EXPECT_TRUE(
+        ck::utils::check_err(h.GetLengths(), {2, 3, 4}, "Error: wrong NCW dimensions lengths!"));
+    EXPECT_TRUE(ck::utils::check_err(
+        h.GetStrides(), {3 * 4, 4, 1}, "Error: wrong NCW dimensions strides!"));
+
+    dims = std::vector<std::size_t>{2, 3, 4, 5, 6};
+    h    = ck::utils::conv::get_host_tensor_descriptor(dims, tl::NDHWC{});
+    EXPECT_TRUE(
+        ck::utils::check_err(h.GetLengths(), dims, "Error: wrong NDHWC dimensions lengths!"));
+    EXPECT_TRUE(ck::utils::check_err(h.GetStrides(),
+                                     {3 * 4 * 5 * 6, // N
+                                      1,             // C
+                                      3 * 5 * 6,     // D
+                                      3 * 6,         // H
+                                      3},            // W
+                                     "Error: wrong NDHWC dimensions strides!"));
+
+    h = ck::utils::conv::get_host_tensor_descriptor(dims, tl::NCDHW{});
+    EXPECT_TRUE(
+        ck::utils::check_err(h.GetLengths(), dims, "Error: wrong NCDHW dimensions lengths!"));
+    EXPECT_TRUE(ck::utils::check_err(h.GetStrides(),
+                                     {3 * 4 * 5 * 6, // N
+                                      4 * 5 * 6,     // C
+                                      5 * 6,         // D
+                                      6,             // H
+                                      1},            // W
+                                     "Error: wrong NCDHW dimensions strides!"));
+}
--- a/test/convnd_bwd_data/convnd_bwd_data.cpp
+++ b/test/convnd_bwd_data/convnd_bwd_data.cpp
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
 #include <iostream>
 #include <numeric>
 #include <initializer_list>

--- a/test/convnd_fwd/conv1d_fwd.cpp
+++ b/test/convnd_fwd/conv1d_fwd.cpp
-#include <iostream>
-#include <tuple>
-#include <vector>
-#include <gtest/gtest.h>
-
-#include "ck/utility/data_type.hpp"
-#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-#include "ck/library/utility/conv_util.hpp"
-#include "test/convnd_fwd/conv_util.hpp"
-
-namespace {
-
-class Conv1dFwdNWCInstances : public ::testing::Test
-{
-    public:
-    template <typename T>
-    bool test_conv1d_nwc_instances(const std::vector<test::conv::DeviceConvFwdNoOpPtr>& conv_ptrs,
-                                   const ck::utils::conv::ConvParams& params)
-    {
-        using namespace std::placeholders;
-        using namespace ck::utils;
-        namespace ctl = ck::tensor_layout::convolution;
-
-        conv::ConvFwdOpInstance<T,
-                                T,
-                                T,
-                                ctl::NWC,
-                                ctl::KXC,
-                                ctl::NWK,
-                                ck::tensor_operation::element_wise::PassThrough,
-                                ck::tensor_operation::element_wise::PassThrough,
-                                ck::tensor_operation::element_wise::PassThrough,
-                                FillUniformDistributionIntegerValue<T>,
-                                FillUniformDistributionIntegerValue<T>>
-            conv_instance(params,
-                          true,
-                          FillUniformDistributionIntegerValue<T>{},
-                          FillUniformDistributionIntegerValue<T>{});
-        auto reference_conv_fwd_fun =
-            std::bind(conv::run_reference_convolution_forward<1, T, T, T>, params, _1, _2, _3);
-        OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
-        run_engine.SetAtol(atol_);
-        run_engine.SetRtol(rtol_);
-        return run_engine.Test(conv_ptrs);
-    }
-
-    template <typename T>
-    bool test_default()
-    {
-        return test_conv1d_nwc_instances<T>(
-            ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<1>(), params_default_);
-    }
-
-    template <typename T>
-    bool test_filter1x1_stride1_pad0()
-    {
-        return test_conv1d_nwc_instances<T>(
-            ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<1>(),
-            params_filter1x1_stride1_pad0_);
-    }
-
-    template <typename T>
-    bool test_filter1x1_pad0()
-    {
-        return test_conv1d_nwc_instances<T>(
-            ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<1>(),
-            params_filter1x1_pad0_);
-    }
-
-    static inline ck::utils::conv::ConvParams params_default_{
-        1, 4, 256, 64, {3}, {71}, {2}, {2}, {2}, {2}};
-    static inline ck::utils::conv::ConvParams params_filter1x1_stride1_pad0_{
-        1, 4, 256, 64, {1}, {28}, {1}, {1}, {0}, {0}};
-    static inline ck::utils::conv::ConvParams params_filter1x1_pad0_{
-        1, 4, 256, 64, {1}, {28}, {2}, {1}, {0}, {0}};
-
-    private:
-    double atol_{1e-5};
-    double rtol_{1e-4};
-};
-
-} // anonymous namespace
-
-TEST(Conv1DFwdNWC, IntegerValues)
-{
-    using namespace std::placeholders;
-    using namespace ck::utils;
-    namespace ctl = ck::tensor_layout::convolution;
-    using T       = float;
-
-    ck::utils::conv::ConvParams params{1, 4, 256, 64, {3}, {36}, {1}, {2}, {2}, {2}};
-
-    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
-    test::conv::get_test_convolution_fwd_instance<1, T, T, T, T>(conv_ptrs);
-    conv::ConvFwdOpInstance<T,
-                            T,
-                            T,
-                            ctl::NWC,
-                            ctl::KXC,
-                            ctl::NWK,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            FillUniformDistributionIntegerValue<T>,
-                            FillUniformDistributionIntegerValue<T>>
-        conv_instance(params,
-                      true,
-                      FillUniformDistributionIntegerValue<T>{},
-                      FillUniformDistributionIntegerValue<T>{});
-
-    auto reference_conv_fwd_fun =
-        std::bind(conv::run_reference_convolution_forward<1, T, T, T>, params, _1, _2, _3);
-    OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
-    run_engine.SetAtol(1e-5);
-    run_engine.SetRtol(1e-4);
-    EXPECT_TRUE(run_engine.Test(conv_ptrs));
-}
-
-TEST(Conv1DFwdNWC, FloatingPointValues)
-{
-    using namespace std::placeholders;
-    using namespace ck::utils;
-    namespace ctl = ck::tensor_layout::convolution;
-    using T       = ck::half_t;
-
-    ck::utils::conv::ConvParams params{1, 4, 256, 64, {3}, {36}, {1}, {2}, {2}, {2}};
-
-    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
-    test::conv::get_test_convolution_fwd_instance<1, T, T, T, float>(conv_ptrs);
-    conv::ConvFwdOpInstance<T,
-                            T,
-                            T,
-                            ctl::NWC,
-                            ctl::KXC,
-                            ctl::NWK,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            FillUniformDistribution<T>,
-                            FillUniformDistribution<T>>
-        conv_instance(params, true, FillUniformDistribution<T>{}, FillUniformDistribution<T>{});
-
-    auto reference_conv_fwd_fun =
-        std::bind(conv::run_reference_convolution_forward<1, T, T, T>, params, _1, _2, _3);
-    OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
-    run_engine.SetAtol(0.1);
-    run_engine.SetRtol(1e-2);
-    EXPECT_TRUE(run_engine.Test(conv_ptrs));
-}
-
-TEST_F(Conv1dFwdNWCInstances, BF16_default) { EXPECT_TRUE(this->test_default<ck::bhalf_t>()); }
-TEST_F(Conv1dFwdNWCInstances, BF16_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::bhalf_t>());
-}
-TEST_F(Conv1dFwdNWCInstances, BF16_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<ck::bhalf_t>());
-}
-
-TEST_F(Conv1dFwdNWCInstances, F16_default) { EXPECT_TRUE(this->test_default<ck::half_t>()); }
-TEST_F(Conv1dFwdNWCInstances, F16_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::half_t>());
-}
-TEST_F(Conv1dFwdNWCInstances, F16_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<ck::half_t>());
-}
-
-TEST_F(Conv1dFwdNWCInstances, F32_default) { EXPECT_TRUE(this->test_default<float>()); }
-TEST_F(Conv1dFwdNWCInstances, F32_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<float>());
-}
-TEST_F(Conv1dFwdNWCInstances, F32_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<float>());
-}
-
-TEST_F(Conv1dFwdNWCInstances, I8_default) { EXPECT_TRUE(this->test_default<int8_t>()); }
-TEST_F(Conv1dFwdNWCInstances, I8_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<int8_t>());
-}
-TEST_F(Conv1dFwdNWCInstances, I8_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<int8_t>());
-}
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
+#include <iostream>
+#include <tuple>
+#include <vector>
+#include <gtest/gtest.h>
+
+#include "ck/utility/data_type.hpp"
+#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
+#include "ck/library/utility/conv_util.hpp"
+#include "test/convnd_fwd/conv_util.hpp"
+
+namespace {
+
+class Conv1dFwdNWCInstances : public ::testing::Test
+{
+    public:
+    template <typename T>
+    bool test_conv1d_nwc_instances(const std::vector<test::conv::DeviceConvFwdNoOpPtr>& conv_ptrs,
+                                   const ck::utils::conv::ConvParams& params)
+    {
+        using namespace std::placeholders;
+        using namespace ck::utils;
+        namespace ctl = ck::tensor_layout::convolution;
+
+        conv::ConvFwdOpInstance<T,
+                                T,
+                                T,
+                                ctl::NWC,
+                                ctl::KXC,
+                                ctl::NWK,
+                                ck::tensor_operation::element_wise::PassThrough,
+                                ck::tensor_operation::element_wise::PassThrough,
+                                ck::tensor_operation::element_wise::PassThrough,
+                                FillUniformDistributionIntegerValue<T>,
+                                FillUniformDistributionIntegerValue<T>>
+            conv_instance(params,
+                          true,
+                          FillUniformDistributionIntegerValue<T>{},
+                          FillUniformDistributionIntegerValue<T>{});
+        auto reference_conv_fwd_fun =
+            std::bind(conv::run_reference_convolution_forward<1, T, T, T>, params, _1, _2, _3);
+        OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
+        run_engine.SetAtol(atol_);
+        run_engine.SetRtol(rtol_);
+        return run_engine.Test(conv_ptrs);
+    }
+
+    template <typename T>
+    bool test_default()
+    {
+        return test_conv1d_nwc_instances<T>(
+            ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<1>(), params_default_);
+    }
+
+    template <typename T>
+    bool test_filter1x1_stride1_pad0()
+    {
+        return test_conv1d_nwc_instances<T>(
+            ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<1>(),
+            params_filter1x1_stride1_pad0_);
+    }
+
+    template <typename T>
+    bool test_filter1x1_pad0()
+    {
+        return test_conv1d_nwc_instances<T>(
+            ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<1>(),
+            params_filter1x1_pad0_);
+    }
+
+    static inline ck::utils::conv::ConvParams params_default_{
+        1, 4, 256, 64, {3}, {71}, {2}, {2}, {2}, {2}};
+    static inline ck::utils::conv::ConvParams params_filter1x1_stride1_pad0_{
+        1, 4, 256, 64, {1}, {28}, {1}, {1}, {0}, {0}};
+    static inline ck::utils::conv::ConvParams params_filter1x1_pad0_{
+        1, 4, 256, 64, {1}, {28}, {2}, {1}, {0}, {0}};
+
+    private:
+    double atol_{1e-5};
+    double rtol_{1e-4};
+};
+
+} // anonymous namespace
+
+TEST(Conv1DFwdNWC, IntegerValues)
+{
+    using namespace std::placeholders;
+    using namespace ck::utils;
+    namespace ctl = ck::tensor_layout::convolution;
+    using T       = float;
+
+    ck::utils::conv::ConvParams params{1, 4, 256, 64, {3}, {36}, {1}, {2}, {2}, {2}};
+
+    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
+    test::conv::get_test_convolution_fwd_instance<1, T, T, T, T>(conv_ptrs);
+    conv::ConvFwdOpInstance<T,
+                            T,
+                            T,
+                            ctl::NWC,
+                            ctl::KXC,
+                            ctl::NWK,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            FillUniformDistributionIntegerValue<T>,
+                            FillUniformDistributionIntegerValue<T>>
+        conv_instance(params,
+                      true,
+                      FillUniformDistributionIntegerValue<T>{},
+                      FillUniformDistributionIntegerValue<T>{});
+
+    auto reference_conv_fwd_fun =
+        std::bind(conv::run_reference_convolution_forward<1, T, T, T>, params, _1, _2, _3);
+    OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
+    run_engine.SetAtol(1e-5);
+    run_engine.SetRtol(1e-4);
+    EXPECT_TRUE(run_engine.Test(conv_ptrs));
+}
+
+TEST(Conv1DFwdNWC, FloatingPointValues)
+{
+    using namespace std::placeholders;
+    using namespace ck::utils;
+    namespace ctl = ck::tensor_layout::convolution;
+    using T       = ck::half_t;
+
+    ck::utils::conv::ConvParams params{1, 4, 256, 64, {3}, {36}, {1}, {2}, {2}, {2}};
+
+    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
+    test::conv::get_test_convolution_fwd_instance<1, T, T, T, float>(conv_ptrs);
+    conv::ConvFwdOpInstance<T,
+                            T,
+                            T,
+                            ctl::NWC,
+                            ctl::KXC,
+                            ctl::NWK,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            FillUniformDistribution<T>,
+                            FillUniformDistribution<T>>
+        conv_instance(params, true, FillUniformDistribution<T>{}, FillUniformDistribution<T>{});
+
+    auto reference_conv_fwd_fun =
+        std::bind(conv::run_reference_convolution_forward<1, T, T, T>, params, _1, _2, _3);
+    OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
+    run_engine.SetAtol(0.1);
+    run_engine.SetRtol(1e-2);
+    EXPECT_TRUE(run_engine.Test(conv_ptrs));
+}
+
+TEST_F(Conv1dFwdNWCInstances, BF16_default) { EXPECT_TRUE(this->test_default<ck::bhalf_t>()); }
+TEST_F(Conv1dFwdNWCInstances, BF16_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::bhalf_t>());
+}
+TEST_F(Conv1dFwdNWCInstances, BF16_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<ck::bhalf_t>());
+}
+
+TEST_F(Conv1dFwdNWCInstances, F16_default) { EXPECT_TRUE(this->test_default<ck::half_t>()); }
+TEST_F(Conv1dFwdNWCInstances, F16_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::half_t>());
+}
+TEST_F(Conv1dFwdNWCInstances, F16_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<ck::half_t>());
+}
+
+TEST_F(Conv1dFwdNWCInstances, F32_default) { EXPECT_TRUE(this->test_default<float>()); }
+TEST_F(Conv1dFwdNWCInstances, F32_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<float>());
+}
+TEST_F(Conv1dFwdNWCInstances, F32_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<float>());
+}
+
+TEST_F(Conv1dFwdNWCInstances, I8_default) { EXPECT_TRUE(this->test_default<int8_t>()); }
+TEST_F(Conv1dFwdNWCInstances, I8_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<int8_t>());
+}
+TEST_F(Conv1dFwdNWCInstances, I8_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<int8_t>());
+}
--- a/test/convnd_fwd/conv2d_fwd.cpp
+++ b/test/convnd_fwd/conv2d_fwd.cpp
-#include <tuple>
-#include <vector>
-#include <gtest/gtest.h>
-
-#include "ck/utility/data_type.hpp"
-#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-#include "ck/library/utility/conv_util.hpp"
-#include "test/convnd_fwd/conv_util.hpp"
-
-namespace {
-
-class Conv2dFwdNHWCInstances : public ::testing::Test
-{
-    public:
-    template <typename T>
-    bool test_conv2d_nhwc_instances(const std::vector<test::conv::DeviceConvFwdNoOpPtr>& conv_ptrs,
-                                    const ck::utils::conv::ConvParams& params)
-    {
-        using namespace std::placeholders;
-        using namespace ck::utils;
-
-        conv::ConvFwdOpInstance<T,
-                                T,
-                                T,
-                                ck::tensor_layout::convolution::NHWC,
-                                ck::tensor_layout::convolution::KYXC,
-                                ck::tensor_layout::convolution::NHWK,
-                                ck::tensor_operation::element_wise::PassThrough,
-                                ck::tensor_operation::element_wise::PassThrough,
-                                ck::tensor_operation::element_wise::PassThrough,
-                                FillUniformDistributionIntegerValue<T>,
-                                FillUniformDistributionIntegerValue<T>>
-            conv_instance(params,
-                          true,
-                          FillUniformDistributionIntegerValue<T>{},
-                          FillUniformDistributionIntegerValue<T>{});
-        auto reference_conv_fwd_fun =
-            std::bind(conv::run_reference_convolution_forward<2, T, T, T>, params, _1, _2, _3);
-        OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
-        run_engine.SetAtol(atol_);
-        run_engine.SetRtol(rtol_);
-        return run_engine.Test(conv_ptrs);
-    }
-
-    template <typename T>
-    bool test_default(bool use_convnd = false)
-    {
-        if(use_convnd)
-        {
-            return test_conv2d_nhwc_instances<T>(
-                test::conv::ConvolutionNDFwdInstances<T, T, T>::Get(2), params_default_);
-        }
-        else
-        {
-            return test_conv2d_nhwc_instances<T>(
-                ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<2>(),
-                params_default_);
-        }
-    }
-
-    template <typename T>
-    bool test_filter1x1_stride1_pad0(bool use_convnd = false)
-    {
-        if(use_convnd)
-        {
-            return test_conv2d_nhwc_instances<T>(
-                test::conv::ConvolutionNDFwdInstances<T, T, T>::Get(2),
-                params_filter1x1_stride1_pad0_);
-        }
-        else
-        {
-            return test_conv2d_nhwc_instances<T>(
-                ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<2>(),
-                params_filter1x1_stride1_pad0_);
-        }
-    }
-
-    template <typename T>
-    bool test_filter1x1_pad0(bool use_convnd = false)
-    {
-        if(use_convnd)
-        {
-            return test_conv2d_nhwc_instances<T>(
-                test::conv::ConvolutionNDFwdInstances<T, T, T>::Get(2), params_filter1x1_pad0_);
-        }
-        else
-        {
-            return test_conv2d_nhwc_instances<T>(
-                ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<2>(),
-                params_filter1x1_pad0_);
-        }
-    }
-
-    template <typename T>
-    bool test_oddC()
-    {
-        return test_conv2d_nhwc_instances<T>(
-            ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<2>(), params_oddC_);
-    }
-
-    static inline ck::utils::conv::ConvParams params_default_{
-        2, 4, 256, 64, {3, 3}, {36, 36}, {2, 2}, {2, 2}, {2, 2}, {2, 2}};
-    static inline ck::utils::conv::ConvParams params_filter1x1_stride1_pad0_{
-        2, 4, 256, 64, {1, 1}, {28, 28}, {1, 1}, {1, 1}, {0, 0}, {0, 0}};
-    static inline ck::utils::conv::ConvParams params_filter1x1_pad0_{
-        2, 4, 256, 64, {1, 1}, {28, 28}, {2, 2}, {1, 1}, {0, 0}, {0, 0}};
-    static inline ck::utils::conv::ConvParams params_oddC_{
-        2, 4, 256, 3, {3, 3}, {28, 28}, {1, 1}, {1, 1}, {0, 0}, {0, 0}};
-
-    private:
-    double atol_{1e-5};
-    double rtol_{1e-4};
-};
-
-} // anonymous namespace
-
-TEST(Conv2DFwdNHWC, IntegerValues)
-{
-    using namespace std::placeholders;
-    using namespace ck::utils;
-    using T = float;
-
-    ck::utils::conv::ConvParams params{
-        2, 4, 256, 64, {3, 3}, {36, 36}, {1, 1}, {2, 2}, {2, 2}, {2, 2}};
-
-    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
-    test::conv::get_test_convolution_fwd_instance<2, T, T, T, T>(conv_ptrs);
-    conv::ConvFwdOpInstance<T,
-                            T,
-                            T,
-                            ck::tensor_layout::convolution::NHWC,
-                            ck::tensor_layout::convolution::KYXC,
-                            ck::tensor_layout::convolution::NHWK,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            FillUniformDistributionIntegerValue<T>,
-                            FillUniformDistributionIntegerValue<T>>
-        conv_instance(params,
-                      true,
-                      FillUniformDistributionIntegerValue<T>{},
-                      FillUniformDistributionIntegerValue<T>{});
-
-    auto reference_conv_fwd_fun =
-        std::bind(conv::run_reference_convolution_forward<2, T, T, T>, params, _1, _2, _3);
-    OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
-    run_engine.SetAtol(1e-5);
-    run_engine.SetRtol(1e-4);
-    EXPECT_TRUE(run_engine.Test(conv_ptrs));
-}
-
-TEST(Conv2DFwdNHWC, FloatingPointValues)
-{
-    using namespace std::placeholders;
-    using namespace ck::utils;
-    using T = ck::half_t;
-
-    ck::utils::conv::ConvParams params{
-        2, 4, 256, 64, {3, 3}, {36, 36}, {2, 2}, {2, 2}, {2, 2}, {2, 2}};
-
-    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
-    test::conv::get_test_convolution_fwd_instance<2, T, T, T, float>(conv_ptrs);
-    conv::ConvFwdOpInstance<T,
-                            T,
-                            T,
-                            ck::tensor_layout::convolution::NHWC,
-                            ck::tensor_layout::convolution::KYXC,
-                            ck::tensor_layout::convolution::NHWK,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            FillUniformDistribution<T>,
-                            FillUniformDistribution<T>>
-        conv_instance(params, true, FillUniformDistribution<T>{}, FillUniformDistribution<T>{});
-
-    auto reference_conv_fwd_fun =
-        std::bind(conv::run_reference_convolution_forward<2, T, T, T>, params, _1, _2, _3);
-    OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
-    run_engine.SetAtol(2e-4);
-    run_engine.SetRtol(1e-3);
-    EXPECT_TRUE(run_engine.Test(conv_ptrs));
-}
-
-TEST_F(Conv2dFwdNHWCInstances, BF16_default) { EXPECT_TRUE(this->test_default<ck::bhalf_t>()); }
-TEST_F(Conv2dFwdNHWCInstances, BF16_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::bhalf_t>());
-}
-TEST_F(Conv2dFwdNHWCInstances, BF16_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<ck::bhalf_t>());
-}
-TEST_F(Conv2dFwdNHWCInstances, F16_default) { EXPECT_TRUE(this->test_default<ck::half_t>()); }
-TEST_F(Conv2dFwdNHWCInstances, F16_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::half_t>());
-}
-TEST_F(Conv2dFwdNHWCInstances, F16_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<ck::half_t>());
-}
-TEST_F(Conv2dFwdNHWCInstances, F16_oddC) { EXPECT_TRUE(this->test_oddC<ck::half_t>()); }
-TEST_F(Conv2dFwdNHWCInstances, F32_default) { EXPECT_TRUE(this->test_default<float>()); }
-TEST_F(Conv2dFwdNHWCInstances, F32_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<float>());
-}
-TEST_F(Conv2dFwdNHWCInstances, F32_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<float>());
-}
-TEST_F(Conv2dFwdNHWCInstances, I8_default) { EXPECT_TRUE(this->test_default<int8_t>()); }
-TEST_F(Conv2dFwdNHWCInstances, I8_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<int8_t>());
-}
-TEST_F(Conv2dFwdNHWCInstances, I8_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<int8_t>());
-}
-
-TEST_F(Conv2dFwdNHWCInstances, ND_BF16_default)
-{
-    EXPECT_TRUE(this->test_default<ck::bhalf_t>(true));
-}
-TEST_F(Conv2dFwdNHWCInstances, ND_BF16_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::bhalf_t>(true));
-}
-TEST_F(Conv2dFwdNHWCInstances, ND_BF16_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<ck::bhalf_t>(true));
-}
-TEST_F(Conv2dFwdNHWCInstances, ND_F16_default)
-{
-    EXPECT_TRUE(this->test_default<ck::half_t>(true));
-}
-TEST_F(Conv2dFwdNHWCInstances, ND_F16_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::half_t>(true));
-}
-TEST_F(Conv2dFwdNHWCInstances, ND_F16_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<ck::half_t>(true));
-}
-TEST_F(Conv2dFwdNHWCInstances, ND_F32_default) { EXPECT_TRUE(this->test_default<float>(true)); }
-TEST_F(Conv2dFwdNHWCInstances, ND_F32_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<float>(true));
-}
-TEST_F(Conv2dFwdNHWCInstances, ND_F32_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<float>(true));
-}
-TEST_F(Conv2dFwdNHWCInstances, ND_I8_default) { EXPECT_TRUE(this->test_default<int8_t>(true)); }
-TEST_F(Conv2dFwdNHWCInstances, ND_I8_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<int8_t>(true));
-}
-TEST_F(Conv2dFwdNHWCInstances, ND_I8_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<int8_t>(true));
-}
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
+#include <tuple>
+#include <vector>
+#include <gtest/gtest.h>
+
+#include "ck/utility/data_type.hpp"
+#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
+#include "ck/library/utility/conv_util.hpp"
+#include "test/convnd_fwd/conv_util.hpp"
+
+namespace {
+
+class Conv2dFwdNHWCInstances : public ::testing::Test
+{
+    public:
+    template <typename T>
+    bool test_conv2d_nhwc_instances(const std::vector<test::conv::DeviceConvFwdNoOpPtr>& conv_ptrs,
+                                    const ck::utils::conv::ConvParams& params)
+    {
+        using namespace std::placeholders;
+        using namespace ck::utils;
+
+        conv::ConvFwdOpInstance<T,
+                                T,
+                                T,
+                                ck::tensor_layout::convolution::NHWC,
+                                ck::tensor_layout::convolution::KYXC,
+                                ck::tensor_layout::convolution::NHWK,
+                                ck::tensor_operation::element_wise::PassThrough,
+                                ck::tensor_operation::element_wise::PassThrough,
+                                ck::tensor_operation::element_wise::PassThrough,
+                                FillUniformDistributionIntegerValue<T>,
+                                FillUniformDistributionIntegerValue<T>>
+            conv_instance(params,
+                          true,
+                          FillUniformDistributionIntegerValue<T>{},
+                          FillUniformDistributionIntegerValue<T>{});
+        auto reference_conv_fwd_fun =
+            std::bind(conv::run_reference_convolution_forward<2, T, T, T>, params, _1, _2, _3);
+        OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
+        run_engine.SetAtol(atol_);
+        run_engine.SetRtol(rtol_);
+        return run_engine.Test(conv_ptrs);
+    }
+
+    template <typename T>
+    bool test_default(bool use_convnd = false)
+    {
+        if(use_convnd)
+        {
+            return test_conv2d_nhwc_instances<T>(
+                test::conv::ConvolutionNDFwdInstances<T, T, T>::Get(2), params_default_);
+        }
+        else
+        {
+            return test_conv2d_nhwc_instances<T>(
+                ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<2>(),
+                params_default_);
+        }
+    }
+
+    template <typename T>
+    bool test_filter1x1_stride1_pad0(bool use_convnd = false)
+    {
+        if(use_convnd)
+        {
+            return test_conv2d_nhwc_instances<T>(
+                test::conv::ConvolutionNDFwdInstances<T, T, T>::Get(2),
+                params_filter1x1_stride1_pad0_);
+        }
+        else
+        {
+            return test_conv2d_nhwc_instances<T>(
+                ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<2>(),
+                params_filter1x1_stride1_pad0_);
+        }
+    }
+
+    template <typename T>
+    bool test_filter1x1_pad0(bool use_convnd = false)
+    {
+        if(use_convnd)
+        {
+            return test_conv2d_nhwc_instances<T>(
+                test::conv::ConvolutionNDFwdInstances<T, T, T>::Get(2), params_filter1x1_pad0_);
+        }
+        else
+        {
+            return test_conv2d_nhwc_instances<T>(
+                ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<2>(),
+                params_filter1x1_pad0_);
+        }
+    }
+
+    template <typename T>
+    bool test_oddC()
+    {
+        return test_conv2d_nhwc_instances<T>(
+            ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<2>(), params_oddC_);
+    }
+
+    static inline ck::utils::conv::ConvParams params_default_{
+        2, 4, 256, 64, {3, 3}, {36, 36}, {2, 2}, {2, 2}, {2, 2}, {2, 2}};
+    static inline ck::utils::conv::ConvParams params_filter1x1_stride1_pad0_{
+        2, 4, 256, 64, {1, 1}, {28, 28}, {1, 1}, {1, 1}, {0, 0}, {0, 0}};
+    static inline ck::utils::conv::ConvParams params_filter1x1_pad0_{
+        2, 4, 256, 64, {1, 1}, {28, 28}, {2, 2}, {1, 1}, {0, 0}, {0, 0}};
+    static inline ck::utils::conv::ConvParams params_oddC_{
+        2, 4, 256, 3, {3, 3}, {28, 28}, {1, 1}, {1, 1}, {0, 0}, {0, 0}};
+
+    private:
+    double atol_{1e-5};
+    double rtol_{1e-4};
+};
+
+} // anonymous namespace
+
+TEST(Conv2DFwdNHWC, IntegerValues)
+{
+    using namespace std::placeholders;
+    using namespace ck::utils;
+    using T = float;
+
+    ck::utils::conv::ConvParams params{
+        2, 4, 256, 64, {3, 3}, {36, 36}, {1, 1}, {2, 2}, {2, 2}, {2, 2}};
+
+    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
+    test::conv::get_test_convolution_fwd_instance<2, T, T, T, T>(conv_ptrs);
+    conv::ConvFwdOpInstance<T,
+                            T,
+                            T,
+                            ck::tensor_layout::convolution::NHWC,
+                            ck::tensor_layout::convolution::KYXC,
+                            ck::tensor_layout::convolution::NHWK,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            FillUniformDistributionIntegerValue<T>,
+                            FillUniformDistributionIntegerValue<T>>
+        conv_instance(params,
+                      true,
+                      FillUniformDistributionIntegerValue<T>{},
+                      FillUniformDistributionIntegerValue<T>{});
+
+    auto reference_conv_fwd_fun =
+        std::bind(conv::run_reference_convolution_forward<2, T, T, T>, params, _1, _2, _3);
+    OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
+    run_engine.SetAtol(1e-5);
+    run_engine.SetRtol(1e-4);
+    EXPECT_TRUE(run_engine.Test(conv_ptrs));
+}
+
+TEST(Conv2DFwdNHWC, FloatingPointValues)
+{
+    using namespace std::placeholders;
+    using namespace ck::utils;
+    using T = ck::half_t;
+
+    ck::utils::conv::ConvParams params{
+        2, 4, 256, 64, {3, 3}, {36, 36}, {2, 2}, {2, 2}, {2, 2}, {2, 2}};
+
+    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
+    test::conv::get_test_convolution_fwd_instance<2, T, T, T, float>(conv_ptrs);
+    conv::ConvFwdOpInstance<T,
+                            T,
+                            T,
+                            ck::tensor_layout::convolution::NHWC,
+                            ck::tensor_layout::convolution::KYXC,
+                            ck::tensor_layout::convolution::NHWK,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            FillUniformDistribution<T>,
+                            FillUniformDistribution<T>>
+        conv_instance(params, true, FillUniformDistribution<T>{}, FillUniformDistribution<T>{});
+
+    auto reference_conv_fwd_fun =
+        std::bind(conv::run_reference_convolution_forward<2, T, T, T>, params, _1, _2, _3);
+    OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
+    run_engine.SetAtol(2e-4);
+    run_engine.SetRtol(1e-3);
+    EXPECT_TRUE(run_engine.Test(conv_ptrs));
+}
+
+TEST_F(Conv2dFwdNHWCInstances, BF16_default) { EXPECT_TRUE(this->test_default<ck::bhalf_t>()); }
+TEST_F(Conv2dFwdNHWCInstances, BF16_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::bhalf_t>());
+}
+TEST_F(Conv2dFwdNHWCInstances, BF16_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<ck::bhalf_t>());
+}
+TEST_F(Conv2dFwdNHWCInstances, F16_default) { EXPECT_TRUE(this->test_default<ck::half_t>()); }
+TEST_F(Conv2dFwdNHWCInstances, F16_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::half_t>());
+}
+TEST_F(Conv2dFwdNHWCInstances, F16_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<ck::half_t>());
+}
+TEST_F(Conv2dFwdNHWCInstances, F16_oddC) { EXPECT_TRUE(this->test_oddC<ck::half_t>()); }
+TEST_F(Conv2dFwdNHWCInstances, F32_default) { EXPECT_TRUE(this->test_default<float>()); }
+TEST_F(Conv2dFwdNHWCInstances, F32_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<float>());
+}
+TEST_F(Conv2dFwdNHWCInstances, F32_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<float>());
+}
+TEST_F(Conv2dFwdNHWCInstances, I8_default) { EXPECT_TRUE(this->test_default<int8_t>()); }
+TEST_F(Conv2dFwdNHWCInstances, I8_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<int8_t>());
+}
+TEST_F(Conv2dFwdNHWCInstances, I8_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<int8_t>());
+}
+
+TEST_F(Conv2dFwdNHWCInstances, ND_BF16_default)
+{
+    EXPECT_TRUE(this->test_default<ck::bhalf_t>(true));
+}
+TEST_F(Conv2dFwdNHWCInstances, ND_BF16_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::bhalf_t>(true));
+}
+TEST_F(Conv2dFwdNHWCInstances, ND_BF16_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<ck::bhalf_t>(true));
+}
+TEST_F(Conv2dFwdNHWCInstances, ND_F16_default)
+{
+    EXPECT_TRUE(this->test_default<ck::half_t>(true));
+}
+TEST_F(Conv2dFwdNHWCInstances, ND_F16_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::half_t>(true));
+}
+TEST_F(Conv2dFwdNHWCInstances, ND_F16_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<ck::half_t>(true));
+}
+TEST_F(Conv2dFwdNHWCInstances, ND_F32_default) { EXPECT_TRUE(this->test_default<float>(true)); }
+TEST_F(Conv2dFwdNHWCInstances, ND_F32_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<float>(true));
+}
+TEST_F(Conv2dFwdNHWCInstances, ND_F32_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<float>(true));
+}
+TEST_F(Conv2dFwdNHWCInstances, ND_I8_default) { EXPECT_TRUE(this->test_default<int8_t>(true)); }
+TEST_F(Conv2dFwdNHWCInstances, ND_I8_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<int8_t>(true));
+}
+TEST_F(Conv2dFwdNHWCInstances, ND_I8_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<int8_t>(true));
+}
--- a/test/convnd_fwd/conv3d_fwd.cpp
+++ b/test/convnd_fwd/conv3d_fwd.cpp
-#include <iostream>
-#include <stdexcept>
-#include <tuple>
-#include <vector>
-#include <gtest/gtest.h>
-
-#include "ck/utility/data_type.hpp"
-#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-
-#include "ck/library/utility/conv_util.hpp"
-
-#include "test/convnd_fwd/conv_util.hpp"
-
-namespace {
-
-class Conv3dFwdNDHWCInstances : public ::testing::Test
-{
-    public:
-    template <typename T>
-    bool test_conv3d_nwc_instances(const std::vector<test::conv::DeviceConvFwdNoOpPtr>& conv_ptrs,
-                                   const ck::utils::conv::ConvParams& params)
-    {
-        using namespace std::placeholders;
-        using namespace ck::utils;
-        namespace ctl = ck::tensor_layout::convolution;
-
-        conv::ConvFwdOpInstance<T,
-                                T,
-                                T,
-                                ctl::NDHWC,
-                                ctl::KZYXC,
-                                ctl::NDHWK,
-                                ck::tensor_operation::element_wise::PassThrough,
-                                ck::tensor_operation::element_wise::PassThrough,
-                                ck::tensor_operation::element_wise::PassThrough,
-                                FillUniformDistributionIntegerValue<T>,
-                                FillUniformDistributionIntegerValue<T>>
-            conv_instance(params,
-                          true,
-                          FillUniformDistributionIntegerValue<T>{},
-                          FillUniformDistributionIntegerValue<T>{});
-        auto reference_conv_fwd_fun =
-            std::bind(conv::run_reference_convolution_forward<3, T, T, T>, params, _1, _2, _3);
-        OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
-        run_engine.SetAtol(atol_);
-        run_engine.SetRtol(rtol_);
-        return run_engine.Test(conv_ptrs);
-    }
-
-    template <typename T>
-    bool test_default()
-    {
-        return test_conv3d_nwc_instances<T>(
-            ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<3>(), params_default_);
-    }
-
-    template <typename T>
-    bool test_filter1x1_stride1_pad0()
-    {
-        return test_conv3d_nwc_instances<T>(
-            ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<3>(),
-            params_filter1x1_stride1_pad0_);
-    }
-
-    template <typename T>
-    bool test_filter1x1_pad0()
-    {
-        return test_conv3d_nwc_instances<T>(
-            ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<3>(),
-            params_filter1x1_pad0_);
-    }
-
-    static inline ck::utils::conv::ConvParams params_default_{
-        3, 4, 256, 64, {3, 3, 3}, {28, 28, 28}, {2, 2, 2}, {2, 2, 2}, {2, 2, 2}, {2, 2, 2}};
-    static inline ck::utils::conv::ConvParams params_filter1x1_stride1_pad0_{
-        3, 4, 256, 64, {1, 1, 1}, {28, 28, 28}, {1, 1, 1}, {1, 1, 1}, {0, 0, 0}, {0, 0, 0}};
-    static inline ck::utils::conv::ConvParams params_filter1x1_pad0_{
-        3, 4, 256, 64, {1, 1, 1}, {28, 28, 28}, {2, 2, 2}, {1, 1, 1}, {0, 0, 0}, {0, 0, 0}};
-
-    private:
-    double atol_{1e-5};
-    double rtol_{1e-4};
-};
-
-} // anonymous namespace
-
-TEST(Conv3DFwdNDHWC, IntegerValues)
-{
-    using namespace std::placeholders;
-    using namespace ck::utils;
-    namespace ctl = ck::tensor_layout::convolution;
-    using T       = float;
-
-    ck::utils::conv::ConvParams params{
-        3, 4, 256, 64, {3, 3, 3}, {18, 18, 18}, {1, 1, 1}, {2, 2, 2}, {2, 2, 2}, {2, 2, 2}};
-
-    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
-    test::conv::get_test_convolution_fwd_instance<3, T, T, T, T>(conv_ptrs);
-    conv::ConvFwdOpInstance<T,
-                            T,
-                            T,
-                            ctl::NDHWC,
-                            ctl::KZYXC,
-                            ctl::NDHWK,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            FillUniformDistributionIntegerValue<T>,
-                            FillUniformDistributionIntegerValue<T>>
-        conv_instance(params,
-                      true,
-                      FillUniformDistributionIntegerValue<T>{},
-                      FillUniformDistributionIntegerValue<T>{});
-
-    auto reference_conv_fwd_fun =
-        std::bind(conv::run_reference_convolution_forward<3, T, T, T>, params, _1, _2, _3);
-    OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
-    run_engine.SetAtol(1e-5);
-    run_engine.SetRtol(1e-3);
-    EXPECT_TRUE(run_engine.Test(conv_ptrs));
-}
-
-TEST(Conv3DFwdNDHWC, FloatingPointValues)
-{
-    using namespace std::placeholders;
-    using namespace ck::utils;
-    namespace ctl = ck::tensor_layout::convolution;
-    using T       = ck::half_t;
-
-    ck::utils::conv::ConvParams params{
-        3, 4, 256, 64, {3, 3, 3}, {18, 18, 18}, {1, 1, 1}, {2, 2, 2}, {2, 2, 2}, {2, 2, 2}};
-
-    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
-    test::conv::get_test_convolution_fwd_instance<3, T, T, T, float>(conv_ptrs);
-    conv::ConvFwdOpInstance<T,
-                            T,
-                            T,
-                            ctl::NDHWC,
-                            ctl::KZYXC,
-                            ctl::NDHWK,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            ck::tensor_operation::element_wise::PassThrough,
-                            FillUniformDistribution<T>,
-                            FillUniformDistribution<T>>
-        conv_instance(params, true, FillUniformDistribution<T>{}, FillUniformDistribution<T>{});
-
-    auto reference_conv_fwd_fun =
-        std::bind(conv::run_reference_convolution_forward<3, T, T, T>, params, _1, _2, _3);
-    OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
-    run_engine.SetAtol(1e-3);
-    run_engine.SetRtol(1e-3);
-    EXPECT_TRUE(run_engine.Test(conv_ptrs));
-}
-
-TEST(Conv3DFwdNDHWC, InputOver2GB)
-{
-    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-    using namespace ck::utils;
-    using T = float;
-
-    // >2GB Input
-    conv::ConvParams params;
-    params.num_dim_spatial_        = 3;
-    params.N_                      = 2;
-    params.K_                      = 16;
-    params.C_                      = 32;
-    params.filter_spatial_lengths_ = std::vector<ck::index_t>{3, 3, 3};
-    params.input_spatial_lengths_  = std::vector<ck::index_t>{32, 1000, 1000};
-    params.conv_filter_strides_    = std::vector<ck::index_t>{1, 1, 1};
-    params.conv_filter_dilations_  = std::vector<ck::index_t>{1, 1, 1};
-    params.input_left_pads_        = std::vector<ck::index_t>{1, 1, 1};
-    params.input_right_pads_       = std::vector<ck::index_t>{1, 1, 1};
-
-    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
-    test::conv::get_test_convolution_fwd_instance<3, T, T, T, T>(conv_ptrs);
-    auto arg = conv_ptrs.back()->MakeArgumentPointer(nullptr,
-                                                     nullptr,
-                                                     nullptr,
-                                                     params.N_,
-                                                     params.K_,
-                                                     params.C_,
-                                                     params.input_spatial_lengths_,
-                                                     params.filter_spatial_lengths_,
-                                                     params.GetOutputSpatialLengths(),
-                                                     params.conv_filter_strides_,
-                                                     params.conv_filter_dilations_,
-                                                     params.input_left_pads_,
-                                                     params.input_right_pads_,
-                                                     PassThrough{},
-                                                     PassThrough{},
-                                                     PassThrough{});
-    EXPECT_FALSE(conv_ptrs.back()->IsSupportedArgument(arg.get()));
-}
-
-TEST(Conv3DFwdNDHWC, FiltersOver2GB)
-{
-    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-    using namespace ck::utils;
-    using T = float;
-
-    // >2GB Filters
-    conv::ConvParams params;
-    params.num_dim_spatial_        = 3;
-    params.N_                      = 2;
-    params.K_                      = 16;
-    params.C_                      = 32;
-    params.filter_spatial_lengths_ = std::vector<ck::index_t>{4, 1000, 1000};
-    params.input_spatial_lengths_  = std::vector<ck::index_t>{16, 16, 16};
-    params.conv_filter_strides_    = std::vector<ck::index_t>{1, 1, 1};
-    params.conv_filter_dilations_  = std::vector<ck::index_t>{1, 1, 1};
-    params.input_left_pads_        = std::vector<ck::index_t>{1, 1, 1};
-    params.input_right_pads_       = std::vector<ck::index_t>{1, 1, 1};
-
-    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
-    test::conv::get_test_convolution_fwd_instance<3, T, T, T, T>(conv_ptrs);
-    auto arg = conv_ptrs.back()->MakeArgumentPointer(nullptr,
-                                                     nullptr,
-                                                     nullptr,
-                                                     params.N_,
-                                                     params.K_,
-                                                     params.C_,
-                                                     params.input_spatial_lengths_,
-                                                     params.filter_spatial_lengths_,
-                                                     params.GetOutputSpatialLengths(),
-                                                     params.conv_filter_strides_,
-                                                     params.conv_filter_dilations_,
-                                                     params.input_left_pads_,
-                                                     params.input_right_pads_,
-                                                     PassThrough{},
-                                                     PassThrough{},
-                                                     PassThrough{});
-    EXPECT_FALSE(conv_ptrs.back()->IsSupportedArgument(arg.get()));
-}
-
-TEST(Conv3DFwdNDHWC, OutputOver2GB)
-{
-    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-    using namespace ck::utils;
-    using T = float;
-
-    // >2GB Output
-    conv::ConvParams params;
-    params.num_dim_spatial_        = 3;
-    params.N_                      = 2;
-    params.K_                      = 16;
-    params.C_                      = 2;
-    params.filter_spatial_lengths_ = std::vector<ck::index_t>{1, 1, 1};
-    params.input_spatial_lengths_  = std::vector<ck::index_t>{1000, 1000, 30};
-    params.conv_filter_strides_    = std::vector<ck::index_t>{1, 1, 1};
-    params.conv_filter_dilations_  = std::vector<ck::index_t>{1, 1, 1};
-    params.input_left_pads_        = std::vector<ck::index_t>{2, 2, 2};
-    params.input_right_pads_       = std::vector<ck::index_t>{2, 2, 2};
-
-    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
-    test::conv::get_test_convolution_fwd_instance<3, T, T, T, T>(conv_ptrs);
-    auto arg = conv_ptrs.back()->MakeArgumentPointer(nullptr,
-                                                     nullptr,
-                                                     nullptr,
-                                                     params.N_,
-                                                     params.K_,
-                                                     params.C_,
-                                                     params.input_spatial_lengths_,
-                                                     params.filter_spatial_lengths_,
-                                                     params.GetOutputSpatialLengths(),
-                                                     params.conv_filter_strides_,
-                                                     params.conv_filter_dilations_,
-                                                     params.input_left_pads_,
-                                                     params.input_right_pads_,
-                                                     PassThrough{},
-                                                     PassThrough{},
-                                                     PassThrough{});
-    EXPECT_FALSE(conv_ptrs.back()->IsSupportedArgument(arg.get()));
-}
-
-TEST_F(Conv3dFwdNDHWCInstances, BF16_default) { EXPECT_TRUE(this->test_default<ck::bhalf_t>()); }
-TEST_F(Conv3dFwdNDHWCInstances, BF16_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::bhalf_t>());
-}
-TEST_F(Conv3dFwdNDHWCInstances, BF16_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<ck::bhalf_t>());
-}
-
-TEST_F(Conv3dFwdNDHWCInstances, F16_default) { EXPECT_TRUE(this->test_default<ck::half_t>()); }
-TEST_F(Conv3dFwdNDHWCInstances, F16_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::half_t>());
-}
-TEST_F(Conv3dFwdNDHWCInstances, F16_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<ck::half_t>());
-}
-
-TEST_F(Conv3dFwdNDHWCInstances, F32_default) { EXPECT_TRUE(this->test_default<float>()); }
-TEST_F(Conv3dFwdNDHWCInstances, F32_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<float>());
-}
-TEST_F(Conv3dFwdNDHWCInstances, F32_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<float>());
-}
-
-TEST_F(Conv3dFwdNDHWCInstances, I8_default) { EXPECT_TRUE(this->test_default<int8_t>()); }
-TEST_F(Conv3dFwdNDHWCInstances, I8_filter1x1_stride1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<int8_t>());
-}
-TEST_F(Conv3dFwdNDHWCInstances, I8_filter1x1_pad0)
-{
-    EXPECT_TRUE(this->test_filter1x1_pad0<int8_t>());
-}
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
+#include <iostream>
+#include <stdexcept>
+#include <tuple>
+#include <vector>
+#include <gtest/gtest.h>
+
+#include "ck/utility/data_type.hpp"
+#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
+
+#include "ck/library/utility/conv_util.hpp"
+
+#include "test/convnd_fwd/conv_util.hpp"
+
+namespace {
+
+class Conv3dFwdNDHWCInstances : public ::testing::Test
+{
+    public:
+    template <typename T>
+    bool test_conv3d_nwc_instances(const std::vector<test::conv::DeviceConvFwdNoOpPtr>& conv_ptrs,
+                                   const ck::utils::conv::ConvParams& params)
+    {
+        using namespace std::placeholders;
+        using namespace ck::utils;
+        namespace ctl = ck::tensor_layout::convolution;
+
+        conv::ConvFwdOpInstance<T,
+                                T,
+                                T,
+                                ctl::NDHWC,
+                                ctl::KZYXC,
+                                ctl::NDHWK,
+                                ck::tensor_operation::element_wise::PassThrough,
+                                ck::tensor_operation::element_wise::PassThrough,
+                                ck::tensor_operation::element_wise::PassThrough,
+                                FillUniformDistributionIntegerValue<T>,
+                                FillUniformDistributionIntegerValue<T>>
+            conv_instance(params,
+                          true,
+                          FillUniformDistributionIntegerValue<T>{},
+                          FillUniformDistributionIntegerValue<T>{});
+        auto reference_conv_fwd_fun =
+            std::bind(conv::run_reference_convolution_forward<3, T, T, T>, params, _1, _2, _3);
+        OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
+        run_engine.SetAtol(atol_);
+        run_engine.SetRtol(rtol_);
+        return run_engine.Test(conv_ptrs);
+    }
+
+    template <typename T>
+    bool test_default()
+    {
+        return test_conv3d_nwc_instances<T>(
+            ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<3>(), params_default_);
+    }
+
+    template <typename T>
+    bool test_filter1x1_stride1_pad0()
+    {
+        return test_conv3d_nwc_instances<T>(
+            ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<3>(),
+            params_filter1x1_stride1_pad0_);
+    }
+
+    template <typename T>
+    bool test_filter1x1_pad0()
+    {
+        return test_conv3d_nwc_instances<T>(
+            ck::utils::conv::ConvolutionFwdInstances<T, T, T>::template Get<3>(),
+            params_filter1x1_pad0_);
+    }
+
+    static inline ck::utils::conv::ConvParams params_default_{
+        3, 4, 256, 64, {3, 3, 3}, {28, 28, 28}, {2, 2, 2}, {2, 2, 2}, {2, 2, 2}, {2, 2, 2}};
+    static inline ck::utils::conv::ConvParams params_filter1x1_stride1_pad0_{
+        3, 4, 256, 64, {1, 1, 1}, {28, 28, 28}, {1, 1, 1}, {1, 1, 1}, {0, 0, 0}, {0, 0, 0}};
+    static inline ck::utils::conv::ConvParams params_filter1x1_pad0_{
+        3, 4, 256, 64, {1, 1, 1}, {28, 28, 28}, {2, 2, 2}, {1, 1, 1}, {0, 0, 0}, {0, 0, 0}};
+
+    private:
+    double atol_{1e-5};
+    double rtol_{1e-4};
+};
+
+} // anonymous namespace
+
+TEST(Conv3DFwdNDHWC, IntegerValues)
+{
+    using namespace std::placeholders;
+    using namespace ck::utils;
+    namespace ctl = ck::tensor_layout::convolution;
+    using T       = float;
+
+    ck::utils::conv::ConvParams params{
+        3, 4, 256, 64, {3, 3, 3}, {18, 18, 18}, {1, 1, 1}, {2, 2, 2}, {2, 2, 2}, {2, 2, 2}};
+
+    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
+    test::conv::get_test_convolution_fwd_instance<3, T, T, T, T>(conv_ptrs);
+    conv::ConvFwdOpInstance<T,
+                            T,
+                            T,
+                            ctl::NDHWC,
+                            ctl::KZYXC,
+                            ctl::NDHWK,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            FillUniformDistributionIntegerValue<T>,
+                            FillUniformDistributionIntegerValue<T>>
+        conv_instance(params,
+                      true,
+                      FillUniformDistributionIntegerValue<T>{},
+                      FillUniformDistributionIntegerValue<T>{});
+
+    auto reference_conv_fwd_fun =
+        std::bind(conv::run_reference_convolution_forward<3, T, T, T>, params, _1, _2, _3);
+    OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
+    run_engine.SetAtol(1e-5);
+    run_engine.SetRtol(1e-3);
+    EXPECT_TRUE(run_engine.Test(conv_ptrs));
+}
+
+TEST(Conv3DFwdNDHWC, FloatingPointValues)
+{
+    using namespace std::placeholders;
+    using namespace ck::utils;
+    namespace ctl = ck::tensor_layout::convolution;
+    using T       = ck::half_t;
+
+    ck::utils::conv::ConvParams params{
+        3, 4, 256, 64, {3, 3, 3}, {18, 18, 18}, {1, 1, 1}, {2, 2, 2}, {2, 2, 2}, {2, 2, 2}};
+
+    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
+    test::conv::get_test_convolution_fwd_instance<3, T, T, T, float>(conv_ptrs);
+    conv::ConvFwdOpInstance<T,
+                            T,
+                            T,
+                            ctl::NDHWC,
+                            ctl::KZYXC,
+                            ctl::NDHWK,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            ck::tensor_operation::element_wise::PassThrough,
+                            FillUniformDistribution<T>,
+                            FillUniformDistribution<T>>
+        conv_instance(params, true, FillUniformDistribution<T>{}, FillUniformDistribution<T>{});
+
+    auto reference_conv_fwd_fun =
+        std::bind(conv::run_reference_convolution_forward<3, T, T, T>, params, _1, _2, _3);
+    OpInstanceRunEngine<T, T, T> run_engine(conv_instance, reference_conv_fwd_fun);
+    run_engine.SetAtol(1e-3);
+    run_engine.SetRtol(1e-3);
+    EXPECT_TRUE(run_engine.Test(conv_ptrs));
+}
+
+TEST(Conv3DFwdNDHWC, InputOver2GB)
+{
+    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+    using namespace ck::utils;
+    using T = float;
+
+    // >2GB Input
+    conv::ConvParams params;
+    params.num_dim_spatial_        = 3;
+    params.N_                      = 2;
+    params.K_                      = 16;
+    params.C_                      = 32;
+    params.filter_spatial_lengths_ = std::vector<ck::index_t>{3, 3, 3};
+    params.input_spatial_lengths_  = std::vector<ck::index_t>{32, 1000, 1000};
+    params.conv_filter_strides_    = std::vector<ck::index_t>{1, 1, 1};
+    params.conv_filter_dilations_  = std::vector<ck::index_t>{1, 1, 1};
+    params.input_left_pads_        = std::vector<ck::index_t>{1, 1, 1};
+    params.input_right_pads_       = std::vector<ck::index_t>{1, 1, 1};
+
+    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
+    test::conv::get_test_convolution_fwd_instance<3, T, T, T, T>(conv_ptrs);
+    auto arg = conv_ptrs.back()->MakeArgumentPointer(nullptr,
+                                                     nullptr,
+                                                     nullptr,
+                                                     params.N_,
+                                                     params.K_,
+                                                     params.C_,
+                                                     params.input_spatial_lengths_,
+                                                     params.filter_spatial_lengths_,
+                                                     params.GetOutputSpatialLengths(),
+                                                     params.conv_filter_strides_,
+                                                     params.conv_filter_dilations_,
+                                                     params.input_left_pads_,
+                                                     params.input_right_pads_,
+                                                     PassThrough{},
+                                                     PassThrough{},
+                                                     PassThrough{});
+    EXPECT_FALSE(conv_ptrs.back()->IsSupportedArgument(arg.get()));
+}
+
+TEST(Conv3DFwdNDHWC, FiltersOver2GB)
+{
+    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+    using namespace ck::utils;
+    using T = float;
+
+    // >2GB Filters
+    conv::ConvParams params;
+    params.num_dim_spatial_        = 3;
+    params.N_                      = 2;
+    params.K_                      = 16;
+    params.C_                      = 32;
+    params.filter_spatial_lengths_ = std::vector<ck::index_t>{4, 1000, 1000};
+    params.input_spatial_lengths_  = std::vector<ck::index_t>{16, 16, 16};
+    params.conv_filter_strides_    = std::vector<ck::index_t>{1, 1, 1};
+    params.conv_filter_dilations_  = std::vector<ck::index_t>{1, 1, 1};
+    params.input_left_pads_        = std::vector<ck::index_t>{1, 1, 1};
+    params.input_right_pads_       = std::vector<ck::index_t>{1, 1, 1};
+
+    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
+    test::conv::get_test_convolution_fwd_instance<3, T, T, T, T>(conv_ptrs);
+    auto arg = conv_ptrs.back()->MakeArgumentPointer(nullptr,
+                                                     nullptr,
+                                                     nullptr,
+                                                     params.N_,
+                                                     params.K_,
+                                                     params.C_,
+                                                     params.input_spatial_lengths_,
+                                                     params.filter_spatial_lengths_,
+                                                     params.GetOutputSpatialLengths(),
+                                                     params.conv_filter_strides_,
+                                                     params.conv_filter_dilations_,
+                                                     params.input_left_pads_,
+                                                     params.input_right_pads_,
+                                                     PassThrough{},
+                                                     PassThrough{},
+                                                     PassThrough{});
+    EXPECT_FALSE(conv_ptrs.back()->IsSupportedArgument(arg.get()));
+}
+
+TEST(Conv3DFwdNDHWC, OutputOver2GB)
+{
+    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+    using namespace ck::utils;
+    using T = float;
+
+    // >2GB Output
+    conv::ConvParams params;
+    params.num_dim_spatial_        = 3;
+    params.N_                      = 2;
+    params.K_                      = 16;
+    params.C_                      = 2;
+    params.filter_spatial_lengths_ = std::vector<ck::index_t>{1, 1, 1};
+    params.input_spatial_lengths_  = std::vector<ck::index_t>{1000, 1000, 30};
+    params.conv_filter_strides_    = std::vector<ck::index_t>{1, 1, 1};
+    params.conv_filter_dilations_  = std::vector<ck::index_t>{1, 1, 1};
+    params.input_left_pads_        = std::vector<ck::index_t>{2, 2, 2};
+    params.input_right_pads_       = std::vector<ck::index_t>{2, 2, 2};
+
+    std::vector<test::conv::DeviceConvFwdNoOpPtr> conv_ptrs;
+    test::conv::get_test_convolution_fwd_instance<3, T, T, T, T>(conv_ptrs);
+    auto arg = conv_ptrs.back()->MakeArgumentPointer(nullptr,
+                                                     nullptr,
+                                                     nullptr,
+                                                     params.N_,
+                                                     params.K_,
+                                                     params.C_,
+                                                     params.input_spatial_lengths_,
+                                                     params.filter_spatial_lengths_,
+                                                     params.GetOutputSpatialLengths(),
+                                                     params.conv_filter_strides_,
+                                                     params.conv_filter_dilations_,
+                                                     params.input_left_pads_,
+                                                     params.input_right_pads_,
+                                                     PassThrough{},
+                                                     PassThrough{},
+                                                     PassThrough{});
+    EXPECT_FALSE(conv_ptrs.back()->IsSupportedArgument(arg.get()));
+}
+
+TEST_F(Conv3dFwdNDHWCInstances, BF16_default) { EXPECT_TRUE(this->test_default<ck::bhalf_t>()); }
+TEST_F(Conv3dFwdNDHWCInstances, BF16_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::bhalf_t>());
+}
+TEST_F(Conv3dFwdNDHWCInstances, BF16_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<ck::bhalf_t>());
+}
+
+TEST_F(Conv3dFwdNDHWCInstances, F16_default) { EXPECT_TRUE(this->test_default<ck::half_t>()); }
+TEST_F(Conv3dFwdNDHWCInstances, F16_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<ck::half_t>());
+}
+TEST_F(Conv3dFwdNDHWCInstances, F16_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<ck::half_t>());
+}
+
+TEST_F(Conv3dFwdNDHWCInstances, F32_default) { EXPECT_TRUE(this->test_default<float>()); }
+TEST_F(Conv3dFwdNDHWCInstances, F32_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<float>());
+}
+TEST_F(Conv3dFwdNDHWCInstances, F32_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<float>());
+}
+
+TEST_F(Conv3dFwdNDHWCInstances, I8_default) { EXPECT_TRUE(this->test_default<int8_t>()); }
+TEST_F(Conv3dFwdNDHWCInstances, I8_filter1x1_stride1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_stride1_pad0<int8_t>());
+}
+TEST_F(Conv3dFwdNDHWCInstances, I8_filter1x1_pad0)
+{
+    EXPECT_TRUE(this->test_filter1x1_pad0<int8_t>());
+}
--- a/test/convnd_fwd/conv_util.hpp
+++ b/test/convnd_fwd/conv_util.hpp
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
 #pragma once

 #include <tuple>

--- a/test/gemm/gemm_dl_fp16.cpp
+++ b/test/gemm/gemm_dl_fp16.cpp
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
 #include <algorithm>
 #include <cstdlib>
 #include <iostream>

--- a/test/gemm/gemm_dl_fp32.cpp
+++ b/test/gemm/gemm_dl_fp32.cpp
-#include <algorithm>
-#include <cstdlib>
-#include <iostream>
-#include <numeric>
-#include <tuple>
-#include <vector>
-
-#include "ck/ck.hpp"
-#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
-#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-
-#include "ck/library/utility/check_err.hpp"
-#include "ck/library/host_tensor/device_memory.hpp"
-#include "ck/library/host_tensor/host_tensor.hpp"
-#include "ck/library/host_tensor/host_tensor_generator.hpp"
-#include "ck/library/reference_tensor_operation/cpu/reference_gemm.hpp"
-
-#include "test/gemm/gemm_util.hpp"
-
-using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-using DeviceGemmNoOpPtr =
-    ck::tensor_operation::device::DeviceGemmPtr<ck::tensor_operation::element_wise::PassThrough,
-                                                ck::tensor_operation::element_wise::PassThrough,
-                                                ck::tensor_operation::element_wise::PassThrough>;
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-namespace device_gemm_instance {
-
-void add_device_gemm_dl_f32_f32_f32_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_dl_f32_f32_f32_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_dl_f32_f32_f32_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_dl_f32_f32_f32_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-
-} // namespace device_gemm_instance
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
-
-int main()
-{
-    using ADataType   = float;
-    using BDataType   = float;
-    using CDataType   = float;
-    using AccDataType = float;
-
-    using RowMajor    = ck::tensor_layout::gemm::RowMajor;
-    using ColumnMajor = ck::tensor_layout::gemm::ColumnMajor;
-
-    bool res = true;
-    std::vector<DeviceGemmNoOpPtr> gemmPtrs;
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_dl_f32_f32_f32_km_kn_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_dl_f32_f32_f32_km_nk_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       ColumnMajor,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_dl_f32_f32_f32_mk_kn_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       RowMajor,
-                                       RowMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_dl_f32_f32_f32_mk_nk_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       RowMajor,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    std::cout << "TestGemm ..... " << (res ? "SUCCESS" : "FAILURE") << std::endl;
-    return res ? 0 : 1;
-}
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
+#include <algorithm>
+#include <cstdlib>
+#include <iostream>
+#include <numeric>
+#include <tuple>
+#include <vector>
+
+#include "ck/ck.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
+#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
+
+#include "ck/library/utility/check_err.hpp"
+#include "ck/library/host_tensor/device_memory.hpp"
+#include "ck/library/host_tensor/host_tensor.hpp"
+#include "ck/library/host_tensor/host_tensor_generator.hpp"
+#include "ck/library/reference_tensor_operation/cpu/reference_gemm.hpp"
+
+#include "test/gemm/gemm_util.hpp"
+
+using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+using DeviceGemmNoOpPtr =
+    ck::tensor_operation::device::DeviceGemmPtr<ck::tensor_operation::element_wise::PassThrough,
+                                                ck::tensor_operation::element_wise::PassThrough,
+                                                ck::tensor_operation::element_wise::PassThrough>;
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace device_gemm_instance {
+
+void add_device_gemm_dl_f32_f32_f32_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_dl_f32_f32_f32_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_dl_f32_f32_f32_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_dl_f32_f32_f32_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+
+} // namespace device_gemm_instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
+
+int main()
+{
+    using ADataType   = float;
+    using BDataType   = float;
+    using CDataType   = float;
+    using AccDataType = float;
+
+    using RowMajor    = ck::tensor_layout::gemm::RowMajor;
+    using ColumnMajor = ck::tensor_layout::gemm::ColumnMajor;
+
+    bool res = true;
+    std::vector<DeviceGemmNoOpPtr> gemmPtrs;
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_dl_f32_f32_f32_km_kn_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_dl_f32_f32_f32_km_nk_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       ColumnMajor,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_dl_f32_f32_f32_mk_kn_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       RowMajor,
+                                       RowMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_dl_f32_f32_f32_mk_nk_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       RowMajor,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    std::cout << "TestGemm ..... " << (res ? "SUCCESS" : "FAILURE") << std::endl;
+    return res ? 0 : 1;
+}
--- a/test/gemm/gemm_dl_int8.cpp
+++ b/test/gemm/gemm_dl_int8.cpp
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
 #include <algorithm>
 #include <cstdlib>
 #include <iostream>

--- a/test/gemm/gemm_util.hpp
+++ b/test/gemm/gemm_util.hpp
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
 #pragma once

 #include "ck/ck.hpp"
@@ -211,6 +214,11 @@ struct TestGemm
                res = ck::utils::check_err(c_device.mData, c_host.mData);
                std::cout << (res ? "SUCCESS" : "FAILURE") << std::endl;
            }
+            else if(std::is_same<CDataType, ck::bhalf_t>::value)
+            {
+                res = ck::utils::check_err(c_device.mData, c_host.mData);
+                std::cout << (res ? "SUCCESS" : "FAILURE") << std::endl;
+            }
            else if(std::is_same<CDataType, int8_t>::value)
            {
                res = ck::utils::check_err(c_device.mData, c_host.mData);
@@ -231,121 +239,5 @@ struct TestGemm
    }
 };

-template <typename DeviceGemmPtr_,
-          typename ALayout,
-          typename BLayout,
-          typename CLayout,
-          typename AElementwiseOperation,
-          typename BElementwiseOperation,
-          typename CElementwiseOperation>
-struct TestGemmBF16
-{
-    using BF16 = ck::bhalf_t;
-
-    auto PrepareGemmTensorBF16(const ck::gemm_util::GemmParams& params)
-    {
-        auto f_host_tensor_descriptor =
-            [](std::size_t row, std::size_t col, std::size_t stride, auto layout) {
-                if(std::is_same<decltype(layout), ck::tensor_layout::gemm::RowMajor>::value)
-                {
-                    return HostTensorDescriptor(std::vector<std::size_t>({row, col}),
-                                                std::vector<std::size_t>({stride, 1}));
-                }
-                else
-                {
-                    return HostTensorDescriptor(std::vector<std::size_t>({row, col}),
-                                                std::vector<std::size_t>({1, stride}));
-                }
-            };
-
-        // use fp32 host kernel to verify bf16 device kernel
-        Tensor<BF16> a_m_k_bf16(
-            f_host_tensor_descriptor(params.M, params.K, params.StrideA, ALayout{}));
-        Tensor<BF16> b_k_n_bf16(
-            f_host_tensor_descriptor(params.K, params.N, params.StrideB, BLayout{}));
-        Tensor<BF16> c_m_n_device_bf16(
-            f_host_tensor_descriptor(params.M, params.N, params.StrideC, CLayout{}));
-
-        Tensor<float> a_m_k_fp32(
-            f_host_tensor_descriptor(params.M, params.K, params.StrideA, ALayout{}));
-        Tensor<float> b_k_n_fp32(
-            f_host_tensor_descriptor(params.K, params.N, params.StrideB, BLayout{}));
-        Tensor<float> c_m_n_host_fp32(
-            f_host_tensor_descriptor(params.M, params.N, params.StrideC, CLayout{}));
-        Tensor<float> c_m_n_device_fp32(
-            f_host_tensor_descriptor(params.M, params.N, params.StrideC, CLayout{}));
-
-        a_m_k_bf16.GenerateTensorValue(GeneratorTensor_3<BF16>{-0.5, 0.5});
-        b_k_n_bf16.GenerateTensorValue(GeneratorTensor_3<BF16>{-0.5, 0.5});
-
-        bf16_to_f32_(a_m_k_bf16, a_m_k_fp32);
-        bf16_to_f32_(b_k_n_bf16, b_k_n_fp32);
-
-        return std::make_tuple(a_m_k_bf16,
-                               b_k_n_bf16,
-                               c_m_n_device_bf16,
-                               a_m_k_fp32,
-                               b_k_n_fp32,
-                               c_m_n_host_fp32,
-                               c_m_n_device_fp32);
-    }
-
-    auto operator()(DeviceGemmPtr_& gemmPtr)
-    {
-        // Arrange
-        ck::gemm_util::GemmParams params;
-        params.M       = 1024;
-        params.N       = 1024;
-        params.K       = 1024;
-        params.StrideA = 1024;
-        params.StrideB = 1024;
-        params.StrideC = 1024;
-
-        auto host_tensors            = PrepareGemmTensorBF16(params);
-        const Tensor<BF16>& a_bf16   = std::get<0>(host_tensors);
-        const Tensor<BF16>& b_bf16   = std::get<1>(host_tensors);
-        Tensor<BF16>& c_device_bf16  = std::get<2>(host_tensors);
-        Tensor<float>& a_fp32        = std::get<3>(host_tensors);
-        Tensor<float>& b_fp32        = std::get<4>(host_tensors);
-        Tensor<float>& c_host_fp32   = std::get<5>(host_tensors);
-        Tensor<float>& c_device_fp32 = std::get<6>(host_tensors);
-
-        auto a_element_op = AElementwiseOperation{};
-        auto b_element_op = BElementwiseOperation{};
-        auto c_element_op = CElementwiseOperation{};
-
-        // use fp32 host kernel to verify bf16 device kernel
-        using ReferenceGemmInstance =
-            ck::tensor_operation::host::ReferenceGemm<float,
-                                                      float,
-                                                      float,
-                                                      float,
-                                                      AElementwiseOperation,
-                                                      BElementwiseOperation,
-                                                      CElementwiseOperation>;
-        ck::gemm_util::RunHostGEMM<ReferenceGemmInstance>(
-            a_fp32, b_fp32, c_host_fp32, a_element_op, b_element_op, c_element_op);
-
-        // Act
-        ck::gemm_util::RunDeviceGEMM(gemmPtr,
-                                     params,
-                                     a_bf16,
-                                     b_bf16,
-                                     c_device_bf16,
-                                     a_element_op,
-                                     b_element_op,
-                                     c_element_op);
-
-        bf16_to_f32_(c_device_bf16, c_device_fp32);
-
-        // Assert
-        bool res = ck::utils::check_err(
-            c_device_fp32.mData, c_host_fp32.mData, "Error: incorrect results!", 1e-2f, 1e-3f);
-        std::cout << (res ? "SUCCESS" : "FAILURE") << std::endl;
-
-        return res;
-    };
-};
-
 } // namespace gemm_util
 } // namespace ck
--- a/test/gemm/gemm_xdl_bf16.cpp
+++ b/test/gemm/gemm_xdl_bf16.cpp
-#include <algorithm>
-#include <cstdlib>
-#include <iostream>
-#include <numeric>
-#include <tuple>
-#include <vector>
-
-#include "ck/ck.hpp"
-#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
-#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-
-#include "ck/library/utility/check_err.hpp"
-#include "ck/library/host_tensor/device_memory.hpp"
-#include "ck/library/host_tensor/host_tensor.hpp"
-#include "ck/library/host_tensor/host_tensor_generator.hpp"
-#include "ck/library/reference_tensor_operation/cpu/reference_gemm.hpp"
-
-#include "test/gemm/gemm_util.hpp"
-
-using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-using DeviceGemmNoOpPtr =
-    ck::tensor_operation::device::DeviceGemmPtr<ck::tensor_operation::element_wise::PassThrough,
-                                                ck::tensor_operation::element_wise::PassThrough,
-                                                ck::tensor_operation::element_wise::PassThrough>;
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-namespace device_gemm_instance {
-void add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_km_kn_mn_instances(
-    std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_km_nk_mn_instances(
-    std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_mk_nk_mn_instances(
-    std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_mk_kn_mn_instances(
-    std::vector<DeviceGemmNoOpPtr>&);
-} // namespace device_gemm_instance
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
-
-int main()
-{
-    using RowMajor    = ck::tensor_layout::gemm::RowMajor;
-    using ColumnMajor = ck::tensor_layout::gemm::ColumnMajor;
-
-    bool res = true;
-    std::vector<DeviceGemmNoOpPtr> gemmPtrs;
-
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_km_kn_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemmBF16<DeviceGemmNoOpPtr,
-                                           ColumnMajor,
-                                           RowMajor,
-                                           RowMajor,
-                                           PassThrough,
-                                           PassThrough,
-                                           PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_km_nk_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemmBF16<DeviceGemmNoOpPtr,
-                                           ColumnMajor,
-                                           ColumnMajor,
-                                           RowMajor,
-                                           PassThrough,
-                                           PassThrough,
-                                           PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_mk_kn_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemmBF16<DeviceGemmNoOpPtr,
-                                           RowMajor,
-                                           RowMajor,
-                                           RowMajor,
-                                           PassThrough,
-                                           PassThrough,
-                                           PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_mk_nk_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemmBF16<DeviceGemmNoOpPtr,
-                                           RowMajor,
-                                           ColumnMajor,
-                                           RowMajor,
-                                           PassThrough,
-                                           PassThrough,
-                                           PassThrough>{}(gemmPtr);
-    }
-
-    std::cout << "TestGemm ..... " << (res ? "SUCCESS" : "FAILURE") << std::endl;
-    return res ? 0 : 1;
-}
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
+#include <algorithm>
+#include <cstdlib>
+#include <iostream>
+#include <numeric>
+#include <tuple>
+#include <vector>
+
+#include "ck/ck.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
+#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
+
+#include "ck/library/utility/check_err.hpp"
+#include "ck/library/host_tensor/device_memory.hpp"
+#include "ck/library/host_tensor/host_tensor.hpp"
+#include "ck/library/host_tensor/host_tensor_generator.hpp"
+#include "ck/library/reference_tensor_operation/cpu/reference_gemm.hpp"
+
+#include "test/gemm/gemm_util.hpp"
+
+using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+using DeviceGemmNoOpPtr =
+    ck::tensor_operation::device::DeviceGemmPtr<ck::tensor_operation::element_wise::PassThrough,
+                                                ck::tensor_operation::element_wise::PassThrough,
+                                                ck::tensor_operation::element_wise::PassThrough>;
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace device_gemm_instance {
+void add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_km_kn_mn_instances(
+    std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_km_nk_mn_instances(
+    std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_mk_nk_mn_instances(
+    std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_mk_kn_mn_instances(
+    std::vector<DeviceGemmNoOpPtr>&);
+} // namespace device_gemm_instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
+
+int main()
+{
+    using ADataType   = ck::bhalf_t;
+    using BDataType   = ck::bhalf_t;
+    using CDataType   = ck::bhalf_t;
+    using AccDataType = float;
+
+    using RowMajor    = ck::tensor_layout::gemm::RowMajor;
+    using ColumnMajor = ck::tensor_layout::gemm::ColumnMajor;
+
+    bool res = true;
+    std::vector<DeviceGemmNoOpPtr> gemmPtrs;
+
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_km_kn_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_km_nk_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       ColumnMajor,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_mk_kn_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       RowMajor,
+                                       RowMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_bf16_bf16_bf16_mk_nk_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       RowMajor,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    std::cout << "TestGemm ..... " << (res ? "SUCCESS" : "FAILURE") << std::endl;
+    return res ? 0 : 1;
+}
--- a/test/gemm/gemm_xdl_fp16.cpp
+++ b/test/gemm/gemm_xdl_fp16.cpp
-#include <algorithm>
-#include <cstdlib>
-#include <iostream>
-#include <numeric>
-#include <tuple>
-#include <vector>
-
-#include "ck/ck.hpp"
-#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
-#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-
-#include "ck/library/utility/check_err.hpp"
-#include "ck/library/host_tensor/device_memory.hpp"
-#include "ck/library/host_tensor/host_tensor.hpp"
-#include "ck/library/host_tensor/host_tensor_generator.hpp"
-#include "ck/library/reference_tensor_operation/cpu/reference_gemm.hpp"
-
-#include "test/gemm/gemm_util.hpp"
-
-using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-using DeviceGemmNoOpPtr =
-    ck::tensor_operation::device::DeviceGemmPtr<ck::tensor_operation::element_wise::PassThrough,
-                                                ck::tensor_operation::element_wise::PassThrough,
-                                                ck::tensor_operation::element_wise::PassThrough>;
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-namespace device_gemm_instance {
-void add_device_gemm_xdl_f16_f16_f16_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_f16_f16_f16_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_f16_f16_f16_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_f16_f16_f16_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-
-void add_device_gemm_xdl_splitk_f16_f16_f16_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_splitk_f16_f16_f16_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_splitk_f16_f16_f16_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_splitk_f16_f16_f16_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-
-void add_device_gemm_xdl_c_shuffle_f16_f16_f16_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_c_shuffle_f16_f16_f16_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_c_shuffle_f16_f16_f16_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_c_shuffle_f16_f16_f16_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-
-void add_device_gemm_xdl_c_shuffle_2_stage_f16_f16_f16_mk_nk_mn_instances(
-    std::vector<DeviceGemmNoOpPtr>&);
-} // namespace device_gemm_instance
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
-
-int main()
-{
-    using ADataType   = ck::half_t;
-    using BDataType   = ck::half_t;
-    using CDataType   = ck::half_t;
-    using AccDataType = float;
-
-    using RowMajor    = ck::tensor_layout::gemm::RowMajor;
-    using ColumnMajor = ck::tensor_layout::gemm::ColumnMajor;
-
-    bool res = true;
-    std::vector<DeviceGemmNoOpPtr> gemmPtrs;
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_f16_f16_f16_km_kn_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_splitk_f16_f16_f16_km_kn_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_f16_f16_f16_km_kn_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_f16_f16_f16_km_nk_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_splitk_f16_f16_f16_km_nk_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_f16_f16_f16_km_nk_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       ColumnMajor,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_f16_f16_f16_mk_kn_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_splitk_f16_f16_f16_mk_kn_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_f16_f16_f16_mk_kn_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       RowMajor,
-                                       RowMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_f16_f16_f16_mk_nk_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_splitk_f16_f16_f16_mk_nk_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_f16_f16_f16_mk_nk_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_2_stage_f16_f16_f16_mk_nk_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       RowMajor,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    std::cout << "TestGemm ..... " << (res ? "SUCCESS" : "FAILURE") << std::endl;
-    return res ? 0 : 1;
-}
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
+#include <algorithm>
+#include <cstdlib>
+#include <iostream>
+#include <numeric>
+#include <tuple>
+#include <vector>
+
+#include "ck/ck.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
+#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
+
+#include "ck/library/utility/check_err.hpp"
+#include "ck/library/host_tensor/device_memory.hpp"
+#include "ck/library/host_tensor/host_tensor.hpp"
+#include "ck/library/host_tensor/host_tensor_generator.hpp"
+#include "ck/library/reference_tensor_operation/cpu/reference_gemm.hpp"
+
+#include "test/gemm/gemm_util.hpp"
+
+using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+using DeviceGemmNoOpPtr =
+    ck::tensor_operation::device::DeviceGemmPtr<ck::tensor_operation::element_wise::PassThrough,
+                                                ck::tensor_operation::element_wise::PassThrough,
+                                                ck::tensor_operation::element_wise::PassThrough>;
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace device_gemm_instance {
+void add_device_gemm_xdl_f16_f16_f16_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_f16_f16_f16_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_f16_f16_f16_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_f16_f16_f16_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+
+#if 0
+void add_device_gemm_xdl_splitk_f16_f16_f16_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_splitk_f16_f16_f16_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_splitk_f16_f16_f16_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_splitk_f16_f16_f16_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+#endif
+
+void add_device_gemm_xdl_c_shuffle_f16_f16_f16_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_c_shuffle_f16_f16_f16_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_c_shuffle_f16_f16_f16_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_c_shuffle_f16_f16_f16_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+
+void add_device_gemm_xdl_c_shuffle_2_stage_f16_f16_f16_mk_nk_mn_instances(
+    std::vector<DeviceGemmNoOpPtr>&);
+} // namespace device_gemm_instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
+
+int main()
+{
+    using ADataType   = ck::half_t;
+    using BDataType   = ck::half_t;
+    using CDataType   = ck::half_t;
+    using AccDataType = float;
+
+    using RowMajor    = ck::tensor_layout::gemm::RowMajor;
+    using ColumnMajor = ck::tensor_layout::gemm::ColumnMajor;
+
+    bool res = true;
+    std::vector<DeviceGemmNoOpPtr> gemmPtrs;
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_f16_f16_f16_km_kn_mn_instances(gemmPtrs);
+#if 0
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_splitk_f16_f16_f16_km_kn_mn_instances(gemmPtrs);
+#endif
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_f16_f16_f16_km_kn_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_f16_f16_f16_km_nk_mn_instances(gemmPtrs);
+#if 0
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_splitk_f16_f16_f16_km_nk_mn_instances(gemmPtrs);
+#endif
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_f16_f16_f16_km_nk_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       ColumnMajor,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_f16_f16_f16_mk_kn_mn_instances(gemmPtrs);
+#if 0
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_splitk_f16_f16_f16_mk_kn_mn_instances(gemmPtrs);
+#endif
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_f16_f16_f16_mk_kn_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       RowMajor,
+                                       RowMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_f16_f16_f16_mk_nk_mn_instances(gemmPtrs);
+#if 0
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_splitk_f16_f16_f16_mk_nk_mn_instances(gemmPtrs);
+#endif
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_f16_f16_f16_mk_nk_mn_instances(gemmPtrs);
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_2_stage_f16_f16_f16_mk_nk_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       RowMajor,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    std::cout << "TestGemm ..... " << (res ? "SUCCESS" : "FAILURE") << std::endl;
+    return res ? 0 : 1;
+}
--- a/test/gemm/gemm_xdl_fp32.cpp
+++ b/test/gemm/gemm_xdl_fp32.cpp
-#include <algorithm>
-#include <cstdlib>
-#include <iostream>
-#include <numeric>
-#include <tuple>
-#include <vector>
-
-#include "ck/ck.hpp"
-#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
-#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-
-#include "ck/library/utility/check_err.hpp"
-#include "ck/library/host_tensor/device_memory.hpp"
-#include "ck/library/host_tensor/host_tensor.hpp"
-#include "ck/library/host_tensor/host_tensor_generator.hpp"
-#include "ck/library/reference_tensor_operation/cpu/reference_gemm.hpp"
-
-#include "test/gemm/gemm_util.hpp"
-
-using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-using DeviceGemmNoOpPtr =
-    ck::tensor_operation::device::DeviceGemmPtr<ck::tensor_operation::element_wise::PassThrough,
-                                                ck::tensor_operation::element_wise::PassThrough,
-                                                ck::tensor_operation::element_wise::PassThrough>;
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-namespace device_gemm_instance {
-void add_device_gemm_xdl_f32_f32_f32_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_f32_f32_f32_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_f32_f32_f32_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_f32_f32_f32_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-
-void add_device_gemm_xdl_splitk_f32_f32_f32_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_splitk_f32_f32_f32_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_splitk_f32_f32_f32_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_splitk_f32_f32_f32_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-
-void add_device_gemm_xdl_c_shuffle_f32_f32_f32_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_c_shuffle_f32_f32_f32_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_c_shuffle_f32_f32_f32_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_c_shuffle_f32_f32_f32_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-
-} // namespace device_gemm_instance
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
-
-int main()
-{
-    using ADataType   = float;
-    using BDataType   = float;
-    using CDataType   = float;
-    using AccDataType = float;
-
-    using RowMajor    = ck::tensor_layout::gemm::RowMajor;
-    using ColumnMajor = ck::tensor_layout::gemm::ColumnMajor;
-
-    bool res = true;
-    std::vector<DeviceGemmNoOpPtr> gemmPtrs;
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_f32_f32_f32_km_kn_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_splitk_f32_f32_f32_km_kn_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_f32_f32_f32_km_kn_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_f32_f32_f32_km_nk_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_splitk_f32_f32_f32_km_nk_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_f32_f32_f32_km_nk_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       ColumnMajor,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_f32_f32_f32_mk_kn_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_splitk_f32_f32_f32_mk_kn_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_f32_f32_f32_mk_kn_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       RowMajor,
-                                       RowMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_f32_f32_f32_mk_nk_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_splitk_f32_f32_f32_mk_nk_mn_instances(gemmPtrs);
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_f32_f32_f32_mk_nk_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       RowMajor,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    std::cout << "TestGemm ..... " << (res ? "SUCCESS" : "FAILURE") << std::endl;
-    return res ? 0 : 1;
-}
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
+#include <algorithm>
+#include <cstdlib>
+#include <iostream>
+#include <numeric>
+#include <tuple>
+#include <vector>
+
+#include "ck/ck.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
+#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
+
+#include "ck/library/utility/check_err.hpp"
+#include "ck/library/host_tensor/device_memory.hpp"
+#include "ck/library/host_tensor/host_tensor.hpp"
+#include "ck/library/host_tensor/host_tensor_generator.hpp"
+#include "ck/library/reference_tensor_operation/cpu/reference_gemm.hpp"
+
+#include "test/gemm/gemm_util.hpp"
+
+using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+using DeviceGemmNoOpPtr =
+    ck::tensor_operation::device::DeviceGemmPtr<ck::tensor_operation::element_wise::PassThrough,
+                                                ck::tensor_operation::element_wise::PassThrough,
+                                                ck::tensor_operation::element_wise::PassThrough>;
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace device_gemm_instance {
+void add_device_gemm_xdl_f32_f32_f32_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_f32_f32_f32_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_f32_f32_f32_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_f32_f32_f32_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+
+#if 0
+void add_device_gemm_xdl_splitk_f32_f32_f32_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_splitk_f32_f32_f32_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_splitk_f32_f32_f32_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_splitk_f32_f32_f32_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+#endif
+
+void add_device_gemm_xdl_c_shuffle_f32_f32_f32_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_c_shuffle_f32_f32_f32_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_c_shuffle_f32_f32_f32_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_c_shuffle_f32_f32_f32_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+
+} // namespace device_gemm_instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
+
+int main()
+{
+    using ADataType   = float;
+    using BDataType   = float;
+    using CDataType   = float;
+    using AccDataType = float;
+
+    using RowMajor    = ck::tensor_layout::gemm::RowMajor;
+    using ColumnMajor = ck::tensor_layout::gemm::ColumnMajor;
+
+    bool res = true;
+    std::vector<DeviceGemmNoOpPtr> gemmPtrs;
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_f32_f32_f32_km_kn_mn_instances(gemmPtrs);
+#if 0
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_splitk_f32_f32_f32_km_kn_mn_instances(gemmPtrs);
+#endif
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_f32_f32_f32_km_kn_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_f32_f32_f32_km_nk_mn_instances(gemmPtrs);
+#if 0
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_splitk_f32_f32_f32_km_nk_mn_instances(gemmPtrs);
+#endif
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_f32_f32_f32_km_nk_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       ColumnMajor,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_f32_f32_f32_mk_kn_mn_instances(gemmPtrs);
+#if 0
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_splitk_f32_f32_f32_mk_kn_mn_instances(gemmPtrs);
+#endif
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_f32_f32_f32_mk_kn_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       RowMajor,
+                                       RowMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_f32_f32_f32_mk_nk_mn_instances(gemmPtrs);
+#if 0
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_splitk_f32_f32_f32_mk_nk_mn_instances(gemmPtrs);
+#endif
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_f32_f32_f32_mk_nk_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       RowMajor,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    std::cout << "TestGemm ..... " << (res ? "SUCCESS" : "FAILURE") << std::endl;
+    return res ? 0 : 1;
+}
--- a/test/gemm/gemm_xdl_fp64.cpp
+++ b/test/gemm/gemm_xdl_fp64.cpp
-#include <algorithm>
-#include <cstdlib>
-#include <iostream>
-#include <numeric>
-#include <tuple>
-#include <vector>
-
-#include "ck/ck.hpp"
-#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
-#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-
-#include "ck/library/utility/check_err.hpp"
-#include "ck/library/host_tensor/device_memory.hpp"
-#include "ck/library/host_tensor/host_tensor.hpp"
-#include "ck/library/host_tensor/host_tensor_generator.hpp"
-#include "ck/library/reference_tensor_operation/cpu/reference_gemm.hpp"
-
-#include "test/gemm/gemm_util.hpp"
-
-using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-using DeviceGemmNoOpPtr =
-    ck::tensor_operation::device::DeviceGemmPtr<ck::tensor_operation::element_wise::PassThrough,
-                                                ck::tensor_operation::element_wise::PassThrough,
-                                                ck::tensor_operation::element_wise::PassThrough>;
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-namespace device_gemm_instance {
-void add_device_gemm_xdl_f64_f64_f64_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_f64_f64_f64_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_f64_f64_f64_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_f64_f64_f64_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-
-} // namespace device_gemm_instance
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
-
-inline std::string get_device_name()
-{
-    hipDeviceProp_t props{};
-    int device;
-    auto status = hipGetDevice(&device);
-    if(status != hipSuccess)
-    {
-        return std::string();
-    }
-
-    status = hipGetDeviceProperties(&props, device);
-    if(status != hipSuccess)
-    {
-        return std::string();
-    }
-    const std::string name(props.gcnArchName);
-
-    return name;
-}
-
-int main()
-{
-    if(get_device_name().find("gfx90a") == std::string::npos)
-    {
-        std::cout << "TestGemm ..... SUCCESS" << std::endl;
-        return 0;
-    }
-    using ADataType   = double;
-    using BDataType   = double;
-    using CDataType   = double;
-    using AccDataType = double;
-
-    using RowMajor    = ck::tensor_layout::gemm::RowMajor;
-    using ColumnMajor = ck::tensor_layout::gemm::ColumnMajor;
-
-    bool res = true;
-    std::vector<DeviceGemmNoOpPtr> gemmPtrs;
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_f64_f64_f64_km_kn_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_f64_f64_f64_km_nk_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       ColumnMajor,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_f64_f64_f64_mk_kn_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       RowMajor,
-                                       RowMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_f64_f64_f64_mk_nk_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       RowMajor,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-    std::cout << "TestGemm ..... " << (res ? "SUCCESS" : "FAILURE") << std::endl;
-    return res ? 0 : 1;
-}
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
+#include <algorithm>
+#include <cstdlib>
+#include <iostream>
+#include <numeric>
+#include <tuple>
+#include <vector>
+
+#include "ck/ck.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
+#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
+
+#include "ck/library/utility/check_err.hpp"
+#include "ck/library/host_tensor/device_memory.hpp"
+#include "ck/library/host_tensor/host_tensor.hpp"
+#include "ck/library/host_tensor/host_tensor_generator.hpp"
+#include "ck/library/reference_tensor_operation/cpu/reference_gemm.hpp"
+
+#include "test/gemm/gemm_util.hpp"
+
+using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+using DeviceGemmNoOpPtr =
+    ck::tensor_operation::device::DeviceGemmPtr<ck::tensor_operation::element_wise::PassThrough,
+                                                ck::tensor_operation::element_wise::PassThrough,
+                                                ck::tensor_operation::element_wise::PassThrough>;
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace device_gemm_instance {
+void add_device_gemm_xdl_f64_f64_f64_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_f64_f64_f64_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_f64_f64_f64_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_f64_f64_f64_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+
+} // namespace device_gemm_instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
+
+inline std::string get_device_name()
+{
+    hipDeviceProp_t props{};
+    int device;
+    auto status = hipGetDevice(&device);
+    if(status != hipSuccess)
+    {
+        return std::string();
+    }
+
+    status = hipGetDeviceProperties(&props, device);
+    if(status != hipSuccess)
+    {
+        return std::string();
+    }
+    const std::string name(props.gcnArchName);
+
+    return name;
+}
+
+int main()
+{
+    if(get_device_name().find("gfx90a") == std::string::npos)
+    {
+        std::cout << "TestGemm ..... SUCCESS" << std::endl;
+        return 0;
+    }
+    using ADataType   = double;
+    using BDataType   = double;
+    using CDataType   = double;
+    using AccDataType = double;
+
+    using RowMajor    = ck::tensor_layout::gemm::RowMajor;
+    using ColumnMajor = ck::tensor_layout::gemm::ColumnMajor;
+
+    bool res = true;
+    std::vector<DeviceGemmNoOpPtr> gemmPtrs;
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_f64_f64_f64_km_kn_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_f64_f64_f64_km_nk_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       ColumnMajor,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_f64_f64_f64_mk_kn_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       RowMajor,
+                                       RowMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_f64_f64_f64_mk_nk_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       RowMajor,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+    std::cout << "TestGemm ..... " << (res ? "SUCCESS" : "FAILURE") << std::endl;
+    return res ? 0 : 1;
+}
--- a/test/gemm/gemm_xdl_int8.cpp
+++ b/test/gemm/gemm_xdl_int8.cpp
-#include <algorithm>
-#include <cstdlib>
-#include <iostream>
-#include <numeric>
-#include <tuple>
-#include <vector>
-
-#include "ck/ck.hpp"
-#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
-#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-
-#include "ck/library/utility/check_err.hpp"
-#include "ck/library/host_tensor/device_memory.hpp"
-#include "ck/library/host_tensor/host_tensor.hpp"
-#include "ck/library/host_tensor/host_tensor_generator.hpp"
-#include "ck/library/reference_tensor_operation/cpu/reference_gemm.hpp"
-
-#include "test/gemm/gemm_util.hpp"
-
-using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-using DeviceGemmNoOpPtr =
-    ck::tensor_operation::device::DeviceGemmPtr<ck::tensor_operation::element_wise::PassThrough,
-                                                ck::tensor_operation::element_wise::PassThrough,
-                                                ck::tensor_operation::element_wise::PassThrough>;
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-namespace device_gemm_instance {
-void add_device_gemm_xdl_c_shuffle_i8_i8_i8_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_c_shuffle_i8_i8_i8_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_c_shuffle_i8_i8_i8_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-void add_device_gemm_xdl_c_shuffle_i8_i8_i8_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
-} // namespace device_gemm_instance
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
-
-int main()
-{
-    using ADataType   = int8_t;
-    using BDataType   = int8_t;
-    using CDataType   = int8_t;
-    using AccDataType = int32_t;
-
-    using RowMajor    = ck::tensor_layout::gemm::RowMajor;
-    using ColumnMajor = ck::tensor_layout::gemm::ColumnMajor;
-
-    std::vector<DeviceGemmNoOpPtr> gemmPtrs;
-    bool res = true;
-
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_i8_i8_i8_km_kn_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_i8_i8_i8_km_nk_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       ColumnMajor,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_i8_i8_i8_mk_kn_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       RowMajor,
-                                       RowMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    gemmPtrs.clear();
-    ck::tensor_operation::device::device_gemm_instance::
-        add_device_gemm_xdl_c_shuffle_i8_i8_i8_mk_nk_mn_instances(gemmPtrs);
-
-    for(auto& gemmPtr : gemmPtrs)
-    {
-        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
-                                       ADataType,
-                                       BDataType,
-                                       CDataType,
-                                       AccDataType,
-                                       RowMajor,
-                                       ColumnMajor,
-                                       RowMajor,
-                                       PassThrough,
-                                       PassThrough,
-                                       PassThrough>{}(gemmPtr);
-    }
-
-    std::cout << "TestGemm ..... " << (res ? "SUCCESS" : "FAILURE") << std::endl;
-    return res ? 0 : 1;
-}
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+
+#include <algorithm>
+#include <cstdlib>
+#include <iostream>
+#include <numeric>
+#include <tuple>
+#include <vector>
+
+#include "ck/ck.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
+#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
+
+#include "ck/library/utility/check_err.hpp"
+#include "ck/library/host_tensor/device_memory.hpp"
+#include "ck/library/host_tensor/host_tensor.hpp"
+#include "ck/library/host_tensor/host_tensor_generator.hpp"
+#include "ck/library/reference_tensor_operation/cpu/reference_gemm.hpp"
+
+#include "test/gemm/gemm_util.hpp"
+
+using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+using DeviceGemmNoOpPtr =
+    ck::tensor_operation::device::DeviceGemmPtr<ck::tensor_operation::element_wise::PassThrough,
+                                                ck::tensor_operation::element_wise::PassThrough,
+                                                ck::tensor_operation::element_wise::PassThrough>;
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace device_gemm_instance {
+void add_device_gemm_xdl_c_shuffle_i8_i8_i8_km_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_c_shuffle_i8_i8_i8_km_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_c_shuffle_i8_i8_i8_mk_nk_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+void add_device_gemm_xdl_c_shuffle_i8_i8_i8_mk_kn_mn_instances(std::vector<DeviceGemmNoOpPtr>&);
+} // namespace device_gemm_instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
+
+int main()
+{
+    using ADataType   = int8_t;
+    using BDataType   = int8_t;
+    using CDataType   = int8_t;
+    using AccDataType = int32_t;
+
+    using RowMajor    = ck::tensor_layout::gemm::RowMajor;
+    using ColumnMajor = ck::tensor_layout::gemm::ColumnMajor;
+
+    std::vector<DeviceGemmNoOpPtr> gemmPtrs;
+    bool res = true;
+
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_i8_i8_i8_km_kn_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_i8_i8_i8_km_nk_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       ColumnMajor,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_i8_i8_i8_mk_kn_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       RowMajor,
+                                       RowMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    gemmPtrs.clear();
+    ck::tensor_operation::device::device_gemm_instance::
+        add_device_gemm_xdl_c_shuffle_i8_i8_i8_mk_nk_mn_instances(gemmPtrs);
+
+    for(auto& gemmPtr : gemmPtrs)
+    {
+        res &= ck::gemm_util::TestGemm<DeviceGemmNoOpPtr,
+                                       ADataType,
+                                       BDataType,
+                                       CDataType,
+                                       AccDataType,
+                                       RowMajor,
+                                       ColumnMajor,
+                                       RowMajor,
+                                       PassThrough,
+                                       PassThrough,
+                                       PassThrough>{}(gemmPtr);
+    }
+
+    std::cout << "TestGemm ..... " << (res ? "SUCCESS" : "FAILURE") << std::endl;
+    return res ? 0 : 1;
+}