Refactor elementwise kernels (#1222)

* Refactor elementwise kernels * Instances fixes * Fix cmake * Fix max pool bwd test * Update two stage gemm split k * Restore elementwise scale for hiptensor backward compatiblity * Fix Acc data type check in conv fwd multiple abd * Disable conv fp64 fwd example * Update grouped conv weight multi d

Refactor elementwise kernels (#1222)
* Refactor elementwise kernels * Instances fixes * Fix cmake * Fix max pool bwd test * Update two stage gemm split k * Restore elementwise scale for hiptensor backward compatiblity * Fix Acc data type check in conv fwd multiple abd * Disable conv fp64 fwd example * Update grouped conv weight multi d
ad1597c4 · Bartłomiej Kocot · GitHub · e0f3f918 · ad1597c4 · ad1597c4
Unverified Commit ad1597c4 authored Apr 19, 2024 by Bartłomiej Kocot Committed by GitHub Apr 19, 2024
18 changed files
--- a/include/ck/tensor_operation/gpu/device/impl/device_elementwise_scale_impl.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_elementwise_scale_impl.hpp
@@ -19,6 +19,10 @@ namespace ck {
 namespace tensor_operation {
 namespace device {

+/**
+ * \note This structure is deprecated (left for backwards compatibility). Please use
+ *       DeviceElementwiseImpl from device_elementwise_dynamic_vector_dims_impl.hpp.
+ */
 template <typename InDataTypeTuple,
          typename OutDataTypeTuple,
          typename ElementwiseOperation,

--- a/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_bwd_weight_multiple_d_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_bwd_weight_multiple_d_xdl_cshuffle.hpp
@@ -15,7 +15,7 @@
 #include "ck/tensor_operation/gpu/device/device_grouped_conv_bwd_weight_multiple_d.hpp"
 #include "ck/tensor_operation/operator_transform/transform_conv_bwd_weight_to_gemm.hpp"
 #include "ck/tensor_operation/gpu/device/convolution_backward_weight_specialization.hpp"
-#include "ck/tensor_operation/gpu/grid/gridwise_elementwise_dynamic_vector_dims.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_elementwise_2d.hpp"
 #include "ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_bwd_weight.hpp"
 #include <ck/tensor_operation/gpu/grid/block_to_ctile_map.hpp>
 #include "ck/tensor_operation/gpu/device/impl/device_grouped_conv_utils.hpp"
@@ -522,7 +522,8 @@ struct DeviceGroupedConvBwdWeightMultipleD_Xdl_CShuffle
                            Sequence<0, 1>,
                            decltype(MakeElementwiseInputSequence()),
                            Sequence<CBlockTransferScalarPerVector_NWaveNPerXdl>,
-                            true>;
+                            I1,
+                            I1>;

    // Argument
    using CGridDesc_MBlock_MPerBlock_NBlock_NPerBlock =

--- a/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_abd_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_grouped_conv_fwd_multiple_abd_xdl_cshuffle.hpp
@@ -814,8 +814,8 @@ struct DeviceGroupedConvFwdMultipleABD_Xdl_CShuffle
        // check device
        if(get_device_name() == "gfx908")
        {
-            if constexpr(!(is_same_v<AccDataType, float> || is_same_v<AccDataType, float> ||
-                           is_same_v<AccDataType, int32_t>))
+            // FIXME: re-enable fp64 when SWDEV-335738 is fixed
+            if constexpr(!(is_same_v<AccDataType, float> || is_same_v<AccDataType, int32_t>))
            {
                return false;
            }

--- a/include/ck/tensor_operation/gpu/device/impl/device_grouped_gemm_multiple_d_splitk_xdl_cshuffle_two_stage.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_grouped_gemm_multiple_d_splitk_xdl_cshuffle_two_stage.hpp
@@ -19,7 +19,7 @@
 #include "ck/tensor_description/tensor_descriptor_helper.hpp"
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
 #include "ck/tensor_operation/gpu/device/device_grouped_gemm_multiple_d_splitk.hpp"
-#include "ck/tensor_operation/gpu/grid/gridwise_elementwise_dynamic_vector_dims.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_elementwise_2d.hpp"
 #include "ck/tensor_operation/gpu/device/impl/device_grouped_gemm_xdl_splitk_cshuffle.hpp"
 #include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
 #include <ck/tensor_operation/gpu/grid/block_to_ctile_map.hpp>
@@ -252,7 +252,8 @@ struct DeviceGroupedGemmMultipleDSplitKXdlCShuffleTwoStage
                            Sequence<0, 1>,
                            ElementwiseInputSequence,
                            ck::Sequence<CDEShuffleBlockTransferScalarPerVector_NPerBlock>,
-                            true>;
+                            I1,
+                            I1>;

    // Block2CTileMap configuration parameter.
    static constexpr index_t B2E_M01 = 8;

--- a/include/ck/tensor_operation/gpu/device/impl/device_max_pool_bwd_impl.hpp
+++ b/include/ck/tensor_operation/gpu/device/impl/device_max_pool_bwd_impl.hpp
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.

 #pragma once

@@ -8,10 +8,13 @@

 #include "ck/tensor_description/tensor_descriptor.hpp"
 #include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "ck/tensor_operation/gpu/device/device_max_pool_bwd.hpp"
+
+#include "ck/tensor_operation/gpu/grid/block_to_ctile_map.hpp"
 #include "ck/tensor_operation/gpu/grid/gridwise_put_element_1d.hpp"
-#include "ck/tensor_operation/gpu/grid/gridwise_elementwise_1d.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_elementwise_2d.hpp"
+#include "ck/tensor_operation/gpu/device/device_max_pool_bwd.hpp"
 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
+
 #include "ck/host_utility/device_prop.hpp"
 #include "ck/host_utility/kernel_launch.hpp"
 #include "ck/host_utility/stream_utility.hpp"
@@ -36,9 +39,10 @@ struct DeviceMaxPoolBwdImpl : public DeviceMaxPoolBwd<DOutDataType, IndexDataTyp
    using UnaryConvert = ck::tensor_operation::element_wise::UnaryConvert;

    static constexpr auto I0 = Number<0>{};
+    static constexpr auto I1 = Number<1>{};

    template <typename Desc_M>
-    static auto PadDescriptor_M_1d(Desc_M desc_m, index_t loop_step)
+    static auto PadDescriptor_M_1d(Desc_M& desc_m, index_t loop_step)
    {
        const auto m   = desc_m.GetLength(I0);
        const auto pad = math::integer_least_multiple(m, loop_step) - m;
@@ -56,7 +60,18 @@ struct DeviceMaxPoolBwdImpl : public DeviceMaxPoolBwd<DOutDataType, IndexDataTyp
        return PadDescriptor_M_1d(desc_m, loop_step);
    }

+    template <typename Desc_M>
+    static auto ExpendDescFirstDim(Desc_M desc_m)
+    {
+        return transform_tensor_descriptor(
+            desc_m,
+            make_tuple(make_unmerge_transform(make_tuple(I1, desc_m.GetLength(I0)))),
+            make_tuple(Sequence<0>{}),
+            make_tuple(Sequence<0, 1>{}));
+    }
+
    using InOutGrid1dDesc = decltype(MakeDescriptor_M(1, 1));
+    using InOutGrid2dDesc = decltype(ExpendDescFirstDim(InOutGrid1dDesc{}));

    using GridwisePutElementSet = GridwisePutElement_1D<InOutGrid1dDesc,
                                                        DOutDataType,
@@ -74,14 +89,30 @@ struct DeviceMaxPoolBwdImpl : public DeviceMaxPoolBwd<DOutDataType, IndexDataTyp
                                                              InMemoryDataOperationEnum::AtomicAdd,
                                                              InOutVectorSize>;

-    using GridwiseCasting = GridwiseElementwise_1D<Tuple<InOutGrid1dDesc>,
-                                                   Tuple<InOutGrid1dDesc>,
-                                                   Tuple<const DInDataType_AutomicAddPreCast*>,
-                                                   Tuple<DInDataType*>,
-                                                   UnaryConvert,
-                                                   InOutVectorSize,
-                                                   Sequence<InOutVectorSize>,
-                                                   Sequence<InOutVectorSize>>;
+    static constexpr index_t BlockSize  = 256;
+    static constexpr index_t MPerThread = 1;
+    static constexpr index_t NPerThread = InOutVectorSize;
+    static constexpr index_t MPerBlock  = 1;
+    static constexpr index_t NPerBlock  = BlockSize * NPerThread;
+
+    using Block2TileMap = BlockToCTileMap_M00_N0_M01Adapt<MPerBlock, NPerBlock>;
+
+    using GridwiseCasting = GridwiseElementwise<Tuple<InOutGrid2dDesc>,
+                                                Tuple<InOutGrid2dDesc>,
+                                                Tuple<const DInDataType_AutomicAddPreCast*>,
+                                                Tuple<DInDataType*>,
+                                                Block2TileMap,
+                                                UnaryConvert,
+                                                BlockSize,
+                                                MPerBlock,
+                                                NPerBlock,
+                                                MPerThread,
+                                                NPerThread,
+                                                Sequence<0, 1>,
+                                                Sequence<InOutVectorSize>,
+                                                Sequence<InOutVectorSize>,
+                                                I1,
+                                                I1>;

    struct Argument : public BaseArgument
    {
@@ -98,7 +129,7 @@ struct DeviceMaxPoolBwdImpl : public DeviceMaxPoolBwd<DOutDataType, IndexDataTyp
              p_din_{p_din},
              dout_length_raw_{dout_length},
              din_length_raw_{din_length},
-              blockSize_{256},
+              blockSize_{BlockSize},
              windowOverlap_{false}
        {
            for(size_t i = 0; i < window_lengths.size(); ++i)
@@ -195,12 +226,13 @@ struct DeviceMaxPoolBwdImpl : public DeviceMaxPoolBwd<DOutDataType, IndexDataTyp
                                                                  PassThrough>;

                    const auto cast_kernel =
-                        kernel_elementwise_1d<GridwiseCasting,
-                                              Tuple<InOutGrid1dDesc>,
-                                              Tuple<InOutGrid1dDesc>,
-                                              Tuple<const DInDataType_AutomicAddPreCast*>,
-                                              Tuple<DInDataType*>,
-                                              UnaryConvert>;
+                        kernel_elementwise<GridwiseCasting,
+                                           Tuple<InOutGrid2dDesc>,
+                                           Tuple<InOutGrid2dDesc>,
+                                           Tuple<const DInDataType_AutomicAddPreCast*>,
+                                           Tuple<DInDataType*>,
+                                           Block2TileMap,
+                                           UnaryConvert>;

                    float elapsed_time = launch_and_time_kernel(
                        stream_config,
@@ -214,16 +246,25 @@ struct DeviceMaxPoolBwdImpl : public DeviceMaxPoolBwd<DOutDataType, IndexDataTyp
                        static_cast<DInDataType_AutomicAddPreCast*>(arg.p_workspace_),
                        PassThrough{});

+                    InOutGrid2dDesc din_grid_desc_2d = ExpendDescFirstDim(din_grid_desc);
+                    const index_t M                  = din_grid_desc_2d.GetLength(I0);
+                    const index_t N                  = din_grid_desc_2d.GetLength(I1);
+                    const auto block_2_tile_map      = Block2TileMap(M, N);
+                    const auto cast_kernel_grid_size =
+                        block_2_tile_map.CalculateGridSize(din_grid_desc_2d);
+
                    elapsed_time += launch_and_time_kernel(
                        stream_config,
                        cast_kernel,
-                        dim3(gridSize),
+                        dim3(cast_kernel_grid_size),
                        dim3(arg.blockSize_),
                        0,
-                        ck::make_tuple(din_grid_desc),
-                        ck::make_tuple(din_grid_desc),
-                        static_cast<DInDataType_AutomicAddPreCast*>(arg.p_workspace_),
-                        arg.p_din_,
+                        ck::make_tuple(din_grid_desc_2d),
+                        ck::make_tuple(din_grid_desc_2d),
+                        ck::make_tuple(
+                            static_cast<const DInDataType_AutomicAddPreCast*>(arg.p_workspace_)),
+                        ck::make_tuple(arg.p_din_),
+                        block_2_tile_map,
                        UnaryConvert{});

                    return elapsed_time;

--- a/include/ck/tensor_operation/gpu/grid/gridwise_elementwise_1d.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_elementwise_1d.hpp
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
-
-#pragma once
-
-#include "ck/tensor_description/cluster_descriptor.hpp"
-#include "ck/utility/data_type.hpp"
-#include "ck/tensor_operation/gpu/thread/threadwise_tensor_slice_transfer.hpp"
-#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-
-namespace ck {
-
-template <typename GridwiseElementwise1dFunctor,
-          typename InGrid1dDescTuple,
-          typename OutGrid1dDescTuple,
-          typename InDataTypePointerTuple,
-          typename OutDataTypePointerTuple,
-          typename ElementwiseOperation>
-__global__ void kernel_elementwise_1d(const InGrid1dDescTuple in_grid_1d_desc_tuple,
-                                      const OutGrid1dDescTuple out_grid_1d_desc_tuple,
-                                      const InDataTypePointerTuple p_in_global_tuple,
-                                      const OutDataTypePointerTuple p_out_global_tuple,
-                                      const ElementwiseOperation elementwise_op)
-{
-    GridwiseElementwise1dFunctor::Run(in_grid_1d_desc_tuple,
-                                      out_grid_1d_desc_tuple,
-                                      p_in_global_tuple,
-                                      p_out_global_tuple,
-                                      elementwise_op);
-}
-
-template <typename InGrid1dDescTuple,
-          typename OutGrid1dDescTuple,
-          typename InDataTypePointerTuple,
-          typename OutDataTypePointerTuple,
-          typename ElementwiseOperation,
-          index_t MPerThread,
-          typename InScalarPerVectorSeq,
-          typename OutScalarPerVectorSeq>
-struct GridwiseElementwise_1D
-{
-    static constexpr index_t NumInput  = InDataTypePointerTuple::Size();
-    static constexpr index_t NumOutput = OutDataTypePointerTuple::Size();
-
-    static_assert(NumInput == InScalarPerVectorSeq::Size() &&
-                      NumOutput == OutScalarPerVectorSeq::Size() &&
-                      NumInput == InGrid1dDescTuple::Size() &&
-                      NumOutput == OutGrid1dDescTuple::Size(),
-                  "Tuple size is inconsistent with the number of in/out!");
-
-    static constexpr auto I0 = Number<0>{};
-
-    static constexpr auto thread_buffer_desc_m =
-        make_naive_tensor_descriptor_packed(make_tuple(Number<MPerThread>{}));
-
-    using PassThroughOp = tensor_operation::element_wise::PassThrough;
-
-    __device__ static void Run(const InGrid1dDescTuple in_grid_1d_desc_tuple,
-                               const OutGrid1dDescTuple out_grid_1d_desc_tuple,
-                               const InDataTypePointerTuple p_in_global_tuple,
-                               const OutDataTypePointerTuple p_out_global_tuple,
-                               const ElementwiseOperation elementwise_op)
-    {
-        const index_t thread_global_id = get_thread_global_1d_id();
-
-        auto in_thread_buf_tuple = generate_tuple(
-            [&](auto I) {
-                using DataTypePointer = remove_cvref_t<decltype(InDataTypePointerTuple{}[I])>;
-                using DataType        = remove_cv_t<remove_pointer_t<DataTypePointer>>;
-
-                return StaticBuffer<AddressSpaceEnum::Vgpr, DataType, MPerThread, true>{};
-            },
-            Number<NumInput>{});
-
-        auto out_thread_buf_tuple = generate_tuple(
-            [&](auto I) {
-                using DataTypePointer = remove_cvref_t<decltype(OutDataTypePointerTuple{}[I])>;
-                using DataType        = remove_pointer_t<DataTypePointer>;
-
-                return StaticBuffer<AddressSpaceEnum::Vgpr, DataType, MPerThread, true>{};
-            },
-            Number<NumOutput>{});
-
-        auto in_global_buf_tuple = generate_tuple(
-            [&](auto I) {
-                static_assert(in_grid_1d_desc_tuple[I].GetNumOfDimension() == 1);
-
-                return make_dynamic_buffer<AddressSpaceEnum::Global>(
-                    p_in_global_tuple[I], in_grid_1d_desc_tuple[I].GetElementSpaceSize());
-            },
-            Number<NumInput>{});
-
-        auto out_global_buf_tuple = generate_tuple(
-            [&](auto I) {
-                static_assert(out_grid_1d_desc_tuple[I].GetNumOfDimension() == 1);
-
-                return make_dynamic_buffer<AddressSpaceEnum::Global>(
-                    p_out_global_tuple[I], out_grid_1d_desc_tuple[I].GetElementSpaceSize());
-            },
-            Number<NumOutput>{});
-
-        const auto thread_global_offset = make_multi_index(thread_global_id * MPerThread);
-
-        const index_t blockSize    = get_block_size();
-        const index_t blockPerGrid = get_grid_size();
-        const auto M               = in_grid_1d_desc_tuple[I0].GetLength(I0);
-        const index_t loop_step    = blockPerGrid * blockSize * MPerThread;
-        const auto loop_step_index = make_multi_index(loop_step);
-
-        auto in_global_load_tuple = generate_tuple(
-            [&](auto I) {
-                using DataTypePointer = remove_cvref_t<decltype(InDataTypePointerTuple{}[I])>;
-                using DataType        = remove_cv_t<remove_pointer_t<DataTypePointer>>;
-
-                return ThreadwiseTensorSliceTransfer_v2<DataType,
-                                                        DataType,
-                                                        decltype(in_grid_1d_desc_tuple[I]),
-                                                        decltype(thread_buffer_desc_m),
-                                                        Sequence<MPerThread>, // SliceLengths
-                                                        Sequence<0>,          // DimAccessOrder
-                                                        0,                    // SrcVectorDim
-                                                        InScalarPerVectorSeq::At(
-                                                            I), // ScalarPerVector
-                                                        1,      // SrcScalarStrideInVector
-                                                        false>{in_grid_1d_desc_tuple[I],
-                                                               thread_global_offset};
-            },
-            Number<NumInput>{});
-
-        auto out_global_store_tuple = generate_tuple(
-            [&](auto I) {
-                using DataTypePointer = remove_cvref_t<decltype(OutDataTypePointerTuple{}[I])>;
-                using DataType        = remove_pointer_t<DataTypePointer>;
-
-                return ThreadwiseTensorSliceTransfer_v1r3<DataType,
-                                                          DataType,
-                                                          decltype(thread_buffer_desc_m),
-                                                          decltype(out_grid_1d_desc_tuple[I]),
-                                                          PassThroughOp,
-                                                          Sequence<MPerThread>, // SliceLengths
-                                                          Sequence<0>,          // DimAccessOrder
-                                                          0,                    // SrcVectorDim
-                                                          OutScalarPerVectorSeq::At(I),
-                                                          InMemoryDataOperationEnum::Set,
-                                                          1,
-                                                          false>(
-                    out_grid_1d_desc_tuple[I], thread_global_offset, PassThroughOp{});
-            },
-            Number<NumOutput>{});
-
-        index_t num_iter = M / (loop_step);
-        do
-        {
-            static_for<0, NumInput, 1>{}([&](auto I) {
-                in_global_load_tuple(I).Run(in_grid_1d_desc_tuple[I],
-                                            in_global_buf_tuple[I],
-                                            thread_buffer_desc_m,
-                                            make_tuple(I0),
-                                            in_thread_buf_tuple(I));
-
-                in_global_load_tuple(I).MoveSrcSliceWindow(in_grid_1d_desc_tuple[I],
-                                                           loop_step_index);
-            });
-
-            static_for<0, MPerThread, 1>{}([&](auto iM) {
-                // get reference to in data
-                const auto in_data_refs = generate_tie(
-                    // return type should be lvalue
-                    [&](auto I) -> const auto& { return in_thread_buf_tuple(I)(iM); },
-                    Number<NumInput>{});
-
-                // get reference to dst data
-                auto out_data_refs = generate_tie(
-                    // return type should be lvalue
-                    [&](auto I) -> auto& { return out_thread_buf_tuple(I)(iM); },
-                    Number<NumOutput>{});
-
-                unpack2(elementwise_op, out_data_refs, in_data_refs);
-            });
-
-            static_for<0, NumOutput, 1>{}([&](auto I) {
-                out_global_store_tuple(I).Run(thread_buffer_desc_m,
-                                              make_tuple(I0),
-                                              out_thread_buf_tuple[I],
-                                              out_grid_1d_desc_tuple[I],
-                                              out_global_buf_tuple(I));
-
-                out_global_store_tuple(I).MoveDstSliceWindow(out_grid_1d_desc_tuple[I],
-                                                             loop_step_index);
-            });
-        } while(--num_iter);
-    }
-};
-
-} // namespace ck
--- a/include/ck/tensor_operation/gpu/grid/gridwise_elementwise_1d_scale.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_elementwise_1d_scale.hpp
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.

 #pragma once


--- a/include/ck/tensor_operation/gpu/grid/gridwise_elementwise_2d.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_elementwise_2d.hpp
 // SPDX-License-Identifier: MIT
-// // Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
-//
+// Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+
 #pragma once

 #include "ck/tensor_description/cluster_descriptor.hpp"
 #include "ck/utility/data_type.hpp"
 #include "ck/tensor_operation/gpu/thread/threadwise_tensor_slice_transfer.hpp"
 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
+#include "ck/tensor_operation/gpu/block/thread_group_tensor_slice_transfer_v7r2.hpp"
+#include "ck/tensor_operation/gpu/block/thread_group_tensor_slice_transfer_v4r2.hpp"
+#include "ck/tensor_operation/gpu/thread/threadwise_tensor_slice_transfer.hpp"
+#include "ck/tensor/static_tensor.hpp"
+#include "ck/utility/common_header.hpp"

 namespace ck {

-template <typename GridwiseElementwise2dFunctor,
-          typename InGrid2dDescTuple,
-          typename OutGrid2dDescTuple,
+template <typename GridwiseElementwiseFunctor,
+          typename InGridDescTuple,
+          typename OutGridDescTuple,
          typename InDataTypePointerTuple,
          typename OutDataTypePointerTuple,
+          typename Block2TileMap,
          typename ElementwiseOperation>
-__global__ void kernel_elementwise_2d(const InGrid2dDescTuple in_grid_2d_desc_tuple,
-                                      const OutGrid2dDescTuple out_grid_2d_desc_tuple,
-                                      const InDataTypePointerTuple p_in_global_tuple,
-                                      const OutDataTypePointerTuple p_out_global_tuple,
-                                      const ElementwiseOperation elementwise_op,
-                                      const index_t num_threads_m,
-                                      const index_t num_threads_n)
+__global__ void
+#if CK_USE_LAUNCH_BOUNDS
+    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
+#endif
+        kernel_elementwise(const InGridDescTuple in_grid_desc_tuple,
+                           const OutGridDescTuple out_grid_desc_tuple,
+                           const InDataTypePointerTuple p_in_global_tuple,
+                           const OutDataTypePointerTuple p_out_global_tuple,
+                           const Block2TileMap block_2_tile_map,
+                           const ElementwiseOperation elementwise_op)
 {
-    GridwiseElementwise2dFunctor::Run(in_grid_2d_desc_tuple,
-                                      out_grid_2d_desc_tuple,
-                                      p_in_global_tuple,
-                                      p_out_global_tuple,
-                                      elementwise_op,
-                                      num_threads_m,
-                                      num_threads_n);
+    GridwiseElementwiseFunctor::Run(in_grid_desc_tuple,
+                                    out_grid_desc_tuple,
+                                    p_in_global_tuple,
+                                    p_out_global_tuple,
+                                    block_2_tile_map,
+                                    elementwise_op);
 }

-template <typename InGrid2dDescTuple,
-          typename OutGrid2dDescTuple,
+template <typename GridwiseElementwiseFunctor,
+          typename InGridDescTuple,
+          typename OutGridDescTuple,
          typename InDataTypePointerTuple,
          typename OutDataTypePointerTuple,
+          typename Block2TileMap,
          typename ElementwiseOperation,
-          index_t MPerThread,
-          index_t NPerThread,
+          index_t NumInputs,
+          index_t NumOutputs>
+__global__ void
+#if CK_USE_LAUNCH_BOUNDS
+    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
+#endif
+        kernel_batched_elementwise(const InGridDescTuple in_grid_desc_tuple,
+                                   const OutGridDescTuple out_grid_desc_tuple,
+                                   const InDataTypePointerTuple p_in_global_tuple,
+                                   const OutDataTypePointerTuple p_out_global_tuple,
+                                   const Block2TileMap block_2_tile_map,
+                                   const ElementwiseOperation elementwise_op,
+                                   const index_t batch_count,
+                                   const std::array<index_t, NumInputs> input_batch_strides,
+                                   const std::array<index_t, NumOutputs> output_batch_strides)
+{
+    static_assert(InGridDescTuple::Size() == NumInputs &&
+                  InDataTypePointerTuple::Size() == NumInputs);
+    static_assert(OutGridDescTuple::Size() == NumOutputs &&
+                  OutDataTypePointerTuple::Size() == NumOutputs);
+
+    const index_t num_blocks_per_batch =
+        __builtin_amdgcn_readfirstlane(get_grid_size() / batch_count);
+    const index_t g_idx = __builtin_amdgcn_readfirstlane(get_block_1d_id() / num_blocks_per_batch);
+
+    InDataTypePointerTuple p_in_global_with_offset_tuple;
+    OutDataTypePointerTuple p_out_global_with_offset_tuple;
+
+    static_for<0, InDataTypePointerTuple::Size(), 1>{}([&](auto i) {
+        p_in_global_with_offset_tuple(i) = p_in_global_tuple.At(i) + input_batch_strides[i] * g_idx;
+    });
+
+    static_for<0, OutDataTypePointerTuple::Size(), 1>{}([&](auto i) {
+        p_out_global_with_offset_tuple(i) =
+            p_out_global_tuple.At(i) + output_batch_strides[i] * g_idx;
+    });
+
+    GridwiseElementwiseFunctor::Run(in_grid_desc_tuple,
+                                    out_grid_desc_tuple,
+                                    p_in_global_with_offset_tuple,
+                                    p_out_global_with_offset_tuple,
+                                    block_2_tile_map,
+                                    elementwise_op);
+}
+
+template <typename InGridDescTuple,
+          typename OutGridDescTuple,
+          typename InDataTypePointerTuple,
+          typename OutDataTypePointerTuple,
+          typename Block2TileMap,
+          typename ElementwiseOperation,
+          index_t BlockSize,
+          index_t M0PerBlock,
+          index_t M1PerBlock,
+          index_t M0PerThread,
+          index_t M1PerThread,
+          typename ThreadClusterArrangeOrder,
          typename InScalarPerVectorSeq,
-          typename OutScalarPerVectorSeq>
-struct GridwiseElementwise_2D
+          typename OutScalarPerVectorSeq,
+          index_t SrcVectorDim,
+          index_t DstVectorDim>
+struct GridwiseElementwise
 {
    static constexpr index_t NumInput  = InDataTypePointerTuple::Size();
    static constexpr index_t NumOutput = OutDataTypePointerTuple::Size();

    static_assert(NumInput == InScalarPerVectorSeq::Size() &&
                      NumOutput == OutScalarPerVectorSeq::Size() &&
-                      NumInput == InGrid2dDescTuple::Size() &&
-                      NumOutput == OutGrid2dDescTuple::Size(),
+                      NumInput == InGridDescTuple::Size() && NumOutput == OutGridDescTuple::Size(),
                  "Tuple size is inconsistent with the number of in/out!");

    static constexpr auto I0 = Number<0>{};
    static constexpr auto I1 = Number<1>{};

-    static constexpr auto thread_buffer_desc_mn =
-        make_naive_tensor_descriptor_packed(make_tuple(Number<MPerThread>{}, Number<NPerThread>{}));
+    static_assert((SrcVectorDim == I0 || SrcVectorDim == I1) &&
+                      (DstVectorDim == I0 || DstVectorDim == I1),
+                  "Vector dim must be equal to 0 or 1.");

    using PassThroughOp = tensor_operation::element_wise::PassThrough;

-    __device__ static void Run(const InGrid2dDescTuple in_grid_2d_desc_tuple,
-                               const OutGrid2dDescTuple out_grid_2d_desc_tuple,
-                               const InDataTypePointerTuple p_in_global_tuple,
-                               const OutDataTypePointerTuple p_out_global_tuple,
-                               const ElementwiseOperation elementwise_op,
-                               const index_t num_threads_m,
-                               const index_t num_threads_n)
+    __device__ static void Run(const InGridDescTuple& in_grid_desc_tuple,
+                               const OutGridDescTuple& out_grid_desc_tuple,
+                               const InDataTypePointerTuple& p_in_global_tuple,
+                               const OutDataTypePointerTuple& p_out_global_tuple,
+                               const Block2TileMap& block_2_tile_map,
+                               const ElementwiseOperation& elementwise_op)
    {
-        auto in_thread_buf_tuple = generate_tuple(
+
+        constexpr auto src_datas = generate_tuple(
            [&](auto I) {
                using DataTypePointer = remove_cvref_t<decltype(InDataTypePointerTuple{}[I])>;
                using DataType        = remove_cv_t<remove_pointer_t<DataTypePointer>>;

-                return StaticBuffer<AddressSpaceEnum::Vgpr,
-                                    DataType,
-                                    MPerThread * NPerThread,
-                                    true>{};
+                return DataType{};
            },
            Number<NumInput>{});

-        auto out_thread_buf_tuple = generate_tuple(
+        constexpr auto dst_datas = generate_tuple(
            [&](auto I) {
                using DataTypePointer = remove_cvref_t<decltype(OutDataTypePointerTuple{}[I])>;
                using DataType        = remove_pointer_t<DataTypePointer>;

-                return StaticBuffer<AddressSpaceEnum::Vgpr,
-                                    DataType,
-                                    MPerThread * NPerThread,
-                                    true>{};
+                return DataType{};
            },
            Number<NumOutput>{});

-        auto in_global_buf_tuple = generate_tuple(
+        const auto in_global_buf_tuple = generate_tuple(
            [&](auto I) {
                return make_dynamic_buffer<AddressSpaceEnum::Global>(
-                    p_in_global_tuple[I], in_grid_2d_desc_tuple[I].GetElementSpaceSize());
+                    p_in_global_tuple[I], in_grid_desc_tuple[I].GetElementSpaceSize());
            },
            Number<NumInput>{});

        auto out_global_buf_tuple = generate_tuple(
            [&](auto I) {
                return make_dynamic_buffer<AddressSpaceEnum::Global>(
-                    p_out_global_tuple[I], out_grid_2d_desc_tuple[I].GetElementSpaceSize());
+                    p_out_global_tuple[I], out_grid_desc_tuple[I].GetElementSpaceSize());
            },
            Number<NumOutput>{});

-        const auto M = in_grid_2d_desc_tuple[I0].GetLength(I0);
-        const auto N = in_grid_2d_desc_tuple[I0].GetLength(I1);
-
-        const index_t loop_step_m = num_threads_m * MPerThread;
-        const index_t loop_step_n = num_threads_n * NPerThread;
-
-        const index_t thread_1d_id = get_thread_global_1d_id();
-        index_t tid_m              = thread_1d_id / num_threads_n;
-        index_t tid_n              = thread_1d_id % num_threads_n;
+        const auto block_work_idx =
+            block_2_tile_map.CalculateBottomIndex(make_multi_index(get_block_1d_id()));

-        const auto thread_global_offset = make_multi_index(tid_m * MPerThread, tid_n * NPerThread);
-
-        auto in_global_load_tuple = generate_tuple(
-            [&](auto I) {
-                using DataTypePointer = remove_cvref_t<decltype(InDataTypePointerTuple{}[I])>;
-                using DataType        = remove_cv_t<remove_pointer_t<DataTypePointer>>;
-
-                return ThreadwiseTensorSliceTransfer_v2<
-                    DataType,
-                    DataType,
-                    decltype(in_grid_2d_desc_tuple[I]),
-                    decltype(thread_buffer_desc_mn),
-                    Sequence<MPerThread, NPerThread>, // SliceLengths
-                    Sequence<0, 1>,                   // DimAccessOrder
-                    0,                                // SrcVectorDim
-                    InScalarPerVectorSeq::At(I),      // ScalarPerVector
-                    1,                                // SrcScalarStrideInVector
-                    true>{in_grid_2d_desc_tuple[I], thread_global_offset};
+        const index_t m0_block_data_idx_on_grid =
+            __builtin_amdgcn_readfirstlane(block_work_idx[I0] * M0PerBlock);
+        const index_t m1_block_data_idx_on_grid =
+            __builtin_amdgcn_readfirstlane(block_work_idx[I1] * M1PerBlock);
+        const auto input_thread_grid_offset = generate_tuple(
+            [&](auto) {
+                return make_multi_index(m0_block_data_idx_on_grid, m1_block_data_idx_on_grid);
            },
            Number<NumInput>{});
-
-        auto out_global_store_tuple = generate_tuple(
-            [&](auto I) {
-                using DataTypePointer = remove_cvref_t<decltype(OutDataTypePointerTuple{}[I])>;
-                using DataType        = remove_pointer_t<DataTypePointer>;
-
-                return ThreadwiseTensorSliceTransfer_v1r3<
-                    DataType,
-                    DataType,
-                    decltype(thread_buffer_desc_mn),
-                    decltype(out_grid_2d_desc_tuple[I]),
-                    PassThroughOp,
-                    Sequence<MPerThread, NPerThread>, // SliceLengths
-                    Sequence<0, 1>,                   // DimAccessOrder
-                    1,                                // SrcVectorDim
-                    1,                                // OutScalarPerVectorSeq::At(I),
-                    InMemoryDataOperationEnum::Set,
-                    1,
-                    true>(out_grid_2d_desc_tuple[I], thread_global_offset, PassThroughOp{});
+        const auto output_thread_grid_offset = generate_tuple(
+            [&](auto) {
+                return make_multi_index(m0_block_data_idx_on_grid, m1_block_data_idx_on_grid);
            },
            Number<NumOutput>{});

-        index_t num_iter_m = M / (loop_step_m);
-        do
-        {
-            index_t num_iter_n = N / (loop_step_n);
-            do
-            {
-                static_for<0, NumInput, 1>{}([&](auto I) {
-                    in_global_load_tuple(I).Run(in_grid_2d_desc_tuple[I],
-                                                in_global_buf_tuple[I],
-                                                thread_buffer_desc_mn,
-                                                make_tuple(I0, I0),
-                                                in_thread_buf_tuple(I));
-
-                    in_global_load_tuple(I).MoveSrcSliceWindow(in_grid_2d_desc_tuple[I],
-                                                               make_multi_index(0, loop_step_n));
-                });
-
-                static_for<0, MPerThread, 1>{}([&](auto iM) {
-                    static_for<0, NPerThread, 1>{}([&](auto iN) {
-                        constexpr auto offset =
-                            thread_buffer_desc_mn.CalculateOffset(make_tuple(iM, iN));
-                        // get reference to in data
-                        const auto in_data_refs = generate_tie(
-                            // return type should be lvalue
-                            [&](auto I) -> const auto& {
-                                return in_thread_buf_tuple(I)(Number<offset>{});
-                            },
-                            Number<NumInput>{});
-
-                        // get referenec to dst data
-                        auto out_data_refs = generate_tie(
-                            // return type should be lvalue
-                            [&](auto I) -> auto& {
-                                return out_thread_buf_tuple(I)(Number<offset>{});
-                            },
-                            Number<NumOutput>{});
-                        unpack2(elementwise_op, out_data_refs, in_data_refs);
-                    });
-                });
-
-                static_for<0, NumOutput, 1>{}([&](auto I) {
-                    out_global_store_tuple(I).Run(thread_buffer_desc_mn,
-                                                  make_tuple(I0, I0),
-                                                  out_thread_buf_tuple[I],
-                                                  out_grid_2d_desc_tuple[I],
-                                                  out_global_buf_tuple(I));
-
-                    out_global_store_tuple(I).MoveDstSliceWindow(out_grid_2d_desc_tuple[I],
-                                                                 make_multi_index(0, loop_step_n));
-                });
-
-            } while(--num_iter_n);
-
-            static_for<0, NumInput, 1>{}([&](auto I) {
-                in_global_load_tuple(I).MoveSrcSliceWindow(
-                    in_grid_2d_desc_tuple[I],
-                    make_multi_index(loop_step_m, -(N / loop_step_n) * loop_step_n));
-            });
-
-            static_for<0, NumOutput, 1>{}([&](auto I) {
-                out_global_store_tuple(I).MoveDstSliceWindow(
-                    out_grid_2d_desc_tuple[I],
-                    make_multi_index(loop_step_m, -(N / loop_step_n) * loop_step_n));
-            });
-        } while(--num_iter_m);
+        using ThisThreadBlock = ThisThreadBlock<BlockSize>;
+        // If src and dst have same vector dim, then:
+        //     M0 dim - for src and dst vector load/store
+        // else:
+        //     M0 dim - for dst vector load
+        //     M1 dim - for src vector store
+        using SrcDimAccessOrder =
+            std::conditional_t<SrcVectorDim == I1, Sequence<0, 1>, Sequence<1, 0>>;
+        using DstDimAccessOrder =
+            std::conditional_t<DstVectorDim == I1, Sequence<0, 1>, Sequence<1, 0>>;
+
+        using ThreadClusterLengths =
+            Sequence<Number<M0PerBlock / M0PerThread>{}, Number<M1PerBlock / M1PerThread>{}>;
+
+        auto global_to_global_transfer = ThreadGroupTensorSliceTransfer_v4r2<
+            ThisThreadBlock,
+            ElementwiseOperation,
+            uniform_sequence_gen_t<NumOutput, static_cast<index_t>(InMemoryDataOperationEnum::Set)>,
+            Sequence<M0PerBlock, M1PerBlock>,
+            ThreadClusterLengths,
+            ThreadClusterArrangeOrder,
+            decltype(src_datas),
+            decltype(dst_datas),
+            InGridDescTuple,
+            OutGridDescTuple,
+            SrcDimAccessOrder,
+            DstDimAccessOrder,
+            SrcVectorDim,
+            DstVectorDim,
+            InScalarPerVectorSeq,
+            OutScalarPerVectorSeq,
+            uniform_sequence_gen_t<NumInput, 1>,
+            uniform_sequence_gen_t<NumOutput, 1>,
+            uniform_sequence_gen_t<NumInput, false>,
+            uniform_sequence_gen_t<NumOutput, false>>{in_grid_desc_tuple,
+                                                      input_thread_grid_offset,
+                                                      out_grid_desc_tuple,
+                                                      output_thread_grid_offset,
+                                                      elementwise_op};
+        global_to_global_transfer.Run(
+            in_grid_desc_tuple, in_global_buf_tuple, out_grid_desc_tuple, out_global_buf_tuple, I0);
    }
 };


--- a/include/ck/tensor_operation/gpu/grid/gridwise_elementwise_3d.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_elementwise_3d.hpp
-// SPDX-License-Identifier: MIT
-// // Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
-//
-#pragma once
-
-#include "ck/tensor_description/cluster_descriptor.hpp"
-#include "ck/utility/data_type.hpp"
-#include "ck/tensor_operation/gpu/thread/threadwise_tensor_slice_transfer.hpp"
-#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-
-namespace ck {
-
-template <typename GridwiseElementwise3dFunctor,
-          typename InGrid3dDescTuple,
-          typename OutGrid3dDescTuple,
-          typename InDataTypePointerTuple,
-          typename OutDataTypePointerTuple,
-          typename ElementwiseOperation>
-__global__ void kernel_elementwise_3d(const InGrid3dDescTuple in_grid_3d_desc_tuple,
-                                      const OutGrid3dDescTuple out_grid_3d_desc_tuple,
-                                      const InDataTypePointerTuple p_in_global_tuple,
-                                      const OutDataTypePointerTuple p_out_global_tuple,
-                                      const ElementwiseOperation elementwise_op,
-                                      const index_t num_threads_m,
-                                      const index_t num_threads_n,
-                                      const index_t num_threads_k)
-{
-    GridwiseElementwise3dFunctor::Run(in_grid_3d_desc_tuple,
-                                      out_grid_3d_desc_tuple,
-                                      p_in_global_tuple,
-                                      p_out_global_tuple,
-                                      elementwise_op,
-                                      num_threads_m,
-                                      num_threads_n,
-                                      num_threads_k);
-}
-
-template <typename InGrid3dDescTuple,
-          typename OutGrid3dDescTuple,
-          typename InDataTypePointerTuple,
-          typename OutDataTypePointerTuple,
-          typename ElementwiseOperation,
-          index_t MPerThread,
-          index_t NPerThread,
-          index_t KPerThread,
-          typename InScalarPerVectorSeq,
-          typename OutScalarPerVectorSeq>
-struct GridwiseElementwise_3D
-{
-    static constexpr index_t NumInput  = InDataTypePointerTuple::Size();
-    static constexpr index_t NumOutput = OutDataTypePointerTuple::Size();
-
-    static_assert(NumInput == InScalarPerVectorSeq::Size() &&
-                      NumOutput == OutScalarPerVectorSeq::Size() &&
-                      NumInput == InGrid3dDescTuple::Size() &&
-                      NumOutput == OutGrid3dDescTuple::Size(),
-                  "Tuple size is inconsistent with the number of in/out!");
-
-    static constexpr auto I0 = Number<0>{};
-    static constexpr auto I1 = Number<1>{};
-    static constexpr auto I2 = Number<2>{};
-
-    static constexpr auto thread_buffer_desc_mnk = make_naive_tensor_descriptor_packed(
-        make_tuple(Number<MPerThread>{}, Number<NPerThread>{}, Number<KPerThread>{}));
-
-    using PassThroughOp = tensor_operation::element_wise::PassThrough;
-
-    __device__ static void Run(const InGrid3dDescTuple in_grid_3d_desc_tuple,
-                               const OutGrid3dDescTuple out_grid_3d_desc_tuple,
-                               const InDataTypePointerTuple p_in_global_tuple,
-                               const OutDataTypePointerTuple p_out_global_tuple,
-                               const ElementwiseOperation elementwise_op,
-                               const index_t num_threads_m,
-                               const index_t num_threads_n,
-                               const index_t num_threads_k)
-    {
-        auto in_thread_buf_tuple = generate_tuple(
-            [&](auto I) {
-                using DataTypePointer = remove_cvref_t<decltype(InDataTypePointerTuple{}[I])>;
-                using DataType        = remove_cv_t<remove_pointer_t<DataTypePointer>>;
-
-                return StaticBuffer<AddressSpaceEnum::Vgpr,
-                                    DataType,
-                                    MPerThread * NPerThread * KPerThread,
-                                    true>{};
-            },
-            Number<NumInput>{});
-
-        auto out_thread_buf_tuple = generate_tuple(
-            [&](auto I) {
-                using DataTypePointer = remove_cvref_t<decltype(OutDataTypePointerTuple{}[I])>;
-                using DataType        = remove_pointer_t<DataTypePointer>;
-
-                return StaticBuffer<AddressSpaceEnum::Vgpr,
-                                    DataType,
-                                    MPerThread * NPerThread * KPerThread,
-                                    true>{};
-            },
-            Number<NumOutput>{});
-
-        auto in_global_buf_tuple = generate_tuple(
-            [&](auto I) {
-                return make_dynamic_buffer<AddressSpaceEnum::Global>(
-                    p_in_global_tuple[I], in_grid_3d_desc_tuple[I].GetElementSpaceSize());
-            },
-            Number<NumInput>{});
-
-        auto out_global_buf_tuple = generate_tuple(
-            [&](auto I) {
-                return make_dynamic_buffer<AddressSpaceEnum::Global>(
-                    p_out_global_tuple[I], out_grid_3d_desc_tuple[I].GetElementSpaceSize());
-            },
-            Number<NumOutput>{});
-
-        const auto M = in_grid_3d_desc_tuple[I0].GetLength(I0);
-        const auto N = in_grid_3d_desc_tuple[I0].GetLength(I1);
-        const auto K = in_grid_3d_desc_tuple[I0].GetLength(I2);
-
-        const index_t loop_step_m = num_threads_m * MPerThread;
-        const index_t loop_step_n = num_threads_n * NPerThread;
-        const index_t loop_step_k = num_threads_k * KPerThread;
-
-        const index_t thread_1d_id = get_thread_global_1d_id();
-
-        const index_t tid_m  = thread_1d_id / (num_threads_n * num_threads_k);
-        const index_t tid_nk = thread_1d_id % (num_threads_n * num_threads_k);
-        const index_t tid_n  = tid_nk / num_threads_k;
-        const index_t tid_k  = tid_nk % num_threads_k;
-
-        const auto thread_global_offset =
-            make_multi_index(tid_m * MPerThread, tid_n * NPerThread, tid_k * KPerThread);
-
-        auto in_global_load_tuple = generate_tuple(
-            [&](auto I) {
-                using DataTypePointer = remove_cvref_t<decltype(InDataTypePointerTuple{}[I])>;
-                using DataType        = remove_cv_t<remove_pointer_t<DataTypePointer>>;
-
-                return ThreadwiseTensorSliceTransfer_v2<
-                    DataType,
-                    DataType,
-                    decltype(in_grid_3d_desc_tuple[I]),
-                    decltype(thread_buffer_desc_mnk),
-                    Sequence<MPerThread, NPerThread, KPerThread>, // SliceLengths
-                    Sequence<0, 1, 2>,                            // DimAccessOrder
-                    01,                                           // SrcVectorDim
-                    InScalarPerVectorSeq::At(I), // InScalarPerVectorSeq::At(I),                  //
-                                                 // ScalarPerVector
-                    1,                           // SrcScalarStrideInVector
-                    true>{in_grid_3d_desc_tuple[I], thread_global_offset};
-            },
-            Number<NumInput>{});
-
-        auto out_global_store_tuple = generate_tuple(
-            [&](auto I) {
-                using DataTypePointer = remove_cvref_t<decltype(OutDataTypePointerTuple{}[I])>;
-                using DataType        = remove_pointer_t<DataTypePointer>;
-
-                return ThreadwiseTensorSliceTransfer_v1r3<
-                    DataType,
-                    DataType,
-                    decltype(thread_buffer_desc_mnk),
-                    decltype(out_grid_3d_desc_tuple[I]),
-                    PassThroughOp,
-                    Sequence<MPerThread, NPerThread, KPerThread>, // SliceLengths
-                    Sequence<0, 1, 2>,                            // DimAccessOrder
-                    2,                                            // SrcVectorDim
-                    OutScalarPerVectorSeq::At(I),                 // OutScalarPerVectorSeq::At(I),
-                    InMemoryDataOperationEnum::Set,
-                    1,
-                    true>(out_grid_3d_desc_tuple[I], thread_global_offset, PassThroughOp{});
-            },
-            Number<NumOutput>{});
-
-        index_t num_iter_m = M / (loop_step_m);
-        do
-        {
-            index_t num_iter_n = N / (loop_step_n);
-            do
-            {
-                index_t num_iter_k = K / (loop_step_k);
-                do
-                {
-                    static_for<0, NumInput, 1>{}([&](auto I) {
-                        in_global_load_tuple(I).Run(in_grid_3d_desc_tuple[I],
-                                                    in_global_buf_tuple[I],
-                                                    thread_buffer_desc_mnk,
-                                                    make_tuple(I0, I0, I0),
-                                                    in_thread_buf_tuple(I));
-
-                        in_global_load_tuple(I).MoveSrcSliceWindow(
-                            in_grid_3d_desc_tuple[I], make_multi_index(0, 0, loop_step_k));
-                    });
-
-                    static_for<0, MPerThread, 1>{}([&](auto iM) {
-                        static_for<0, NPerThread, 1>{}([&](auto iN) {
-                            static_for<0, KPerThread, 1>{}([&](auto iK) {
-                                constexpr auto offset =
-                                    thread_buffer_desc_mnk.CalculateOffset(make_tuple(iM, iN, iK));
-                                // get reference to in data
-                                const auto in_data_refs = generate_tie(
-                                    // return type should be lvalue
-                                    [&](auto I) -> const auto& {
-                                        return in_thread_buf_tuple(I)(Number<offset>{});
-                                    },
-                                    Number<NumInput>{});
-
-                                // get referenec to dst data
-                                auto out_data_refs = generate_tie(
-                                    // return type should be lvalue
-                                    [&](auto I) -> auto& {
-                                        return out_thread_buf_tuple(I)(Number<offset>{});
-                                    },
-                                    Number<NumOutput>{});
-                                unpack2(elementwise_op, out_data_refs, in_data_refs);
-                            });
-                        });
-                    });
-
-                    static_for<0, NumOutput, 1>{}([&](auto I) {
-                        out_global_store_tuple(I).Run(thread_buffer_desc_mnk,
-                                                      make_tuple(I0, I0, I0),
-                                                      out_thread_buf_tuple[I],
-                                                      out_grid_3d_desc_tuple[I],
-                                                      out_global_buf_tuple(I));
-
-                        out_global_store_tuple(I).MoveDstSliceWindow(
-                            out_grid_3d_desc_tuple[I], make_multi_index(0, 0, loop_step_k));
-                    });
-                } while(--num_iter_k);
-
-                static_for<0, NumInput, 1>{}([&](auto I) {
-                    in_global_load_tuple(I).MoveSrcSliceWindow(
-                        in_grid_3d_desc_tuple[I],
-                        make_multi_index(0, loop_step_n, -(K / loop_step_k) * loop_step_k));
-                });
-
-                static_for<0, NumOutput, 1>{}([&](auto I) {
-                    out_global_store_tuple(I).MoveDstSliceWindow(
-                        out_grid_3d_desc_tuple[I],
-                        make_multi_index(0, loop_step_n, -(K / loop_step_k) * loop_step_k));
-                });
-
-            } while(--num_iter_n);
-
-            static_for<0, NumInput, 1>{}([&](auto I) {
-                in_global_load_tuple(I).MoveSrcSliceWindow(
-                    in_grid_3d_desc_tuple[I],
-                    make_multi_index(loop_step_m,
-                                     -(N / loop_step_n) * loop_step_n,
-                                     -(K / loop_step_k) * loop_step_k));
-            });
-
-            static_for<0, NumOutput, 1>{}([&](auto I) {
-                out_global_store_tuple(I).MoveDstSliceWindow(
-                    out_grid_3d_desc_tuple[I],
-                    make_multi_index(loop_step_m,
-                                     -(N / loop_step_n) * loop_step_n,
-                                     -(K / loop_step_k) * loop_step_k));
-            });
-        } while(--num_iter_m);
-    }
-};
-
-} // namespace ck
--- a/include/ck/tensor_operation/gpu/grid/gridwise_elementwise_dynamic_vector_dims.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_elementwise_dynamic_vector_dims.hpp
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
-
-#pragma once
-
-#include "ck/tensor_description/cluster_descriptor.hpp"
-#include "ck/utility/data_type.hpp"
-#include "ck/tensor_operation/gpu/thread/threadwise_tensor_slice_transfer.hpp"
-#include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-#include "ck/tensor_operation/gpu/block/thread_group_tensor_slice_transfer_v7r2.hpp"
-#include "ck/tensor_operation/gpu/block/thread_group_tensor_slice_transfer_v4r2.hpp"
-#include "ck/tensor_operation/gpu/thread/threadwise_tensor_slice_transfer.hpp"
-#include "ck/tensor/static_tensor.hpp"
-#include "ck/utility/common_header.hpp"
-
-namespace ck {
-
-template <typename GridwiseElementwiseFunctor,
-          typename InGridDescTuple,
-          typename OutGridDescTuple,
-          typename InDataTypePointerTuple,
-          typename OutDataTypePointerTuple,
-          typename Block2TileMap,
-          typename ElementwiseOperation>
-__global__ void
-#if CK_USE_LAUNCH_BOUNDS
-    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
-#endif
-        kernel_elementwise(const InGridDescTuple in_grid_desc_tuple,
-                           const OutGridDescTuple out_grid_desc_tuple,
-                           const InDataTypePointerTuple p_in_global_tuple,
-                           const OutDataTypePointerTuple p_out_global_tuple,
-                           const Block2TileMap block_2_tile_map,
-                           const ElementwiseOperation elementwise_op)
-{
-    GridwiseElementwiseFunctor::Run(in_grid_desc_tuple,
-                                    out_grid_desc_tuple,
-                                    p_in_global_tuple,
-                                    p_out_global_tuple,
-                                    block_2_tile_map,
-                                    elementwise_op);
-}
-
-template <typename GridwiseElementwiseFunctor,
-          typename InGridDescTuple,
-          typename OutGridDescTuple,
-          typename InDataTypePointerTuple,
-          typename OutDataTypePointerTuple,
-          typename Block2TileMap,
-          typename ElementwiseOperation,
-          index_t NumInputs,
-          index_t NumOutputs>
-__global__ void
-#if CK_USE_LAUNCH_BOUNDS
-    __launch_bounds__(CK_MAX_THREAD_PER_BLOCK, CK_MIN_BLOCK_PER_CU)
-#endif
-        kernel_batched_elementwise(const InGridDescTuple in_grid_desc_tuple,
-                                   const OutGridDescTuple out_grid_desc_tuple,
-                                   const InDataTypePointerTuple p_in_global_tuple,
-                                   const OutDataTypePointerTuple p_out_global_tuple,
-                                   const Block2TileMap block_2_tile_map,
-                                   const ElementwiseOperation elementwise_op,
-                                   const index_t batch_count,
-                                   const std::array<index_t, NumInputs> input_batch_strides,
-                                   const std::array<index_t, NumOutputs> output_batch_strides)
-{
-    static_assert(InGridDescTuple::Size() == NumInputs &&
-                  InDataTypePointerTuple::Size() == NumInputs);
-    static_assert(OutGridDescTuple::Size() == NumOutputs &&
-                  OutDataTypePointerTuple::Size() == NumOutputs);
-
-    const index_t num_blocks_per_batch =
-        __builtin_amdgcn_readfirstlane(get_grid_size() / batch_count);
-    const index_t g_idx = __builtin_amdgcn_readfirstlane(get_block_1d_id() / num_blocks_per_batch);
-
-    InDataTypePointerTuple p_in_global_with_offset_tuple;
-    OutDataTypePointerTuple p_out_global_with_offset_tuple;
-
-    static_for<0, InDataTypePointerTuple::Size(), 1>{}([&](auto i) {
-        p_in_global_with_offset_tuple(i) = p_in_global_tuple.At(i) + input_batch_strides[i] * g_idx;
-    });
-
-    static_for<0, OutDataTypePointerTuple::Size(), 1>{}([&](auto i) {
-        p_out_global_with_offset_tuple(i) =
-            p_out_global_tuple.At(i) + output_batch_strides[i] * g_idx;
-    });
-
-    GridwiseElementwiseFunctor::Run(in_grid_desc_tuple,
-                                    out_grid_desc_tuple,
-                                    p_in_global_with_offset_tuple,
-                                    p_out_global_with_offset_tuple,
-                                    block_2_tile_map,
-                                    elementwise_op);
-}
-
-template <typename InGridDescTuple,
-          typename OutGridDescTuple,
-          typename InDataTypePointerTuple,
-          typename OutDataTypePointerTuple,
-          typename Block2TileMap,
-          typename ElementwiseOperation,
-          index_t BlockSize,
-          index_t M0PerBlock,
-          index_t M1PerBlock,
-          index_t M0PerThread,
-          index_t M1PerThread,
-          typename ThreadClusterArrangeOrder,
-          typename InScalarPerVectorSeq,
-          typename OutScalarPerVectorSeq,
-          bool InOutSameVectorDim>
-struct GridwiseElementwise
-{
-    static constexpr index_t NumInput  = InDataTypePointerTuple::Size();
-    static constexpr index_t NumOutput = OutDataTypePointerTuple::Size();
-
-    static_assert(NumInput == InScalarPerVectorSeq::Size() &&
-                      NumOutput == OutScalarPerVectorSeq::Size() &&
-                      NumInput == InGridDescTuple::Size() && NumOutput == OutGridDescTuple::Size(),
-                  "Tuple size is inconsistent with the number of in/out!");
-
-    static constexpr auto I0 = Number<0>{};
-    static constexpr auto I1 = Number<1>{};
-
-    using PassThroughOp = tensor_operation::element_wise::PassThrough;
-
-    __device__ static void Run(const InGridDescTuple& in_grid_desc_tuple,
-                               const OutGridDescTuple& out_grid_desc_tuple,
-                               const InDataTypePointerTuple& p_in_global_tuple,
-                               const OutDataTypePointerTuple& p_out_global_tuple,
-                               const Block2TileMap& block_2_tile_map,
-                               const ElementwiseOperation& elementwise_op)
-    {
-
-        constexpr auto src_datas = generate_tuple(
-            [&](auto I) {
-                using DataTypePointer = remove_cvref_t<decltype(InDataTypePointerTuple{}[I])>;
-                using DataType        = remove_cv_t<remove_pointer_t<DataTypePointer>>;
-
-                return DataType{};
-            },
-            Number<NumInput>{});
-
-        constexpr auto dst_datas = generate_tuple(
-            [&](auto I) {
-                using DataTypePointer = remove_cvref_t<decltype(OutDataTypePointerTuple{}[I])>;
-                using DataType        = remove_pointer_t<DataTypePointer>;
-
-                return DataType{};
-            },
-            Number<NumOutput>{});
-
-        const auto in_global_buf_tuple = generate_tuple(
-            [&](auto I) {
-                return make_dynamic_buffer<AddressSpaceEnum::Global>(
-                    p_in_global_tuple[I], in_grid_desc_tuple[I].GetElementSpaceSize());
-            },
-            Number<NumInput>{});
-
-        auto out_global_buf_tuple = generate_tuple(
-            [&](auto I) {
-                return make_dynamic_buffer<AddressSpaceEnum::Global>(
-                    p_out_global_tuple[I], out_grid_desc_tuple[I].GetElementSpaceSize());
-            },
-            Number<NumOutput>{});
-
-        const auto block_work_idx =
-            block_2_tile_map.CalculateBottomIndex(make_multi_index(get_block_1d_id()));
-
-        const index_t m0_block_data_idx_on_grid =
-            __builtin_amdgcn_readfirstlane(block_work_idx[I0] * M0PerBlock);
-        const index_t m1_block_data_idx_on_grid =
-            __builtin_amdgcn_readfirstlane(block_work_idx[I1] * M1PerBlock);
-        const auto input_thread_grid_offset = generate_tuple(
-            [&](auto) {
-                return make_multi_index(m0_block_data_idx_on_grid, m1_block_data_idx_on_grid);
-            },
-            Number<NumInput>{});
-        const auto output_thread_grid_offset = generate_tuple(
-            [&](auto) {
-                return make_multi_index(m0_block_data_idx_on_grid, m1_block_data_idx_on_grid);
-            },
-            Number<NumOutput>{});
-
-        using ThisThreadBlock = ThisThreadBlock<BlockSize>;
-        // If src and dst have same vector dim, then:
-        //     M0 dim - for src and dst vector load/store
-        // else:
-        //     M0 dim - for dst vector load
-        //     M1 dim - for src vector store
-        using SrcDimAccessOrder = Sequence<0, 1>;
-        using DstDimAccessOrder =
-            std::conditional_t<InOutSameVectorDim, Sequence<0, 1>, Sequence<1, 0>>;
-        using SrcVectorDim = Number<1>;
-        using DstVectorDim = std::conditional_t<InOutSameVectorDim, Number<1>, Number<0>>;
-
-        using ThreadClusterLengths =
-            Sequence<Number<M0PerBlock / M0PerThread>{}, Number<M1PerBlock / M1PerThread>{}>;
-
-        auto global_to_global_transfer = ThreadGroupTensorSliceTransfer_v4r2<
-            ThisThreadBlock,
-            ElementwiseOperation,
-            uniform_sequence_gen_t<NumOutput, static_cast<index_t>(InMemoryDataOperationEnum::Set)>,
-            Sequence<M0PerBlock, M1PerBlock>,
-            ThreadClusterLengths,
-            ThreadClusterArrangeOrder,
-            decltype(src_datas),
-            decltype(dst_datas),
-            InGridDescTuple,
-            OutGridDescTuple,
-            SrcDimAccessOrder,
-            DstDimAccessOrder,
-            SrcVectorDim{},
-            DstVectorDim{},
-            InScalarPerVectorSeq,
-            OutScalarPerVectorSeq,
-            uniform_sequence_gen_t<NumInput, 1>,
-            uniform_sequence_gen_t<NumOutput, 1>,
-            uniform_sequence_gen_t<NumInput, false>,
-            uniform_sequence_gen_t<NumOutput, false>>{in_grid_desc_tuple,
-                                                      input_thread_grid_offset,
-                                                      out_grid_desc_tuple,
-                                                      output_thread_grid_offset,
-                                                      elementwise_op};
-        global_to_global_transfer.Run(
-            in_grid_desc_tuple, in_global_buf_tuple, out_grid_desc_tuple, out_global_buf_tuple, I0);
-    }
-};
-
-} // namespace ck
--- a/library/include/ck/library/tensor_operation_instance/gpu/transpose/device_transpose_instance.hpp
+++ b/library/include/ck/library/tensor_operation_instance/gpu/transpose/device_transpose_instance.hpp
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.

 #include "ck/ck.hpp"
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_elementwise_3d_impl.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_elementwise_dynamic_vector_dims_impl.hpp"

 #include "ck/library/tensor_operation_instance/add_device_operation_instance.hpp"

@@ -22,18 +22,23 @@ using S = ck::Sequence<Is...>;

 using device_transpose_f16_instances = std::tuple<
    // clang-format off
-    DeviceElementwise3dImpl<ck::Tuple<F16>, ck::Tuple<F16>, PassThrough, 2, 2, 1, 8, 8, 8, ck::Sequence<8>, ck::Sequence<8>>,
-    DeviceElementwise3dImpl<ck::Tuple<F16>, ck::Tuple<F16>, PassThrough, 2, 2, 1, 8, 8, 8, ck::Sequence<8>, ck::Sequence<4>>,
-    DeviceElementwise3dImpl<ck::Tuple<F16>, ck::Tuple<F16>, PassThrough, 2, 2, 1, 4, 4, 8, ck::Sequence<4>, ck::Sequence<4>>,
-    DeviceElementwise3dImpl<ck::Tuple<F16>, ck::Tuple<F16>, PassThrough, 2, 2, 1, 4, 4, 4, ck::Sequence<1>, ck::Sequence<1>>
+    DeviceElementwiseImpl<ck::Tuple<F16>, ck::Tuple<F16>, PassThrough, 5, 256, 128, 128, 8, 8, ck::Sequence<1, 0>, ck::Sequence<8>, ck::Sequence<8>>,
+    DeviceElementwiseImpl<ck::Tuple<F16>, ck::Tuple<F16>, PassThrough, 5, 64,   64,  64, 8, 8, ck::Sequence<1, 0>, ck::Sequence<8>, ck::Sequence<8>>,
+    DeviceElementwiseImpl<ck::Tuple<F16>, ck::Tuple<F16>, PassThrough, 5, 256,  64,  64, 4, 4, ck::Sequence<1, 0>, ck::Sequence<4>, ck::Sequence<4>>,
+    DeviceElementwiseImpl<ck::Tuple<F16>, ck::Tuple<F16>, PassThrough, 5, 64,   32,  32, 4, 4, ck::Sequence<1, 0>, ck::Sequence<4>, ck::Sequence<4>>,
+    DeviceElementwiseImpl<ck::Tuple<F16>, ck::Tuple<F16>, PassThrough, 5, 256,  64,  64, 4, 4, ck::Sequence<1, 0>, ck::Sequence<1>, ck::Sequence<1>>,
+    DeviceElementwiseImpl<ck::Tuple<F16>, ck::Tuple<F16>, PassThrough, 5, 64,   32,  32, 4, 4, ck::Sequence<1, 0>, ck::Sequence<1>, ck::Sequence<1>>
    // clang-format on
    >;

 using device_transpose_f32_instances = std::tuple<
    // clang-format off
-    DeviceElementwise3dImpl<ck::Tuple<F32>, ck::Tuple<F32>, PassThrough, 2, 2, 1, 4, 4, 4, ck::Sequence<1>, ck::Sequence<1>>,
-    DeviceElementwise3dImpl<ck::Tuple<F32>, ck::Tuple<F32>, PassThrough, 2, 2, 1, 4, 4, 4, ck::Sequence<4>, ck::Sequence<1>>,
-    DeviceElementwise3dImpl<ck::Tuple<F32>, ck::Tuple<F32>, PassThrough, 2, 2, 1, 4, 4, 4, ck::Sequence<4>, ck::Sequence<4>>
+    DeviceElementwiseImpl<ck::Tuple<F32>, ck::Tuple<F32>, PassThrough, 5, 256, 128, 128, 8, 8, ck::Sequence<1, 0>, ck::Sequence<8>, ck::Sequence<8>>,
+    DeviceElementwiseImpl<ck::Tuple<F32>, ck::Tuple<F32>, PassThrough, 5, 64,   64,  64, 8, 8, ck::Sequence<1, 0>, ck::Sequence<8>, ck::Sequence<8>>,
+    DeviceElementwiseImpl<ck::Tuple<F32>, ck::Tuple<F32>, PassThrough, 5, 256,  64,  64, 4, 4, ck::Sequence<1, 0>, ck::Sequence<4>, ck::Sequence<4>>,
+    DeviceElementwiseImpl<ck::Tuple<F32>, ck::Tuple<F32>, PassThrough, 5, 64,   32,  32, 4, 4, ck::Sequence<1, 0>, ck::Sequence<4>, ck::Sequence<4>>,
+    DeviceElementwiseImpl<ck::Tuple<F32>, ck::Tuple<F32>, PassThrough, 5, 256,  64,  64, 4, 4, ck::Sequence<1, 0>, ck::Sequence<1>, ck::Sequence<1>>,
+    DeviceElementwiseImpl<ck::Tuple<F32>, ck::Tuple<F32>, PassThrough, 5, 64,   32,  32, 4, 4, ck::Sequence<1, 0>, ck::Sequence<1>, ck::Sequence<1>>
    // clang-format on
    >;


--- a/library/src/tensor_operation_instance/gpu/batchnorm/device_batchnorm_infer_bf16_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/batchnorm/device_batchnorm_infer_bf16_instance.cpp
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.

 #include "ck/ck.hpp"
 #include "ck/utility/tuple.hpp"
 #include "ck/utility/data_type.hpp"

 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_elementwise_impl.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_elementwise_dynamic_vector_dims_impl.hpp"
 #include "ck/library/tensor_operation_instance/add_device_operation_instance.hpp"

 namespace ck {
@@ -23,21 +23,21 @@ using Normalize = ck::tensor_operation::element_wise::NormalizeInInfer;
 template <index_t Rank>
 using device_batchnorm_infer_bf16_instances =
     std::tuple <
-        // Tuple<XDataType, MeanDataType, VarDataType, ScaleDataType, BiasDataType>, Tuple<YDataType>, NormalizeOp, Rank, MPerThread, Sequence<XVectorSize, MeanDataType, VarDataType, ScaleVectorSize, BiasVectorSize>, Sequence<YVectorSize> 
-        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 1, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 2, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 2, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,
-        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 2, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 2, Sequence<2, 2, 2, 2, 2>, Sequence<2> >,
-        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 4, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 4, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,
-        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 4, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 4, Sequence<2, 2, 2, 2, 2>, Sequence<2> >,
-        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 4, Sequence<4, 1, 1, 1, 1>, Sequence<4> >,
-        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 4, Sequence<1, 4, 4, 4, 4>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 4, Sequence<4, 2, 2, 2, 2>, Sequence<4> >,
-        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 4, Sequence<2, 4, 4, 4, 4>, Sequence<2> >,
-        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 4, Sequence<4, 4, 4, 4, 4>, Sequence<4> >
+        // Tuple<XDataType, MeanDataType, VarDataType, ScaleDataType, BiasDataType>, Tuple<YDataType>, NormalizeOp, Rank, BlockSize, MPerBlock, NPerBlock, MPerThread, NPerThread, ThreadClusterArrangerOrder, Sequence<XVectorSize, MeanDataType, VarDataType, ScaleVectorSize, BiasVectorSize>, Sequence<YVectorSize> 
+        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 64,  8,  8, 1, 1, ck::Sequence<1, 0>, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<2, 2, 2, 2, 2>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<2, 2, 2, 2, 2>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<4, 1, 1, 1, 1>, Sequence<4> >,
+        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<1, 4, 4, 4, 4>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<4, 2, 2, 2, 2>, Sequence<4> >,
+        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<2, 4, 4, 4, 4>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<BF16, F32, F32, BF16, BF16>, Tuple<BF16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<4, 4, 4, 4, 4>, Sequence<4> >
     >;
 // clang-format on


--- a/library/src/tensor_operation_instance/gpu/batchnorm/device_batchnorm_infer_f16_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/batchnorm/device_batchnorm_infer_f16_instance.cpp
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.

 #include "ck/ck.hpp"
 #include "ck/utility/tuple.hpp"
 #include "ck/utility/data_type.hpp"

 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_elementwise_impl.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_elementwise_dynamic_vector_dims_impl.hpp"
 #include "ck/library/tensor_operation_instance/add_device_operation_instance.hpp"

 namespace ck {
@@ -23,21 +23,21 @@ using Normalize = ck::tensor_operation::element_wise::NormalizeInInfer;
 template <index_t Rank>
 using device_batchnorm_infer_f16_instances =
     std::tuple <
-        // Tuple<XDataType, MeanDataType, VarDataType, ScaleDataType, BiasDataType>, Tuple<YDataType>, NormalizeOp, Rank, MPerThread, Sequence<XVectorSize, MeanDataType, VarDataType, ScaleVectorSize, BiasVectorSize>, Sequence<YVectorSize> 
-        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 1, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,  
-        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 2, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,  
-        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 2, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,  
-        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 2, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,  
-        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 2, Sequence<2, 2, 2, 2, 2>, Sequence<2> >,  
-        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 4, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,  
-        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 4, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,  
-        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 4, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,  
-        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 4, Sequence<2, 2, 2, 2, 2>, Sequence<2> >,  
-        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 4, Sequence<4, 1, 1, 1, 1>, Sequence<4> >,  
-        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 4, Sequence<1, 4, 4, 4, 4>, Sequence<1> >,  
-        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 4, Sequence<4, 2, 2, 2, 2>, Sequence<4> >,  
-        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 4, Sequence<2, 4, 4, 4, 4>, Sequence<2> >,  
-        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 4, Sequence<4, 4, 4, 4, 4>, Sequence<4> >  
+        // Tuple<XDataType, MeanDataType, VarDataType, ScaleDataType, BiasDataType>, Tuple<YDataType>, NormalizeOp, Rank, BlockSize, MPerBlock, NPerBlock, MPerThread, NPerThread, ThreadClusterArrangerOrder, Sequence<XVectorSize, MeanDataType, VarDataType, ScaleVectorSize, BiasVectorSize>, Sequence<YVectorSize> 
+        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 64,  8,  8, 1, 1, ck::Sequence<1, 0>, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<2, 2, 2, 2, 2>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<2, 2, 2, 2, 2>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<4, 1, 1, 1, 1>, Sequence<4> >,
+        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<1, 4, 4, 4, 4>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<4, 2, 2, 2, 2>, Sequence<4> >,
+        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<2, 4, 4, 4, 4>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>, Tuple<F16>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<4, 4, 4, 4, 4>, Sequence<4> >
     >;
 // clang-format on


--- a/library/src/tensor_operation_instance/gpu/batchnorm/device_batchnorm_infer_f32_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/batchnorm/device_batchnorm_infer_f32_instance.cpp
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.

 #include "ck/ck.hpp"
 #include "ck/utility/tuple.hpp"

 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_elementwise_impl.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_elementwise_dynamic_vector_dims_impl.hpp"
 #include "ck/library/tensor_operation_instance/add_device_operation_instance.hpp"

 namespace ck {
@@ -21,21 +21,21 @@ using Normalize = ck::tensor_operation::element_wise::NormalizeInInfer;
 template <index_t Rank>
 using device_batchnorm_infer_f32_instances =
     std::tuple <
-        // Tuple<XDataType, MeanDataType, VarDataType, ScaleDataType, BiasDataType>, Tuple<YDataType>, NormalizeOp, Rank, MPerThread, Sequence<XVectorSize, MeanDataType, VarDataType, ScaleVectorSize, BiasVectorSize>, Sequence<YVectorSize> 
-        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 1, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 2, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 2, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,
-        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 2, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 2, Sequence<2, 2, 2, 2, 2>, Sequence<2> >,
-        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 4, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 4, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,
-        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 4, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 4, Sequence<2, 2, 2, 2, 2>, Sequence<2> >,
-        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 4, Sequence<4, 1, 1, 1, 1>, Sequence<4> >,
-        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 4, Sequence<1, 4, 4, 4, 4>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 4, Sequence<4, 2, 2, 2, 2>, Sequence<4> >,
-        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 4, Sequence<2, 4, 4, 4, 4>, Sequence<2> >,
-        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 4, Sequence<4, 4, 4, 4, 4>, Sequence<4> >
+        // Tuple<XDataType, MeanDataType, VarDataType, ScaleDataType, BiasDataType>, Tuple<YDataType>, NormalizeOp, Rank, BlockSize, MPerBlock, NPerBlock, MPerThread, NPerThread, ThreadClusterArrangerOrder, Sequence<XVectorSize, MeanDataType, VarDataType, ScaleVectorSize, BiasVectorSize>, Sequence<YVectorSize> 
+        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 64,  8,  8, 1, 1, ck::Sequence<1, 0>, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<2, 2, 2, 2, 2>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<2, 2, 2, 2, 2>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<4, 1, 1, 1, 1>, Sequence<4> >,
+        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<1, 4, 4, 4, 4>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<4, 2, 2, 2, 2>, Sequence<4> >,
+        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<2, 4, 4, 4, 4>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<F32, F32, F32, F32, F32>, Tuple<F32>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<4, 4, 4, 4, 4>, Sequence<4> >
     >;
 // clang-format on


--- a/library/src/tensor_operation_instance/gpu/batchnorm/device_batchnorm_infer_f64_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/batchnorm/device_batchnorm_infer_f64_instance.cpp
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.

 #include "ck/ck.hpp"
 #include "ck/utility/tuple.hpp"

 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_elementwise_impl.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_elementwise_dynamic_vector_dims_impl.hpp"
 #include "ck/library/tensor_operation_instance/add_device_operation_instance.hpp"

 namespace ck {
@@ -21,16 +21,16 @@ using Normalize = ck::tensor_operation::element_wise::NormalizeInInfer;
 template <index_t Rank>
 using device_batchnorm_infer_f64_instances =
     std::tuple <
-        // Tuple<XDataType, MeanDataType, VarDataType, ScaleDataType, BiasDataType>, Tuple<YDataType>, NormalizeOp, Rank, MPerThread, Sequence<XVectorSize, MeanDataType, VarDataType, ScaleVectorSize, BiasVectorSize>, Sequence<YVectorSize> 
-        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 1, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 2, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 2, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,
-        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 2, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 2, Sequence<2, 2, 2, 2, 2>, Sequence<2> >,
-        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 4, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 4, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,
-        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 4, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,
-        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 4, Sequence<2, 2, 2, 2, 2>, Sequence<2> >
+        // Tuple<XDataType, MeanDataType, VarDataType, ScaleDataType, BiasDataType>, Tuple<YDataType>, NormalizeOp, Rank, BlockSize, MPerBlock, NPerBlock, MPerThread, NPerThread, ThreadClusterArrangerOrder, Sequence<XVectorSize, MeanDataType, VarDataType, ScaleVectorSize, BiasVectorSize>, Sequence<YVectorSize> 
+        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 64,  8,  8, 1, 1, ck::Sequence<1, 0>, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 64, 16, 16, 2, 2, ck::Sequence<1, 0>, Sequence<2, 2, 2, 2, 2>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<1, 1, 1, 1, 1>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<2, 1, 1, 1, 1>, Sequence<2> >,
+        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<1, 2, 2, 2, 2>, Sequence<1> >,
+        DeviceElementwiseImpl<Tuple<F64, F64, F64, F64, F64>, Tuple<F64>, Normalize, Rank, 64, 32, 32, 4, 4, ck::Sequence<1, 0>, Sequence<2, 2, 2, 2, 2>, Sequence<2> >
     >;
 // clang-format on


--- a/library/src/tensor_operation_instance/gpu/elementwise/device_normalize_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/elementwise/device_normalize_instance.cpp
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.

 #include <cstdlib>

 #include "ck/ck.hpp"
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
 #include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_elementwise_impl.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_elementwise_dynamic_vector_dims_impl.hpp"
 #include "ck/library/tensor_operation_instance/add_device_operation_instance.hpp"

 namespace ck {
@@ -27,16 +27,20 @@ using outputType     = F16;
 using Normalize = ck::tensor_operation::element_wise::Normalize;
 using device_normalize_from_mean_squaremean_f16_f32_f32_f16_f16_instances = std::tuple<
    // clang-format off
-    //###################|<in, mean, square_mean, gamma, beta>| <out>|  functor| NDim| MPerThread| <in, mean, square_mean, gamma, beta ScalarPerVector>| <out ScalarPerVector>|
-    DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>,  Tuple<F16>,  Normalize,  2,   8,       Sequence<8, 1, 1, 8, 8>,      Sequence<8>                >,
-    DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>,  Tuple<F16>,  Normalize,  2,   4,       Sequence<4, 1, 1, 4, 4>,      Sequence<4>                >,
-    DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>,  Tuple<F16>,  Normalize,  2,   2,       Sequence<2, 1, 1, 2, 2>,      Sequence<2>                >
+    //###################|<in, mean, square_mean, gamma, beta>| <out>|  functor| NDim| BlockSize| M/NPerBlock|| M/NPerThread| ThreadClusterArrangeOrder| <in, mean, square_mean, gamma, beta ScalarPerVector>| <out ScalarPerVector>|
+    DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>,  Tuple<F16>,  Normalize,  2, 256,          128, 128,         8, 8,         ck::Sequence<1, 0>,                             Sequence<8, 1, 1, 8, 8>,      Sequence<8>>,
+    DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>,  Tuple<F16>,  Normalize,  2,  64,           64,  64,         8, 8,         ck::Sequence<1, 0>,                             Sequence<8, 1, 1, 8, 8>,      Sequence<8>>,
+    DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>,  Tuple<F16>,  Normalize,  2, 256,           64,  64,         4, 4,         ck::Sequence<1, 0>,                             Sequence<4, 1, 1, 4, 4>,      Sequence<4>>,
+    DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>,  Tuple<F16>,  Normalize,  2,  64,           32,  32,         4, 4,         ck::Sequence<1, 0>,                             Sequence<4, 1, 1, 4, 4>,      Sequence<4>>,
+    DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>,  Tuple<F16>,  Normalize,  2, 256,           64,  64,         4, 4,         ck::Sequence<1, 0>,                             Sequence<2, 1, 1, 2, 2>,      Sequence<2>>,
+    DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>,  Tuple<F16>,  Normalize,  2,  64,           16,  16,         2, 2,         ck::Sequence<1, 0>,                             Sequence<2, 1, 1, 2, 2>,      Sequence<2>>
    // clang-format on
    >;

 using device_normalize_from_mean_squaremean_f16_f32_f32_f16_f16_generic_instance = std::tuple<
    // clang-format off
-    DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>,  Tuple<F16>,  Normalize,  2,   1,       Sequence<1, 1, 1, 1, 1>,      Sequence<1>                >
+    DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>,  Tuple<F16>,  Normalize,  2, 256,           64,  64,         4, 4,         ck::Sequence<1, 0>,                             Sequence<1, 1, 1, 1, 1>,      Sequence<1>>,
+    DeviceElementwiseImpl<Tuple<F16, F32, F32, F16, F16>,  Tuple<F16>,  Normalize,  2, 64,            32,  32,         4, 4,         ck::Sequence<1, 0>,                             Sequence<1, 1, 1, 1, 1>,      Sequence<1>>
    // clang-format on
    >;


--- a/profiler/include/profiler/profile_transpose_impl.hpp
+++ b/profiler/include/profiler/profile_transpose_impl.hpp
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.

 #pragma once

@@ -11,7 +11,7 @@
 #include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
 #include "ck/tensor_operation/gpu/device/device_elementwise.hpp"
 #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_elementwise_3d_impl.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_elementwise_dynamic_vector_dims_impl.hpp"

 #include "ck/library/tensor_operation_instance/gpu/transpose_3d.hpp"


--- a/profiler/src/profile_transpose.cpp
+++ b/profiler/src/profile_transpose.cpp
@@ -18,39 +18,6 @@ enum struct DataType
 #define OP_NAME "transpose"
 #define OP_DESC "Transpose"

-struct TransposeArgParser
-{
-    std::unordered_map<std::string, std::vector<int>> long_opts = {{"lengths", {}}};
-
-    bool parse_opt(const int argc, char* argv[], const std::string& key, int i)
-    {
-        if(std::string("--") + key == argv[i])
-        {
-            const int pos = i;
-            while(++i < argc && argv[i][0] != '-') {}
-            int end = i;
-            for(int j = pos + 1; j < end; j++)
-            {
-                long_opts[key].push_back(std::stoi(argv[j]));
-            }
-            return true;
-        }
-        return false;
-    }
-
-    void operator()(int argc, char* argv[])
-    {
-        for(auto& kv : long_opts)
-        {
-            for(int i = 1; i < argc; i++)
-            {
-                if(parse_opt(argc, argv, kv.first, i))
-                    break;
-            }
-        }
-    }
-};
-
 static void print_helper_msg()
 {
    printf("arg1: tensor operation (" OP_NAME ": " OP_DESC ")\n");
@@ -59,25 +26,27 @@ static void print_helper_msg()
    printf("arg4: initialization (0: no init; 1: integer value; 2: decimal value)\n");
    printf("arg5: print tensor value (0: no; 1: yes)\n");
    printf("arg6: time kernel (0=no, 1=yes)\n");
-    printf("arg7: --lengths: N, C, D, H, W\n");
+    printf("arg7 to arg11: N, C, D, H, W\n");
 }

 int profile_transpose(int argc, char* argv[])
 {
-    if(argc != 7)
+    if(argc != 12)
    {
        print_helper_msg();
        exit(1);
    }
-    TransposeArgParser arg_parser;

-    const auto data_type       = static_cast<DataType>(std::stoi(argv[2]));
-    const bool do_verification = std::stoi(argv[3]);
-    const int init_method      = std::stoi(argv[4]);
-    const bool do_log          = std::stoi(argv[5]);
-    const bool time_kernel     = std::stoi(argv[6]);
-    arg_parser(argc, argv);
-    const std::vector<ck::index_t> lengths = arg_parser.long_opts["lengths"];
+    const auto data_type                   = static_cast<DataType>(std::stoi(argv[2]));
+    const bool do_verification             = std::stoi(argv[3]);
+    const int init_method                  = std::stoi(argv[4]);
+    const bool do_log                      = std::stoi(argv[5]);
+    const bool time_kernel                 = std::stoi(argv[6]);
+    const std::vector<ck::index_t> lengths = {std::stoi(argv[7]),
+                                              std::stoi(argv[8]),
+                                              std::stoi(argv[9]),
+                                              std::stoi(argv[10]),
+                                              std::stoi(argv[11])};

    using F32 = float;
    using F16 = ck::half_t;