refactor atomicAdd

c4bc8da2 · Chao Liu · 708b7bf2 · c4bc8da2 · c4bc8da2 · c4bc8da2
Commit c4bc8da2 authored Apr 15, 2022 by Chao Liu
16 changed files
--- a/include/ck/tensor_operation/gpu/device/device_batched_gemm_reduce_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_batched_gemm_reduce_xdl_cshuffle.hpp
@@ -54,7 +54,7 @@ __global__ void
            const ComputeBasePrtOfBatch compute_base_ptr_of_batch_,
            const Block2CTileMap block_2_ctile_map)
 {
-#if (!defined(__HIP_DEVICE_COMPILE__)  || defined(__gfx908__) || defined(__gfx90a__))
+#if(!defined(__HIP_DEVICE_COMPILE__) || defined(__gfx908__) || defined(__gfx90a__))
    const index_t num_blocks_per_batch =
        __builtin_amdgcn_readfirstlane(get_grid_size() / batch_count);
    const index_t g_idx = __builtin_amdgcn_readfirstlane(get_block_1d_id() / num_blocks_per_batch);
@@ -90,24 +90,24 @@ __global__ void
                                                   d_grid_desc_mblock_mperblock,
                                                   block_2_ctile_map);
 #else
-	ignore = p_a_grid;
-	ignore = p_b_grid;
-	ignore = p_c_grid;
-	ignore = p_d0_grid;
-	ignore = p_d1_grid;
-	ignore = batch_count;
-	ignore = a_element_op;
-	ignore = b_element_op;
-	ignore = c_element_op;
-	ignore = d0_reduce_op;
-	ignore = d1_reduce_op;
-	ignore = a_grid_desc_ak0_m_ak1;
-	ignore = b_grid_desc_bk0_n_bk1;
-	ignore = c_grid_desc_mblock_mperblock_nblock_nperblock;
-	ignore = d_grid_desc_mblock_mperblock;
-	ignore = compute_base_ptr_of_batch_;
-	ignore = block_2_ctile_map;
-#endif //end of if defined (defined(__gfx908__) || defined(__gfx90a__))												   
+    ignore = p_a_grid;
+    ignore = p_b_grid;
+    ignore = p_c_grid;
+    ignore = p_d0_grid;
+    ignore = p_d1_grid;
+    ignore = batch_count;
+    ignore = a_element_op;
+    ignore = b_element_op;
+    ignore = c_element_op;
+    ignore = d0_reduce_op;
+    ignore = d1_reduce_op;
+    ignore = a_grid_desc_ak0_m_ak1;
+    ignore = b_grid_desc_bk0_n_bk1;
+    ignore = c_grid_desc_mblock_mperblock_nblock_nperblock;
+    ignore = d_grid_desc_mblock_mperblock;
+    ignore = compute_base_ptr_of_batch_;
+    ignore = block_2_ctile_map;
+#endif // end of if defined (defined(__gfx908__) || defined(__gfx90a__))
 }

 template <typename ALayout,

--- a/include/ck/tensor_operation/gpu/device/device_batched_gemm_xdl.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_batched_gemm_xdl.hpp
@@ -46,7 +46,7 @@ __global__ void
            const ComputeBasePrtOfBatch compute_base_ptr_of_batch_,
            const Block2CTileMap block_2_ctile_map)
 {
-#if (!defined(__HIP_DEVICE_COMPILE__)  || defined(__gfx908__) || defined(__gfx90a__))
+#if(!defined(__HIP_DEVICE_COMPILE__) || defined(__gfx908__) || defined(__gfx90a__))
    const index_t num_blocks_per_batch =
        __builtin_amdgcn_readfirstlane(get_grid_size() / batch_count);
    const index_t g_idx = __builtin_amdgcn_readfirstlane(get_block_1d_id() / num_blocks_per_batch);
@@ -72,19 +72,19 @@ __global__ void
                                                  c_element_op,
                                                  block_2_ctile_map);
 #else
-	ignore = p_a_grid;
-	ignore = p_b_grid;
-	ignore = p_c_grid;
-	ignore = batch_count;
-	ignore = a_grid_desc_k0_m_k1;
-	ignore = b_grid_desc_k0_n_k1;
-	ignore = c_grid_desc_m0_n0_m1_n1_m2_m3_m4_n2;
-	ignore = a_element_op;
-	ignore = b_element_op;
-	ignore = c_element_op;
-	ignore = compute_base_ptr_of_batch_;
-	ignore = block_2_ctile_map;
-#endif //end of if (defined(__gfx908__) || defined(__gfx90a__))
+    ignore = p_a_grid;
+    ignore = p_b_grid;
+    ignore = p_c_grid;
+    ignore = batch_count;
+    ignore = a_grid_desc_k0_m_k1;
+    ignore = b_grid_desc_k0_n_k1;
+    ignore = c_grid_desc_m0_n0_m1_n1_m2_m3_m4_n2;
+    ignore = a_element_op;
+    ignore = b_element_op;
+    ignore = c_element_op;
+    ignore = compute_base_ptr_of_batch_;
+    ignore = block_2_ctile_map;
+#endif // end of if (defined(__gfx908__) || defined(__gfx90a__))
 }

 template <typename ADataType,

--- a/include/ck/tensor_operation/gpu/device/device_conv3d_fwd_xdl_ndhwc_kzyxc_ndhwk.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_conv3d_fwd_xdl_ndhwc_kzyxc_ndhwk.hpp
@@ -49,7 +49,7 @@ __global__ void
            const CElementwiseOperation c_element_op,
            const Block2CTileMap block_2_ctile_map)
 {
-#if (!defined(__HIP_DEVICE_COMPILE__)  || defined(__gfx908__) || defined(__gfx90a__))
+#if(!defined(__HIP_DEVICE_COMPILE__) || defined(__gfx908__) || defined(__gfx90a__))
    const index_t num_blocks_per_batch =
        __builtin_amdgcn_readfirstlane(get_grid_size() / num_batches);
    const index_t g_idx = __builtin_amdgcn_readfirstlane(get_block_1d_id() / num_blocks_per_batch);
@@ -76,21 +76,21 @@ __global__ void
                                                  block_2_ctile_map);

 #else
-	ignore = p_a_grid;
-	ignore = p_b_grid;
-	ignore = p_c_grid;
-	ignore = num_batches;
-	ignore = a_batch_stride;
-	ignore = b_batch_stride;
-	ignore = c_batch_stride;
-	ignore = a_grid_desc_k0_m_k1;
-	ignore = b_grid_desc_k0_n_k1;
-	ignore = c_grid_desc_m0_n0_m1_n1_m2_m3_m4_n2;
-	ignore = a_element_op;
-	ignore = b_element_op;
-	ignore = c_element_op;
-	ignore = block_2_ctile_map;
-#endif //end of if (defined(__gfx908__) || defined(__gfx90a__))
+    ignore = p_a_grid;
+    ignore = p_b_grid;
+    ignore = p_c_grid;
+    ignore = num_batches;
+    ignore = a_batch_stride;
+    ignore = b_batch_stride;
+    ignore = c_batch_stride;
+    ignore = a_grid_desc_k0_m_k1;
+    ignore = b_grid_desc_k0_n_k1;
+    ignore = c_grid_desc_m0_n0_m1_n1_m2_m3_m4_n2;
+    ignore = a_element_op;
+    ignore = b_element_op;
+    ignore = c_element_op;
+    ignore = block_2_ctile_map;
+#endif // end of if (defined(__gfx908__) || defined(__gfx90a__))
 }

 // specialization for #D conv: in[n, di, hi, wi, c] * wei[k, z, y, x, c] = out[n, do, ho, wo, k]

--- a/include/ck/tensor_operation/gpu/grid/gridwise_2d_reduction_threadwise.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_2d_reduction_threadwise.hpp
@@ -55,7 +55,7 @@ __global__ void kernel_reduce_threadwise(const InGridDesc_M_K in_grid_desc_m_k,
                                         OutDataType* const __restrict__ p_out_global,
                                         IndexDataType* const __restrict__ p_indices_global)
 {
-   if constexpr(!NeedIndices)
+    if constexpr(!NeedIndices)
    {
        GridwiseReduction::Run(in_grid_desc_m_k,
                               out_grid_desc_m,

--- a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_reduce_xdl_cshuffle_v1.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_reduce_xdl_cshuffle_v1.hpp
@@ -48,7 +48,7 @@ __global__ void
            const DGridDescriptor_MBlock_MPerBlock d_grid_desc_mblock_mperblock,
            const Block2CTileMap block_2_ctile_map)
 {
-#if (!defined(__HIP_DEVICE_COMPILE__)  || defined(__gfx908__) || defined(__gfx90a__))
+#if(!defined(__HIP_DEVICE_COMPILE__) || defined(__gfx908__) || defined(__gfx90a__))
    __shared__ char p_shared[GridwiseGemm::GetSharedMemoryNumberOfByte()];

    GridwiseGemm::template Run<HasMainK0BlockLoop>(p_a_grid,
@@ -68,22 +68,22 @@ __global__ void
                                                   d_grid_desc_mblock_mperblock,
                                                   block_2_ctile_map);
 #else
-	ignore = p_a_grid;
-	ignore = p_b_grid;
-	ignore = p_c_grid;
-	ignore = p_d0_grid;
-	ignore = p_d1_grid;
-	ignore = a_element_op;
-	ignore = b_element_op;
-	ignore = c_element_op;
-	ignore = d0_reduce_op;
-	ignore = d1_reduce_op;
-	ignore = a_grid_desc_ak0_m_ak1;
-	ignore = b_grid_desc_bk0_n_bk1;
-	ignore = c_grid_desc_mblock_mperblock_nblock_nperblock;
-	ignore = d_grid_desc_mblock_mperblock;	
-	ignore = block_2_ctile_map;	
-#endif //end of if (defined(__gfx908__) || defined(__gfx90a__))
+    ignore = p_a_grid;
+    ignore = p_b_grid;
+    ignore = p_c_grid;
+    ignore = p_d0_grid;
+    ignore = p_d1_grid;
+    ignore = a_element_op;
+    ignore = b_element_op;
+    ignore = c_element_op;
+    ignore = d0_reduce_op;
+    ignore = d1_reduce_op;
+    ignore = a_grid_desc_ak0_m_ak1;
+    ignore = b_grid_desc_bk0_n_bk1;
+    ignore = c_grid_desc_mblock_mperblock_nblock_nperblock;
+    ignore = d_grid_desc_mblock_mperblock;
+    ignore = block_2_ctile_map;
+#endif // end of if (defined(__gfx908__) || defined(__gfx90a__))
 }

 template <typename FloatAB,

--- a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdl_cshuffle_v1.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdl_cshuffle_v1.hpp
@@ -38,7 +38,7 @@ __global__ void
                                        c_grid_desc_mblock_mperblock_nblock_nperblock,
                                    const Block2CTileMap block_2_ctile_map)
 {
-#if (!defined(__HIP_DEVICE_COMPILE__)  || defined(__gfx908__) || defined(__gfx90a__))
+#if(!defined(__HIP_DEVICE_COMPILE__) || defined(__gfx908__) || defined(__gfx90a__))
    __shared__ char p_shared[GridwiseGemm::GetSharedMemoryNumberOfByte()];

    GridwiseGemm::template Run<HasMainK0BlockLoop>(p_a_grid,
@@ -53,17 +53,17 @@ __global__ void
                                                   c_grid_desc_mblock_mperblock_nblock_nperblock,
                                                   block_2_ctile_map);
 #else
-	ignore = p_a_grid;
-	ignore = p_b_grid;
-	ignore = p_c_grid;
-	ignore = a_element_op;
-	ignore = b_element_op;
-	ignore = c_element_op;
-	ignore = a_grid_desc_ak0_m_ak1;
-	ignore = b_grid_desc_bk0_n_bk1;
-	ignore = c_grid_desc_mblock_mperblock_nblock_nperblock;
-	ignore = block_2_ctile_map;	
-#endif //end of if (defined(__gfx908__) || defined(__gfx90a__))
+    ignore = p_a_grid;
+    ignore = p_b_grid;
+    ignore = p_c_grid;
+    ignore = a_element_op;
+    ignore = b_element_op;
+    ignore = c_element_op;
+    ignore = a_grid_desc_ak0_m_ak1;
+    ignore = b_grid_desc_bk0_n_bk1;
+    ignore = c_grid_desc_mblock_mperblock_nblock_nperblock;
+    ignore = block_2_ctile_map;
+#endif // end of if (defined(__gfx908__) || defined(__gfx90a__))
 }

 template <typename FloatAB,

--- a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v2r3.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v2r3.hpp
@@ -39,7 +39,7 @@ __global__ void
            const CElementwiseOperation c_element_op,
            const Block2CTileMap block_2_ctile_map)
 {
-#if (!defined(__HIP_DEVICE_COMPILE__)  || defined(__gfx908__) || defined(__gfx90a__))
+#if(!defined(__HIP_DEVICE_COMPILE__) || defined(__gfx908__) || defined(__gfx90a__))
    __shared__ char p_shared[GridwiseGemm::GetSharedMemoryNumberOfByte()];

    GridwiseGemm::template Run<HasMainK0BlockLoop>(p_a_grid,
@@ -54,17 +54,17 @@ __global__ void
                                                   c_element_op,
                                                   block_2_ctile_map);
 #else
-	ignore = p_a_grid;
-	ignore = p_b_grid;
-	ignore = p_c_grid;
-	ignore = a_grid_desc_k0_m_k1;
-	ignore = b_grid_desc_k0_n_k1;
-	ignore = c_grid_desc_m0_n0_m1_n1_m2_m3_m4_n2;
-	ignore = a_element_op;
-	ignore = b_element_op;
-	ignore = c_element_op;
-	ignore = block_2_ctile_map;	
-#endif //end of if (defined(__gfx908__) || defined(__gfx90a__))
+    ignore = p_a_grid;
+    ignore = p_b_grid;
+    ignore = p_c_grid;
+    ignore = a_grid_desc_k0_m_k1;
+    ignore = b_grid_desc_k0_n_k1;
+    ignore = c_grid_desc_m0_n0_m1_n1_m2_m3_m4_n2;
+    ignore = a_element_op;
+    ignore = b_element_op;
+    ignore = c_element_op;
+    ignore = block_2_ctile_map;
+#endif // end of if (defined(__gfx908__) || defined(__gfx90a__))
 }

 template <typename GridwiseGemm,
@@ -87,7 +87,7 @@ __global__ void
            const BElementwiseOperation b_element_op,
            const CElementwiseOperation c_element_op)
 {
-#if (!defined(__HIP_DEVICE_COMPILE__)  || defined(__gfx908__) || defined(__gfx90a__))
+#if(!defined(__HIP_DEVICE_COMPILE__) || defined(__gfx908__) || defined(__gfx90a__))
    __shared__ char p_shared[GridwiseGemm::GetSharedMemoryNumberOfByte()];

    const index_t block_id = get_block_1d_id();
@@ -141,12 +141,12 @@ __global__ void
        block_id_grp);
 #endif
 #else
-	ignore = gemm_desc_;
-	ignore = group_count;
-	ignore = a_element_op;
-	ignore = b_element_op;
-	ignore = c_element_op;
-#endif //end of if (defined(__gfx908__) || defined(__gfx90a__))
+    ignore = gemm_desc_;
+    ignore = group_count;
+    ignore = a_element_op;
+    ignore = b_element_op;
+    ignore = c_element_op;
+#endif // end of if (defined(__gfx908__) || defined(__gfx90a__))
 }

 template <index_t BlockSize,

--- a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v2r4.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v2r4.hpp
@@ -37,7 +37,7 @@ __global__ void
                                const CElementwiseOperation c_element_op,
                                const CBlockClusterAdaptor c_block_cluster_adaptor)
 {
-#if (!defined(__HIP_DEVICE_COMPILE__)  || defined(__gfx908__) || defined(__gfx90a__))
+#if(!defined(__HIP_DEVICE_COMPILE__) || defined(__gfx908__) || defined(__gfx90a__))
    constexpr index_t shared_block_size =
        GridwiseGemm::GetSharedMemoryNumberOfByte() / sizeof(FloatAB);

@@ -55,17 +55,17 @@ __global__ void
                                                  c_element_op,
                                                  c_block_cluster_adaptor);
 #else
-	ignore = p_a_grid;
-	ignore = p_b_grid;
-	ignore = p_c_grid;
-	ignore = a_b_k0_m_k1_grid_desc;
-	ignore = b_b_k0_n_k1_grid_desc;
-	ignore = c_m0_n0_m1_n1_m2_m3_m4_n2_grid_desc;
-	ignore = a_element_op;
-	ignore = b_element_op;
-	ignore = c_element_op;
-	ignore = c_block_cluster_adaptor;	
-#endif //end of if (defined(__gfx908__) || defined(__gfx90a__))
+    ignore = p_a_grid;
+    ignore = p_b_grid;
+    ignore = p_c_grid;
+    ignore = a_b_k0_m_k1_grid_desc;
+    ignore = b_b_k0_n_k1_grid_desc;
+    ignore = c_m0_n0_m1_n1_m2_m3_m4_n2_grid_desc;
+    ignore = a_element_op;
+    ignore = b_element_op;
+    ignore = c_element_op;
+    ignore = c_block_cluster_adaptor;
+#endif // end of if (defined(__gfx908__) || defined(__gfx90a__))
 }

 template <index_t BlockSize,

--- a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v2r4r2.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v2r4r2.hpp
@@ -39,7 +39,7 @@ __global__ void
                                  const CElementwiseOperation c_element_op,
                                  const CBlockClusterAdaptor c_block_cluster_adaptor)
 {
-#if (!defined(__HIP_DEVICE_COMPILE__)  || defined(__gfx908__) || defined(__gfx90a__))
+#if(!defined(__HIP_DEVICE_COMPILE__) || defined(__gfx908__) || defined(__gfx90a__))
    constexpr index_t shared_block_size =
        GridwiseGemm::GetSharedMemoryNumberOfByte() / sizeof(FloatAB);

@@ -57,17 +57,17 @@ __global__ void
                                                  c_element_op,
                                                  c_block_cluster_adaptor);
 #else
-	ignore = p_a_grid;
-	ignore = p_b_grid;
-	ignore = p_c_grid;
-	ignore = a_b_k0_m_k1_grid_desc;
-	ignore = b_b_k0_n_k1_grid_desc;
-	ignore = c_grid_desc_mblock_mperblock_nblock_nperblock;
-	ignore = a_element_op;
-	ignore = b_element_op;
-	ignore = c_element_op;
-	ignore = c_block_cluster_adaptor;
-#endif //end of if (defined(__gfx908__) || defined(__gfx90a__))
+    ignore = p_a_grid;
+    ignore = p_b_grid;
+    ignore = p_c_grid;
+    ignore = a_b_k0_m_k1_grid_desc;
+    ignore = b_b_k0_n_k1_grid_desc;
+    ignore = c_grid_desc_mblock_mperblock_nblock_nperblock;
+    ignore = a_element_op;
+    ignore = b_element_op;
+    ignore = c_element_op;
+    ignore = c_block_cluster_adaptor;
+#endif // end of if (defined(__gfx908__) || defined(__gfx90a__))
 }

 template <index_t BlockSize,

--- a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v3r1.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v3r1.hpp
@@ -42,7 +42,7 @@ __global__ void
            const CElementwiseOperation c_element_op,
            const Block2CTileMap block_2_ctile_map)
 {
-#if (!defined(__HIP_DEVICE_COMPILE__)  || defined(__gfx908__) || defined(__gfx90a__))
+#if(!defined(__HIP_DEVICE_COMPILE__) || defined(__gfx908__) || defined(__gfx90a__))
    __shared__ char p_shared[GridwiseGemm::GetSharedMemoryNumberOfByte()];

    GridwiseGemm::template Run<HasMainK0BlockLoop>(
@@ -58,17 +58,17 @@ __global__ void
        c_element_op,
        block_2_ctile_map);
 #else
-	ignore = p_a_grid;
-	ignore = p_b_grid;
-	ignore = p_c_grid;
-	ignore = a_grid_desc_ak0_m_ak1;
-	ignore = b_grid_desc_bk0_n_bk1;
-	ignore = c_grid_desc_mblock_mxdlperwave_mwavemperxdl_nblock_nxdlperwave_nwavenperxdl;
-	ignore = a_element_op;
-	ignore = b_element_op;
-	ignore = c_element_op;
-	ignore = block_2_ctile_map;
-#endif //end of if (defined(__gfx908__) || defined(__gfx90a__))
+    ignore = p_a_grid;
+    ignore = p_b_grid;
+    ignore = p_c_grid;
+    ignore = a_grid_desc_ak0_m_ak1;
+    ignore = b_grid_desc_bk0_n_bk1;
+    ignore = c_grid_desc_mblock_mxdlperwave_mwavemperxdl_nblock_nxdlperwave_nwavenperxdl;
+    ignore = a_element_op;
+    ignore = b_element_op;
+    ignore = c_element_op;
+    ignore = block_2_ctile_map;
+#endif // end of if (defined(__gfx908__) || defined(__gfx90a__))
 }

 template <

--- a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v3r2.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v3r2.hpp
@@ -45,7 +45,7 @@ __global__ void
            const CElementwiseOperation c_element_op,
            const Block2CTileMap block_2_ctile_map)
 {
-#if (!defined(__HIP_DEVICE_COMPILE__)  || defined(__gfx908__) || defined(__gfx90a__))
+#if(!defined(__HIP_DEVICE_COMPILE__) || defined(__gfx908__) || defined(__gfx90a__))
    __shared__ char p_shared[GridwiseGemm::GetSharedMemoryNumberOfByte()];

    GridwiseGemm::template Run<HasMainK0BlockLoop>(
@@ -63,19 +63,19 @@ __global__ void
        c_element_op,
        block_2_ctile_map);
 #else
-	ignore = p_a_grid;
-	ignore = p_b_grid;
-	ignore = p_c_grid;
-	ignore = p_c0_grid;
-	ignore = a_grid_desc_k0_m_k1;
-	ignore = b_grid_desc_k0_n_k1;
-	ignore = c_grid_desc_mblock_mxdlperwave_mwavemperxdl_nblock_nxdlperwave_nwavenperxdl;
-	ignore = c0_grid_desc_mblock_mxdlperwave_mwavemperxdl_nblock_nxdlperwave_nwavenperxdl;
-	ignore = a_element_op;
-	ignore = b_element_op;
-	ignore = c_element_op;
-	ignore = block_2_ctile_map;
-#endif //end of if (defined(__gfx908__) || defined(__gfx90a__))
+    ignore = p_a_grid;
+    ignore = p_b_grid;
+    ignore = p_c_grid;
+    ignore = p_c0_grid;
+    ignore = a_grid_desc_k0_m_k1;
+    ignore = b_grid_desc_k0_n_k1;
+    ignore = c_grid_desc_mblock_mxdlperwave_mwavemperxdl_nblock_nxdlperwave_nwavenperxdl;
+    ignore = c0_grid_desc_mblock_mxdlperwave_mwavemperxdl_nblock_nxdlperwave_nwavenperxdl;
+    ignore = a_element_op;
+    ignore = b_element_op;
+    ignore = c_element_op;
+    ignore = block_2_ctile_map;
+#endif // end of if (defined(__gfx908__) || defined(__gfx90a__))
 }

 template <

--- a/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v3r3.hpp
+++ b/include/ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v3r3.hpp
@@ -49,7 +49,7 @@ __global__ void
            const CElementwiseOperation c_element_op,
            const Block2CTileMap block_2_ctile_map)
 {
-#if (!defined(__HIP_DEVICE_COMPILE__)  || defined(__gfx908__) || defined(__gfx90a__))
+#if(!defined(__HIP_DEVICE_COMPILE__) || defined(__gfx908__) || defined(__gfx90a__))
    __shared__ char p_shared[GridwiseGemm::GetSharedMemoryNumberOfByte()];

    GridwiseGemm::template Run<HasMainK0BlockLoop>(
@@ -69,21 +69,21 @@ __global__ void
        c_element_op,
        block_2_ctile_map);
 #else
-	ignore = p_a_grid;
-	ignore = p_b_grid;
-	ignore = p_c_grid;
-	ignore = p_c0_grid;
-	ignore = p_c1_grid;
-	ignore = a_grid_desc_k0_m_k1;
-	ignore = b_grid_desc_k0_n_k1;
-	ignore = c_grid_desc_mblock_mxdlperwave_mwavemperxdl_nblock_nxdlperwave_nwavenperxdl;
-	ignore = c0_grid_desc_mblock_mxdlperwave_mwavemperxdl_nblock_nxdlperwave_nwavenperxdl;
-	ignore = c1_grid_desc_mblock_mxdlperwave_mwavemperxdl_nblock_nxdlperwave_nwavenperxdl;
-	ignore = a_element_op;
-	ignore = b_element_op;
-	ignore = c_element_op;
-	ignore = block_2_ctile_map;
-#endif //end of if (defined(__gfx908__) || defined(__gfx90a__))
+    ignore = p_a_grid;
+    ignore = p_b_grid;
+    ignore = p_c_grid;
+    ignore = p_c0_grid;
+    ignore = p_c1_grid;
+    ignore = a_grid_desc_k0_m_k1;
+    ignore = b_grid_desc_k0_n_k1;
+    ignore = c_grid_desc_mblock_mxdlperwave_mwavemperxdl_nblock_nxdlperwave_nwavenperxdl;
+    ignore = c0_grid_desc_mblock_mxdlperwave_mwavemperxdl_nblock_nxdlperwave_nwavenperxdl;
+    ignore = c1_grid_desc_mblock_mxdlperwave_mwavemperxdl_nblock_nxdlperwave_nwavenperxdl;
+    ignore = a_element_op;
+    ignore = b_element_op;
+    ignore = c_element_op;
+    ignore = block_2_ctile_map;
+#endif // end of if (defined(__gfx908__) || defined(__gfx90a__))
 }

 template <

--- a/include/ck/utility/common_header.hpp
+++ b/include/ck/utility/common_header.hpp
@@ -13,6 +13,7 @@
 #include "functional3.hpp"
 #include "functional4.hpp"
 #include "enable_if.hpp"
+#include "ignore.hpp"
 #include "integral_constant.hpp"
 #include "math.hpp"
 #include "number.hpp"
@@ -30,12 +31,12 @@
 #include "debug.hpp"

 #include "amd_buffer_addressing.hpp"
+#include "generic_memory_space_atomic_add.hpp"
 #include "get_id.hpp"
 #include "synchronization.hpp"
 #include "amd_address_space.hpp"
 #include "static_buffer.hpp"
 #include "dynamic_buffer.hpp"
-#include "ignore.hpp"

 // TODO: remove this
 #if CK_USE_AMD_INLINE_ASM

--- a/include/ck/utility/data_type.hpp
+++ b/include/ck/utility/data_type.hpp
@@ -992,77 +992,6 @@ inline __host__ __device__ bhalf_t type_convert<bhalf_t, float>(float x)
    return uint16_t(u.int32 >> 16);
 }

-// TODO: deprecate this
-template <typename T>
-struct inner_product_with_conversion
-{
-    template <typename X, index_t N>
-    __device__ T operator()(typename vector_type<X, N>::type a,
-                            typename vector_type<X, N>::type b) const
-    {
-        const vector_type<X, N> a_vector{a};
-        const vector_type<X, N> b_vector{b};
-
-        T acc = 0;
-
-        static_for<0, N, 1>{}([&](auto i) {
-            acc += type_convert<T>(a_vector.Scalars()[i]) * type_convert<T>(b_vector.Scalars()[i]);
-        });
-
-        return acc;
-    }
-
-    __device__ T operator()(float_t a, float_t b) const
-    {
-        return type_convert<T>(a) * type_convert<T>(b);
-    }
-
-    __device__ T operator()(int8x4_t a, int8x4_t b) const
-    {
-        const vector_type<int8_t, 4> a_vector{a};
-        const vector_type<int8_t, 4> b_vector{b};
-
-        T acc = 0;
-
-        static_for<0, 4, 1>{}([&](auto i) {
-            acc += type_convert<T>(a_vector.AsType<int8_t>()[i]) *
-                   type_convert<T>(b_vector.AsType<int8_t>()[i]);
-        });
-
-        return acc;
-    }
-
-    __device__ T operator()(int8x8_t a, int8x8_t b) const
-    {
-        const vector_type<int8_t, 8> a_vector{a};
-        const vector_type<int8_t, 8> b_vector{b};
-
-        T acc = 0;
-
-        static_for<0, 8, 1>{}([&](auto i) {
-            acc += type_convert<T>(a_vector.AsType<int8_t>()[i]) *
-                   type_convert<T>(b_vector.AsType<int8_t>()[i]);
-        });
-
-        return acc;
-    }
-
-    __device__ T operator()(int8x16_t a, int8x16_t b) const
-    {
-        const vector_type<int8_t, 16> a_vector{a};
-        const vector_type<int8_t, 16> b_vector{b};
-
-        T acc = 0;
-
-        static_for<0, 16, 1>{}([&](auto i) {
-            acc += type_convert<T>(a_vector.AsType<int8_t>()[i]) *
-                   type_convert<T>(b_vector.AsType<int8_t>()[i]);
-        });
-
-        return acc;
-    }
-};
-
 template <typename T>
 struct NumericLimits
 {

--- a/include/ck/utility/dynamic_buffer.hpp
+++ b/include/ck/utility/dynamic_buffer.hpp
 #pragma once
-#include "amd_buffer_addressing.hpp"
-#include "c_style_pointer_cast.hpp"
 #include "config.hpp"
 #include "enable_if.hpp"
+#include "c_style_pointer_cast.hpp"
+#include "amd_buffer_addressing.hpp"
+#include "generic_memory_space_atomic_add.hpp"

 namespace ck {

+// T may be scalar or vector
+// X may be scalar or vector
+// T and X have same scalar type
+// X contains multiple T
 template <AddressSpaceEnum BufferAddressSpace,
          typename T,
          typename ElementSpaceSize,
@@ -316,9 +321,7 @@ struct DynamicBuffer
        {
            if(is_valid_element)
            {
-                // FIXME: atomicAdd is defined by HIP, need to avoid implicit type casting when
-                // calling it
-                atomicAdd(c_style_pointer_cast<X*>(&p_data_[i]), x);
+                atomic_add<X>(c_style_pointer_cast<X*>(&p_data_[i]), x);
            }
        }
    }

--- a/include/ck/utility/generic_memory_space_atomic_add.hpp
+++ b/include/ck/utility/generic_memory_space_atomic_add.hpp
+#pragma once
+#include "data_type.hpp"
+
+namespace ck {
+
+template <typename X>
+__device__ X atomic_add(X* p_dst, const X& x);
+
+template <>
+__device__ int32_t atomic_add<int32_t>(int32_t* p_dst, const int32_t& x)
+{
+    return atomicAdd(p_dst, x);
+}
+
+template <>
+__device__ uint32_t atomic_add<uint32_t>(uint32_t* p_dst, const uint32_t& x)
+{
+    return atomicAdd(p_dst, x);
+}
+
+template <>
+__device__ float atomic_add<float>(float* p_dst, const float& x)
+{
+    return atomicAdd(p_dst, x);
+}
+
+template <>
+__device__ float2_t atomic_add<float2_t>(float2_t* p_dst, const float2_t& x)
+{
+    constexpr auto I0 = Number<0>{};
+    constexpr auto I1 = Number<1>{};
+
+    const vector_type<float, 2> vx{x};
+    vector_type<float, 2> vy{0};
+
+    vy.template AsType<float>()(I0) =
+        atomicAdd(c_style_pointer_cast<float*>(p_dst), vx.template AsType<float>()[I0]);
+    vy.template AsType<float>()(I1) =
+        atomicAdd(c_style_pointer_cast<float*>(p_dst) + 1, vx.template AsType<float>()[I1]);
+
+    return vy.template AsType<float2_t>()[I0];
+}
+
+} // namespace ck