merge

1e5e2dc3 · muozturk · 571e8728 · 81eece66 · 1e5e2dc3 · 1e5e2dc3
Commit 1e5e2dc3 authored Dec 15, 2023 by muozturk
8 changed files
--- a/example/64_complex_contraction_bilinear/run_complex_contraction_bilinear_example.inc
+++ b/example/64_complex_contraction_bilinear/run_complex_contraction_bilinear_example.inc
@@ -154,17 +154,20 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])
    DeviceMem a_device_buf_re(sizeof(ADataType) * a_ms_ks_re.mDesc.GetElementSpaceSize());
    DeviceMem b_device_buf_re(sizeof(BDataType) * b_ns_ks_re.mDesc.GetElementSpaceSize());
    DeviceMem d_device_buf_re(sizeof(DDataType) * d_ms_ns_re.mDesc.GetElementSpaceSize());
-    DeviceMem e_device_buf_re(sizeof(EDataType) * e_ms_ns_device_result_re.mDesc.GetElementSpaceSize());
+    DeviceMem e_device_buf_re(sizeof(EDataType) *
+                              e_ms_ns_device_result_re.mDesc.GetElementSpaceSize());

    DeviceMem a_device_buf_img(sizeof(ADataType) * a_ms_ks_img.mDesc.GetElementSpaceSize());
    DeviceMem b_device_buf_img(sizeof(BDataType) * b_ns_ks_img.mDesc.GetElementSpaceSize());
    DeviceMem d_device_buf_img(sizeof(DDataType) * d_ms_ns_img.mDesc.GetElementSpaceSize());
-    DeviceMem e_device_buf_img(sizeof(EDataType) * e_ms_ns_device_result_img.mDesc.GetElementSpaceSize());
+    DeviceMem e_device_buf_img(sizeof(EDataType) *
+                               e_ms_ns_device_result_img.mDesc.GetElementSpaceSize());

    // Intermediate Value For E Real and Img
-    DeviceMem e_device_buf_re1(sizeof(EDataType) * e_ms_ns_device_result_re.mDesc.GetElementSpaceSize());
-    DeviceMem e_device_buf_img1(sizeof(EDataType) * e_ms_ns_device_result_img.mDesc.GetElementSpaceSize());
-
+    DeviceMem e_device_buf_re1(sizeof(EDataType) *
+                               e_ms_ns_device_result_re.mDesc.GetElementSpaceSize());
+    DeviceMem e_device_buf_img1(sizeof(EDataType) *
+                                e_ms_ns_device_result_img.mDesc.GetElementSpaceSize());

    a_device_buf_re.ToDevice(a_ms_ks_re.mData.data());
    b_device_buf_re.ToDevice(b_ns_ks_re.mData.data());
@@ -191,7 +194,8 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])

    auto op      = DeviceOpInstance{};
    auto invoker = op.MakeInvoker();
-    auto argument_re1 = op.MakeArgument(a_device_buf_re.GetDeviceBuffer(),
+    auto argument_re1 =
+        op.MakeArgument(a_device_buf_re.GetDeviceBuffer(),
                        b_device_buf_re.GetDeviceBuffer(),
                        std::array<const void*, 1>{d_device_buf_re.GetDeviceBuffer()},
                        e_device_buf_re1.GetDeviceBuffer(),
@@ -216,7 +220,6 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])

    float ave_time_re1 = invoker.Run(argument_re1, StreamConfig{nullptr, time_kernel});

-
    alpha = -1.f;
    beta  = 1.f;

@@ -228,7 +231,8 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])
    // For real Intermediate Value re_2
    // auto op       = DeviceOpInstance{};
    // auto invoker  = op.MakeInvoker();
-    auto argument_re2 = op.MakeArgument(a_device_buf_img.GetDeviceBuffer(),
+    auto argument_re2 =
+        op.MakeArgument(a_device_buf_img.GetDeviceBuffer(),
                        b_device_buf_img.GetDeviceBuffer(),
                        std::array<const void*, 1>{e_device_buf_re1.GetDeviceBuffer()},
                        e_device_buf_re.GetDeviceBuffer(),
@@ -253,7 +257,6 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])

    float ave_time_re2 = invoker.Run(argument_re2, StreamConfig{nullptr, time_kernel});

-    
    alpha = 1.f;
    beta  = 1.f;

@@ -261,7 +264,8 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])
    b_element_op   = BElementOp{};
    cde_element_op = CDEElementOp{alpha, beta};

-    auto argument_img1 = op.MakeArgument(a_device_buf_re.GetDeviceBuffer(),
+    auto argument_img1 =
+        op.MakeArgument(a_device_buf_re.GetDeviceBuffer(),
                        b_device_buf_img.GetDeviceBuffer(),
                        std::array<const void*, 1>{d_device_buf_img.GetDeviceBuffer()},
                        e_device_buf_img1.GetDeviceBuffer(),
@@ -277,7 +281,6 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])
                        b_element_op,
                        cde_element_op);

-
    if(!op.IsSupportedArgument(argument_img1))
    {
        std::cout << op.GetTypeString() << " does not support this problem" << std::endl;
@@ -290,7 +293,8 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])
    alpha = 1.f;
    beta  = 1.f;

-    auto argument_img2 = op.MakeArgument(a_device_buf_img.GetDeviceBuffer(),
+    auto argument_img2 =
+        op.MakeArgument(a_device_buf_img.GetDeviceBuffer(),
                        b_device_buf_re.GetDeviceBuffer(),
                        std::array<const void*, 1>{e_device_buf_img1.GetDeviceBuffer()},
                        e_device_buf_img.GetDeviceBuffer(),
@@ -306,8 +310,6 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])
                        b_element_op,
                        cde_element_op);

-
-
    if(!op.IsSupportedArgument(argument_img2))
    {
        std::cout << op.GetTypeString() << " does not support this problem" << std::endl;
@@ -317,7 +319,6 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])

    float ave_time_img2 = invoker.Run(argument_img2, StreamConfig{nullptr, time_kernel});

-
    ck::index_t M =
        ck::accumulate_n<ck::index_t>(e_ms_ns_lengths.begin(), NumDimM, 1, std::multiplies<>{});

@@ -331,7 +332,7 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])
    std::size_t num_btype = sizeof(ADataType) * M * K + sizeof(BDataType) * K * N +
                            sizeof(DDataType) * M * N + sizeof(EDataType) * M * N * 2;

-    float ave_time = ave_time_img2 + ave_time_img1 + ave_time_re2 + ave_time_re1 ; 
+    float ave_time = ave_time_img2 + ave_time_img1 + ave_time_re2 + ave_time_re1;

    float tflops     = static_cast<float>(flop) / 1.E9 / ave_time;
    float gb_per_sec = num_btype / 1.E6 / ave_time;
@@ -366,8 +367,8 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])
        auto ref_op      = ReferenceOpInstance{};
        auto ref_invoker = ref_op.MakeInvoker();

-        auto ref_argument_re =
-            ref_op.MakeArgument(a_ms_ks_re, b_ns_ks_re, c_ms_ns_host_result_re, a_element_op, b_element_op);
+        auto ref_argument_re = ref_op.MakeArgument(
+            a_ms_ks_re, b_ns_ks_re, c_ms_ns_host_result_re, a_element_op, b_element_op);

        ref_invoker.Run(ref_argument_re);

@@ -376,7 +377,6 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])

        cde_element_op = CDEElementOp{alpha, beta};

-       
        for(size_t m0 = 0; m0 < e_ms_ns_host_result_re.mDesc.GetLengths()[0]; ++m0)
        {
            for(size_t m1 = 0; m1 < e_ms_ns_host_result_re.mDesc.GetLengths()[1]; ++m1)
@@ -398,8 +398,8 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])

        cde_element_op = CDEElementOp{alpha, beta};

-        auto ref_argument_re1 =
-            ref_op.MakeArgument(a_ms_ks_img, b_ns_ks_img, c_ms_ns_host_result_re1, a_element_op, b_element_op);
+        auto ref_argument_re1 = ref_op.MakeArgument(
+            a_ms_ks_img, b_ns_ks_img, c_ms_ns_host_result_re1, a_element_op, b_element_op);

        ref_invoker.Run(ref_argument_re1);

@@ -421,15 +421,12 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])

        isRealOk = ck::utils::check_err(e_ms_ns_device_result_re, e_ms_ns_host_result_re) ? 0 : 1;

-        
-
-
        // Img Part Verification
        Tensor<CShuffleDataType> c_ms_ns_host_result_img(e_ms_ns_lengths, e_ms_ns_strides);
        Tensor<CShuffleDataType> c_ms_ns_host_result_img1(e_ms_ns_lengths, e_ms_ns_strides);

-        auto ref_argument_img =
-            ref_op.MakeArgument(a_ms_ks_re, b_ns_ks_img, c_ms_ns_host_result_img, a_element_op, b_element_op);
+        auto ref_argument_img = ref_op.MakeArgument(
+            a_ms_ks_re, b_ns_ks_img, c_ms_ns_host_result_img, a_element_op, b_element_op);

        ref_invoker.Run(ref_argument_img);

@@ -454,8 +451,8 @@ int run_complex_contraction_bilinear_example(int argc, char* argv[])
            }
        }

-        auto ref_argument_img1 =
-            ref_op.MakeArgument(a_ms_ks_img, b_ns_ks_re, c_ms_ns_host_result_img1, a_element_op, b_element_op);
+        auto ref_argument_img1 = ref_op.MakeArgument(
+            a_ms_ks_img, b_ns_ks_re, c_ms_ns_host_result_img1, a_element_op, b_element_op);

        ref_invoker.Run(ref_argument_img1);


--- a/example/65_complex_contraction_scale/complex_contraction_scale_xdl_fp32.cpp
+++ b/example/65_complex_contraction_scale/complex_contraction_scale_xdl_fp32.cpp
--- a/example/65_complex_contraction_scale/complex_contraction_scale_xdl_fp64.cpp
+++ b/example/65_complex_contraction_scale/complex_contraction_scale_xdl_fp64.cpp
--- a/example/65_complex_contraction_scale/run_complex_contraction_scale_example.inc
+++ b/example/65_complex_contraction_scale/run_complex_contraction_scale_example.inc
@@ -107,7 +107,6 @@ int run_complex_contraction_scale_example(int argc, char* argv[])
    Tensor<ADataType> a_ms_ks_img(a_ms_ks_lengths, a_ms_ks_strides);
    Tensor<BDataType> b_ns_ks_img(b_ns_ks_lengths, b_ns_ks_strides);

-
    Tensor<EDataType> e_ms_ns_host_result_img(e_ms_ns_lengths, e_ms_ns_strides);
    Tensor<EDataType> e_ms_ns_device_result_img(e_ms_ns_lengths, e_ms_ns_strides);

@@ -145,32 +144,38 @@ int run_complex_contraction_scale_example(int argc, char* argv[])
        a_ms_ks_img.GenerateTensorValue(GeneratorTensor_3<ADataType>{0.0, 1.0});
        b_ns_ks_img.GenerateTensorValue(GeneratorTensor_3<BDataType>{-0.5, 0.5});

-
        break;
    }

    DeviceMem a_device_buf_re(sizeof(ADataType) * a_ms_ks_re.mDesc.GetElementSpaceSize());
    DeviceMem b_device_buf_re(sizeof(BDataType) * b_ns_ks_re.mDesc.GetElementSpaceSize());

-    DeviceMem e_device_buf_re(sizeof(EDataType) * e_ms_ns_device_result_re.mDesc.GetElementSpaceSize());
+    DeviceMem e_device_buf_re(sizeof(EDataType) *
+                              e_ms_ns_device_result_re.mDesc.GetElementSpaceSize());

    DeviceMem a_device_buf_img(sizeof(ADataType) * a_ms_ks_img.mDesc.GetElementSpaceSize());
    DeviceMem b_device_buf_img(sizeof(BDataType) * b_ns_ks_img.mDesc.GetElementSpaceSize());

-    DeviceMem e_device_buf_img(sizeof(EDataType) * e_ms_ns_device_result_img.mDesc.GetElementSpaceSize());
-
+<<<<<<< HEAD
    // Intermediate Value For E Real and Img
    DeviceMem e_device_buf_re1(sizeof(EDataType) * e_ms_ns_device_result_re.mDesc.GetElementSpaceSize());
    DeviceMem e_device_buf_img1(sizeof(EDataType) * e_ms_ns_device_result_img.mDesc.GetElementSpaceSize());
+=======
+    DeviceMem e_device_buf_img(sizeof(EDataType) *
+                               e_ms_ns_device_result_img.mDesc.GetElementSpaceSize());
+
+    // // Intermediate Value For E Real and Img
+    // DeviceMem e_device_buf_re1(sizeof(EDataType) *
+    // e_ms_ns_device_result_re.mDesc.GetElementSpaceSize()); DeviceMem
+    // e_device_buf_img1(sizeof(EDataType) * e_ms_ns_device_result_img.mDesc.GetElementSpaceSize());
+>>>>>>> 81eece66cb698622dafbc0f2c726ba743eb345fe

    a_device_buf_re.ToDevice(a_ms_ks_re.mData.data());
    b_device_buf_re.ToDevice(b_ns_ks_re.mData.data());

-
    a_device_buf_img.ToDevice(a_ms_ks_img.mData.data());
    b_device_buf_img.ToDevice(b_ns_ks_img.mData.data());

-
    // set zero
    e_device_buf_re.SetZero();
    e_device_buf_img.SetZero();
@@ -178,13 +183,23 @@ int run_complex_contraction_scale_example(int argc, char* argv[])
    e_device_buf_img1.SetZero();


+<<<<<<< HEAD
    auto a_element_op   = AElementOp{};
    auto b_element_op   = BElementOp{};
+=======
+    // // set zero for intermediate values
+    // e_device_buf_re1.SetZero();
+    // e_device_buf_img1.SetZero();
+
+    auto a_element_op         = AElementOp{};
+    auto b_element_op         = BElementOp{};
+>>>>>>> 81eece66cb698622dafbc0f2c726ba743eb345fe
    auto cde_element_op_scale = CDEElementOp_Scale{scale};

    // device operation
    // E1_real = A_real * B_real

+<<<<<<< HEAD
    auto op_scale       = DeviceOpInstance_Scale{};
    auto invoker_scale  = op_scale.MakeInvoker();
    auto argument_re1 = op_scale.MakeArgument(a_device_buf_re.GetDeviceBuffer(),
@@ -202,6 +217,27 @@ int run_complex_contraction_scale_example(int argc, char* argv[])
                                    a_element_op,
                                    b_element_op,
                                    cde_element_op_scale);
+=======
+    auto op      = DeviceOpInstance{};
+    auto invoker = op.MakeInvoker();
+    auto argument_re1 =
+        op.MakeArgument(a_device_buf_re.GetDeviceBuffer(),
+                        b_device_buf_re.GetDeviceBuffer(),
+                        // std::array<const void*, 1>{d_device_buf_re.GetDeviceBuffer()},
+                        std::array<const void*, 0>{},
+                        e_device_buf_re.GetDeviceBuffer(),
+                        a_ms_ks_lengths,
+                        a_ms_ks_strides,
+                        b_ns_ks_lengths,
+                        b_ns_ks_strides,
+                        std::array<std::vector<ck::index_t>, 0>{},
+                        std::array<std::vector<ck::index_t>, 0>{},
+                        e_ms_ns_lengths,
+                        e_ms_ns_strides,
+                        a_element_op,
+                        b_element_op,
+                        cde_element_op_scale);
+>>>>>>> 81eece66cb698622dafbc0f2c726ba743eb345fe

    if(!op_scale.IsSupportedArgument(argument_re1))
    {
@@ -212,10 +248,10 @@ int run_complex_contraction_scale_example(int argc, char* argv[])

    float ave_time_re1 = invoker_scale.Run(argument_re1, StreamConfig{nullptr, time_kernel});

-
    alpha = -1.f * scale;
    beta  = 1.f;

+<<<<<<< HEAD

    auto cde_element_op = CDEElementOp{alpha, beta};

@@ -241,6 +277,31 @@ int run_complex_contraction_scale_example(int argc, char* argv[])
                                    a_element_op,
                                    b_element_op,
                                    cde_element_op);
+=======
+    a_element_op        = AElementOp{};
+    b_element_op        = BElementOp{};
+    auto cde_element_op = CDEElementOp{alpha, beta};
+
+    // device operation
+    // For real Intermediate Value re_2
+
+    auto argument_re2 =
+        op.MakeArgument(a_device_buf_img.GetDeviceBuffer(),
+                        b_device_buf_img.GetDeviceBuffer(),
+                        std::array<const void*, 1>{e_device_buf_re.GetDeviceBuffer()},
+                        e_device_buf_re.GetDeviceBuffer(),
+                        a_ms_ks_lengths,
+                        a_ms_ks_strides,
+                        b_ns_ks_lengths,
+                        b_ns_ks_strides,
+                        std::array<std::vector<ck::index_t>, 1>{d_ms_ns_lengths},
+                        std::array<std::vector<ck::index_t>, 1>{d_ms_ns_strides},
+                        e_ms_ns_lengths,
+                        e_ms_ns_strides,
+                        a_element_op,
+                        b_element_op,
+                        cde_element_op);
+>>>>>>> 81eece66cb698622dafbc0f2c726ba743eb345fe

    if(!op.IsSupportedArgument(argument_re2))
    {
@@ -251,10 +312,23 @@ int run_complex_contraction_scale_example(int argc, char* argv[])

    float ave_time_re2 = invoker.Run(argument_re2, StreamConfig{nullptr, time_kernel});

+<<<<<<< HEAD
    
    auto argument_img1 = op_scale.MakeArgument(a_device_buf_re.GetDeviceBuffer(),
                                b_device_buf_img.GetDeviceBuffer(),
                                std::array<const void*, 0>{},
+=======
+    // scale = 1.f ;
+
+    // a_element_op   = AElementOp{};
+    // b_element_op   = BElementOp{};
+    // cde_element_op = CDEElementOp{alpha, beta};
+
+    auto argument_img1 = op.MakeArgument(a_device_buf_re.GetDeviceBuffer(),
+                                b_device_buf_img.GetDeviceBuffer(),
+                                std::array<const void*, 0>{}
+},
+>>>>>>> 81eece66cb698622dafbc0f2c726ba743eb345fe
                                e_device_buf_img.GetDeviceBuffer(),
                                a_ms_ks_lengths,
                                a_ms_ks_strides,
@@ -268,22 +342,25 @@ int run_complex_contraction_scale_example(int argc, char* argv[])
                                b_element_op,
                                cde_element_op_scale);

+if(!op.IsSupportedArgument(argument_img1))
+{
+    std::cout << op.GetTypeString() << " does not support this problem" << std::endl;

+<<<<<<< HEAD
    if(!op_scale.IsSupportedArgument(argument_img1))
    {
        std::cout << op_scale.GetTypeString() << " does not support this problem" << std::endl;
-
+=======
    return 0;
-    }
-
-    float ave_time_img1 = invoker_scale.Run(argument_img1, StreamConfig{nullptr, time_kernel});
-
-    alpha = 1.f * scale;
-    beta  = 1.f;
+}
+>>>>>>> 81eece66cb698622dafbc0f2c726ba743eb345fe

+float ave_time_img1 = invoker.Run(argument_img1, StreamConfig{nullptr, time_kernel});

+alpha = 1.f * scale;
+beta  = 1.f;

-    auto argument_img2 = op.MakeArgument(a_device_buf_img.GetDeviceBuffer(),
+auto argument_img2 = op.MakeArgument(a_device_buf_img.GetDeviceBuffer(),
                                     b_device_buf_re.GetDeviceBuffer(),
                                     std::array<const void*, 1>{e_device_buf_img.GetDeviceBuffer()},
                                     e_device_buf_img.GetDeviceBuffer(),
@@ -299,50 +376,76 @@ int run_complex_contraction_scale_example(int argc, char* argv[])
                                     b_element_op,
                                     cde_element_op);

-
-
-    if(!op.IsSupportedArgument(argument_img2))
-    {
+if(!op.IsSupportedArgument(argument_img2))
+{
    std::cout << op.GetTypeString() << " does not support this problem" << std::endl;

+<<<<<<< HEAD
+    float ave_time_img1 = invoker_scale.Run(argument_img1, StreamConfig{nullptr, time_kernel});
+=======
    return 0;
-    }
+}
+>>>>>>> 81eece66cb698622dafbc0f2c726ba743eb345fe
+
+float ave_time_img2 = invoker.Run(argument_img2, StreamConfig{nullptr, time_kernel});

-    float ave_time_img2 = invoker.Run(argument_img2, StreamConfig{nullptr, time_kernel});
+<<<<<<< HEAD
    

-    ck::index_t M =
+    auto argument_img2 = op.MakeArgument(a_device_buf_img.GetDeviceBuffer(),
+                                b_device_buf_re.GetDeviceBuffer(),
+                                std::array<const void*, 1>{e_device_buf_img.GetDeviceBuffer()},
+                                e_device_buf_img.GetDeviceBuffer(),
+                                a_ms_ks_lengths,
+                                a_ms_ks_strides,
+                                b_ns_ks_lengths,
+                                b_ns_ks_strides,
+                                std::array<std::vector<ck::index_t>, 1>{d_ms_ns_lengths},
+                                std::array<std::vector<ck::index_t>, 1>{d_ms_ns_strides},
+                                e_ms_ns_lengths,
+                                e_ms_ns_strides,
+                                a_element_op,
+                                b_element_op,
+                                cde_element_op);
+=======
+ck::index_t M =
    ck::accumulate_n<ck::index_t>(e_ms_ns_lengths.begin(), NumDimM, 1, std::multiplies<>{});
+>>>>>>> 81eece66cb698622dafbc0f2c726ba743eb345fe

-    ck::index_t N = ck::accumulate_n<ck::index_t>(
+ck::index_t N = ck::accumulate_n<ck::index_t>(
    e_ms_ns_lengths.begin() + NumDimM, NumDimN, 1, std::multiplies<>{});

-    ck::index_t K = ck::accumulate_n<ck::index_t>(
+ck::index_t K = ck::accumulate_n<ck::index_t>(
    a_ms_ks_lengths.begin() + NumDimM, NumDimK, 1, std::multiplies<>{});

-    std::size_t flop      = std::size_t(2) * M * N * K * 2;
-    std::size_t num_btype = (sizeof(ADataType) * M * K + sizeof(BDataType) * K * N  + sizeof(EDataType) * M * N) * 2;
+std::size_t flop      = std::size_t(2) * M * N * K * 2;
+std::size_t num_btype = sizeof(ADataType) * M * K + sizeof(BDataType) * K * N +
+                        sizeof(DDataType) * M * N + sizeof(EDataType) * M * N * 2;

-    float ave_time = ave_time_img2 + ave_time_img1 + ave_time_re2 + ave_time_re1 ; 
+float ave_time = ave_time_img2 + ave_time_img1 + ave_time_re2 + ave_time_re1;

-    float tflops = static_cast<float>(flop) / 1.E9 / ave_time;
-    float gb_per_sec = num_btype / 1.E6 / ave_time;
+float tflops     = static_cast<float>(flop) / 1.E9 / ave_time;
+float gb_per_sec = num_btype / 1.E6 / ave_time;

-    std::cout << "Perf: " << ave_time << " ms, " << tflops << " TFlops, " << gb_per_sec << " GB/s, "
+std::cout << "Perf: " << ave_time << " ms, " << tflops << " TFlops, " << gb_per_sec << " GB/s, "
          << op.GetTypeString() << std::endl;

-    e_device_buf_re.FromDevice(e_ms_ns_device_result_re.mData.data());
-    e_device_buf_img.FromDevice(e_ms_ns_device_result_img.mData.data());
+e_device_buf_re.FromDevice(e_ms_ns_device_result_re.mData.data());
+e_device_buf_img.FromDevice(e_ms_ns_device_result_img.mData.data());

-    auto isRealOk = 0;
-    auto isImgOk = 0;
+auto isRealOk = 0;
+auto isImgOk  = 0;

-    if(do_verification)
-    {
+if(do_verification)
+{
    // Real Part Verification
    Tensor<CShuffleDataType> c_ms_ns_host_result_re(e_ms_ns_lengths, e_ms_ns_strides);
    Tensor<CShuffleDataType> c_ms_ns_host_result_re1(e_ms_ns_lengths, e_ms_ns_strides);

+<<<<<<< HEAD
+    std::size_t flop      = std::size_t(2) * M * N * K * 2;
+    std::size_t num_btype = (sizeof(ADataType) * M * K + sizeof(BDataType) * K * N  + sizeof(EDataType) * M * N) * 2;
+=======
    using ReferenceOpInstance =
        ck::tensor_operation::host::ReferenceContraction_M2_N2_K2<NumDimM,
                                                                  NumDimN,
@@ -354,11 +457,13 @@ int run_complex_contraction_scale_example(int argc, char* argv[])
                                                                  F32,
                                                                  AElementOp,
                                                                  BElementOp>;
+>>>>>>> 81eece66cb698622dafbc0f2c726ba743eb345fe

    auto ref_op      = ReferenceOpInstance{};
    auto ref_invoker = ref_op.MakeInvoker();

-        auto ref_argument_re = ref_op.MakeArgument(a_ms_ks_re, b_ns_ks_re, c_ms_ns_host_result_re, a_element_op, b_element_op);
+    auto ref_argument_re = ref_op.MakeArgument(
+        a_ms_ks_re, b_ns_ks_re, c_ms_ns_host_result_re, a_element_op, b_element_op);

    ref_invoker.Run(ref_argument_re);

@@ -367,7 +472,6 @@ int run_complex_contraction_scale_example(int argc, char* argv[])

    // cde_element_op = CDEElementOp{alpha, beta};

-       
    for(size_t m0 = 0; m0 < e_ms_ns_host_result_re.mDesc.GetLengths()[0]; ++m0)
    {
        for(size_t m1 = 0; m1 < e_ms_ns_host_result_re.mDesc.GetLengths()[1]; ++m1)
@@ -388,8 +492,8 @@ int run_complex_contraction_scale_example(int argc, char* argv[])

    cde_element_op = CDEElementOp{alpha, beta};

-        auto ref_argument_re1 =
-            ref_op.MakeArgument(a_ms_ks_img, b_ns_ks_img, c_ms_ns_host_result_re1, a_element_op, b_element_op);
+    auto ref_argument_re1 = ref_op.MakeArgument(
+        a_ms_ks_img, b_ns_ks_img, c_ms_ns_host_result_re1, a_element_op, b_element_op);

    ref_invoker.Run(ref_argument_re1);

@@ -411,15 +515,12 @@ int run_complex_contraction_scale_example(int argc, char* argv[])

    isRealOk = ck::utils::check_err(e_ms_ns_device_result_re, e_ms_ns_host_result_re) ? 0 : 1;

-        
-
-
    // Img Part Verification
    Tensor<CShuffleDataType> c_ms_ns_host_result_img(e_ms_ns_lengths, e_ms_ns_strides);
    Tensor<CShuffleDataType> c_ms_ns_host_result_img1(e_ms_ns_lengths, e_ms_ns_strides);

-        auto ref_argument_img =
-            ref_op.MakeArgument(a_ms_ks_re, b_ns_ks_img, c_ms_ns_host_result_img, a_element_op, b_element_op);
+    auto ref_argument_img = ref_op.MakeArgument(
+        a_ms_ks_re, b_ns_ks_img, c_ms_ns_host_result_img, a_element_op, b_element_op);

    ref_invoker.Run(ref_argument_img);

@@ -446,13 +547,11 @@ int run_complex_contraction_scale_example(int argc, char* argv[])
    alpha = 1.f * scale;
    beta  = -1.f;

-        auto ref_argument_img1 =
-            ref_op.MakeArgument(a_ms_ks_img, b_ns_ks_re, c_ms_ns_host_result_img1, a_element_op, b_element_op);
+    auto ref_argument_img1 = ref_op.MakeArgument(
+        a_ms_ks_img, b_ns_ks_re, c_ms_ns_host_result_img1, a_element_op, b_element_op);

    ref_invoker.Run(ref_argument_img1);

-
-
    for(size_t m0 = 0; m0 < e_ms_ns_host_result_img.mDesc.GetLengths()[0]; ++m0)
    {
        for(size_t m1 = 0; m1 < e_ms_ns_host_result_img.mDesc.GetLengths()[1]; ++m1)
@@ -472,7 +571,7 @@ int run_complex_contraction_scale_example(int argc, char* argv[])
    isImgOk = ck::utils::check_err(e_ms_ns_device_result_re, e_ms_ns_host_result_re) ? 0 : 1;

    return (isRealOk && isImgOk);
-    }
+}

-    return 0;
+return 0;
 }
--- a/script/clang-format-overwrite.sh
+++ b/script/clang-format-overwrite.sh
-#find . -name deps -prune -o -name build -prune -o -iname '*.h' -o -iname '*.hpp' -o -iname '*.cpp' -o -iname '*.h.in' -o -iname '*.hpp.in' -o -iname '*.cpp.in' -o -iname '*.cl' -o -iname '*.cuh' -o -iname '*.cu' -o -iname '*.inc' | xargs -n 1 -P 16 -I{} -t sh -c 'clang-format-12 -i -style=file {}'
+find . -name deps -prune -o -name build -prune -o -iname '*.h' -o -iname '*.hpp' -o -iname '*.cpp' -o -iname '*.h.in' -o -iname '*.hpp.in' -o -iname '*.cpp.in' -o -iname '*.cl' -o -iname '*.cuh' -o -iname '*.cu' -o -iname '*.inc' | xargs -n 1 -P 16 -I{} -t sh -c 'clang-format-12 -i -style=file {}'
 git status --porcelain | awk '$1 != "D" && (match($2, "\\.cpp|hpp|inc")) {print $2}' | xargs -n 1 -P 16 -I{} -t sh -c 'clang-format-12 -i -style=file {}'
--- a/test/complex_contraction_bilinear/test_complex_contraction_bilinear.cpp
+++ b/test/complex_contraction_bilinear/test_complex_contraction_bilinear.cpp
@@ -12,8 +12,6 @@
 #include "profiler/profile_contraction_impl.hpp"
 #include "profiler/profile_contraction_utils.hpp"

-
-
 using F32 = float;
 using F64 = double;

@@ -93,7 +91,6 @@ class TestContraction : public ::testing::Test
    }
 };

-
 template <typename Tuple>
 class TestContractionBilinear : public TestContraction<Tuple>
 {
@@ -109,10 +106,8 @@ using BilinearKernelTypes =
    ::testing::Types<ALL_LAYOUT_COMBINATIONS(F32, ck::Tuple<F32>, F32, Bilinear),
                     ALL_LAYOUT_COMBINATIONS(F64, ck::Tuple<F64>, F64, Bilinear)>;

-
 TYPED_TEST_SUITE(TestContractionBilinear, BilinearKernelTypes);

-
 TYPED_TEST(TestContractionBilinear, bilinear)
 {
    this->p_cd_element_op = std::make_unique<Bilinear>(1.f, 1.f);
@@ -120,5 +115,3 @@ TYPED_TEST(TestContractionBilinear, bilinear)
    this->p_cd_element_op = std::make_unique<Bilinear>(-0.5f, 0.5f);
    this->Run();
 }
-
-
--- a/test/complex_contraction_scale/test_complex_contraction_scale.cpp
+++ b/test/complex_contraction_scale/test_complex_contraction_scale.cpp
@@ -18,7 +18,6 @@ using F64  = double;
 using Row = ck::tensor_layout::gemm::RowMajor;
 using Col = ck::tensor_layout::gemm::ColumnMajor;

-
 using Scale = ck::tensor_operation::element_wise::Scale;

 struct Dimensions
@@ -96,24 +95,17 @@ class TestContractionScale : public TestContraction<Tuple>
 {
 };

-
-
 #define ALL_LAYOUT_COMBINATIONS(dt, tuple_dt, compute_dt, op)    \
    std::tuple<Row, Row, Row, dt, tuple_dt, compute_dt, op>,     \
        std::tuple<Row, Col, Row, dt, tuple_dt, compute_dt, op>, \
        std::tuple<Col, Row, Row, dt, tuple_dt, compute_dt, op>, \
        std::tuple<Col, Col, Row, dt, tuple_dt, compute_dt, op>

-
-
 using ScaleKernelTypes = ::testing::Types<ALL_LAYOUT_COMBINATIONS(F32, ck::Tuple<>, F32, Scale),
                                          ALL_LAYOUT_COMBINATIONS(F64, ck::Tuple<>, F64, Scale)>;

-
 TYPED_TEST_SUITE(TestContractionScale, ScaleKernelTypes);

-
-
 TYPED_TEST(TestContractionScale, scale)
 {
    this->p_cd_element_op = std::make_unique<Scale>(1.f);
@@ -121,7 +113,3 @@ TYPED_TEST(TestContractionScale, scale)
    this->p_cd_element_op = std::make_unique<Scale>(0.5f);
    this->Run();
 }
-
-
-
-
--- a/test/complex_contraction_scale/test_complex_contraction_scale_interface.cpp
+++ b/test/complex_contraction_scale/test_complex_contraction_scale_interface.cpp
@@ -18,7 +18,6 @@
 using Pass  = ck::tensor_operation::element_wise::PassThrough;
 using Scale = ck::tensor_operation::element_wise::Scale;

-
 template <ck::index_t... Is>
 using S = ck::Sequence<Is...>;

@@ -101,7 +100,8 @@ class ContractionDeviceOpWrapper
    {

        bool supported     = false;
-        const auto op_ptrs = ck::tensor_operation::device::instance::DeviceOperationInstanceFactory<DeviceOp>::GetInstances();
+        const auto op_ptrs = ck::tensor_operation::device::instance::DeviceOperationInstanceFactory<
+            DeviceOp>::GetInstances();

        for(auto& op_ptr : op_ptrs)
        {