Add host API (#220)

* Add host API * manually rebase on develop * clean * manually rebase on develop * exclude tests from all target * address review comments * update client app name * fix missing lib name * clang-format update * refactor * refactor * refactor * refactor * refactor * fix test issue * refactor * refactor * refactor * upate cmake and readme Co-authored-by: Chao Liu <chao.liu2@amd.com>

Add host API (#220)
* Add host API * manually rebase on develop * clean * manually rebase on develop * exclude tests from all target * address review comments * update client app name * fix missing lib name * clang-format update * refactor * refactor * refactor * refactor * refactor * fix test issue * refactor * refactor * refactor * upate cmake and readme Co-authored-by: Chao Liu <chao.liu2@amd.com>
cec69bc3 · JD · GitHub · 0f912e20 · cec69bc3 · cec69bc3
Unverified Commit cec69bc3 authored May 12, 2022 by JD Committed by GitHub May 12, 2022
20 changed files
--- a/include/ck/tensor_operation/gpu/device/device_convnd_bwd_data_xdl_ndhwc_kzyxc_ndhwk.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_convnd_bwd_data_xdl_ndhwc_kzyxc_ndhwk.hpp
@@ -1241,7 +1241,7 @@ struct DeviceConvndBwdDataXdl_Input_N_Di_Hi_Wi_C_Weight_K_Z_Y_X_C_Output_N_Do_Ho
    {
        using Argument = DeviceOp::Argument;
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
            float ave_time = 0;
            for(size_t i = 0; i < arg.a_grid_desc_k0_m_k1_container_.size(); i++)
@@ -1316,8 +1316,8 @@ struct DeviceConvndBwdDataXdl_Input_N_Di_Hi_Wi_C_Weight_K_Z_Y_X_C_Output_N_Do_Ho
                        true>;
                    ave_time += launch_and_time_kernel(
+                        stream_config,
                        kernel,
-                        nrepeat,
                        dim3(grid_size),
                        dim3(BlockSize),
                        0,
@@ -1349,8 +1349,8 @@ struct DeviceConvndBwdDataXdl_Input_N_Di_Hi_Wi_C_Weight_K_Z_Y_X_C_Output_N_Do_Ho
                        false>;
                    ave_time += launch_and_time_kernel(
+                        stream_config,
                        kernel,
-                        nrepeat,
                        dim3(grid_size),
                        dim3(BlockSize),
                        0,
@@ -1369,9 +1369,10 @@ struct DeviceConvndBwdDataXdl_Input_N_Di_Hi_Wi_C_Weight_K_Z_Y_X_C_Output_N_Do_Ho
            return ave_time;
        }
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
        }
    };

--- a/include/ck/tensor_operation/gpu/device/device_convnd_fwd_xdl_nhwc_kyxc_nhwk.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_convnd_fwd_xdl_nhwc_kyxc_nhwk.hpp
@@ -747,7 +747,7 @@ struct DeviceConvNDFwdXdl_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_N_Ho_Wo_K
    {
        using Argument = DeviceOp::Argument;
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
 #if 0
            {
@@ -795,8 +795,8 @@ struct DeviceConvNDFwdXdl_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_N_Ho_Wo_K
                    remove_reference_t<typename GridwiseGemm::DefaultBlock2CTileMap>,
                    true>;
-                ave_time = launch_and_time_kernel(kernel,
+                ave_time = launch_and_time_kernel(stream_config,
-                                                  nrepeat,
+                                                  kernel,
                                                  dim3(grid_size),
                                                  dim3(BlockSize),
                                                  0,
@@ -826,8 +826,8 @@ struct DeviceConvNDFwdXdl_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_N_Ho_Wo_K
                    remove_reference_t<typename GridwiseGemm::DefaultBlock2CTileMap>,
                    false>;
-                ave_time = launch_and_time_kernel(kernel,
+                ave_time = launch_and_time_kernel(stream_config,
-                                                  nrepeat,
+                                                  kernel,
                                                  dim3(grid_size),
                                                  dim3(BlockSize),
                                                  0,
@@ -846,9 +846,10 @@ struct DeviceConvNDFwdXdl_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_N_Ho_Wo_K
            return ave_time;
        }
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
        }
    };

--- a/include/ck/tensor_operation/gpu/device/device_gemm_reduce_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_reduce_xdl_cshuffle.hpp
@@ -503,7 +503,7 @@ struct DeviceGemmReduce_Xdl_CShuffle : public DeviceGemmReduce<AElementwiseOpera
    {
        using Argument = DeviceOp::Argument;
-        float Run(const Argument& arg, int /* nrepeat */ = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
 #if 0
            {
@@ -536,6 +536,7 @@ struct DeviceGemmReduce_Xdl_CShuffle : public DeviceGemmReduce<AElementwiseOpera
            const auto K =
                arg.a_grid_desc_ak0_m_ak1_.GetLength(I0) * arg.a_grid_desc_ak0_m_ak1_.GetLength(I2);
+            float elapsed_time = 0.0f;
            if(GridwiseGemm::CalculateHasMainKBlockLoop(K))
            {
                const auto kernel = kernel_gemm_reduce_xdl_cshuffle_v1<
@@ -554,24 +555,26 @@ struct DeviceGemmReduce_Xdl_CShuffle : public DeviceGemmReduce<AElementwiseOpera
                    typename GridwiseGemm::DefaultBlock2CTileMap,
                    true>;
-                launch_kernel(kernel,
+                elapsed_time =
-                              dim3(grid_size),
+                    launch_and_time_kernel(stream_config,
-                              dim3(BlockSize),
+                                           kernel,
-                              0,
+                                           dim3(grid_size),
-                              arg.p_a_grid_,
+                                           dim3(BlockSize),
-                              arg.p_b_grid_,
+                                           0,
-                              arg.p_c_grid_,
+                                           arg.p_a_grid_,
-                              arg.p_d0_grid_,
+                                           arg.p_b_grid_,
-                              arg.p_d1_grid_,
+                                           arg.p_c_grid_,
-                              arg.a_element_op_,
+                                           arg.p_d0_grid_,
-                              arg.b_element_op_,
+                                           arg.p_d1_grid_,
-                              arg.c_element_op_,
+                                           arg.a_element_op_,
-                              arg.d1_element_op_,
+                                           arg.b_element_op_,
-                              arg.a_grid_desc_ak0_m_ak1_,
+                                           arg.c_element_op_,
-                              arg.b_grid_desc_bk0_n_bk1_,
+                                           arg.d1_element_op_,
-                              arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
+                                           arg.a_grid_desc_ak0_m_ak1_,
-                              arg.d_grid_desc_mblock_mperblock_,
+                                           arg.b_grid_desc_bk0_n_bk1_,
-                              arg.block_2_ctile_map_);
+                                           arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
+                                           arg.d_grid_desc_mblock_mperblock_,
+                                           arg.block_2_ctile_map_);
            }
            else
            {
@@ -591,33 +594,36 @@ struct DeviceGemmReduce_Xdl_CShuffle : public DeviceGemmReduce<AElementwiseOpera
                    typename GridwiseGemm::DefaultBlock2CTileMap,
                    false>;
-                launch_kernel(kernel,
+                elapsed_time =
-                              dim3(grid_size),
+                    launch_and_time_kernel(stream_config,
-                              dim3(BlockSize),
+                                           kernel,
-                              0,
+                                           dim3(grid_size),
-                              arg.p_a_grid_,
+                                           dim3(BlockSize),
-                              arg.p_b_grid_,
+                                           0,
-                              arg.p_c_grid_,
+                                           arg.p_a_grid_,
-                              arg.p_d0_grid_,
+                                           arg.p_b_grid_,
-                              arg.p_d1_grid_,
+                                           arg.p_c_grid_,
-                              arg.a_element_op_,
+                                           arg.p_d0_grid_,
-                              arg.b_element_op_,
+                                           arg.p_d1_grid_,
-                              arg.c_element_op_,
+                                           arg.a_element_op_,
-                              arg.d1_element_op_,
+                                           arg.b_element_op_,
-                              arg.a_grid_desc_ak0_m_ak1_,
+                                           arg.c_element_op_,
-                              arg.b_grid_desc_bk0_n_bk1_,
+                                           arg.d1_element_op_,
-                              arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
+                                           arg.a_grid_desc_ak0_m_ak1_,
-                              arg.d_grid_desc_mblock_mperblock_,
+                                           arg.b_grid_desc_bk0_n_bk1_,
-                              arg.block_2_ctile_map_);
+                                           arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
+                                           arg.d_grid_desc_mblock_mperblock_,
+                                           arg.block_2_ctile_map_);
            }
-            return 0;
+            return elapsed_time;
        }
        // polymorphic
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
        }
    };

--- a/include/ck/tensor_operation/gpu/device/device_gemm_xdl.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_xdl.hpp
@@ -290,7 +290,7 @@ struct DeviceGemmXdl
    {
        using Argument = DeviceGemmXdl::Argument;
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
 #if 0
            {
@@ -339,8 +339,8 @@ struct DeviceGemmXdl
                    remove_reference_t<typename GridwiseGemm::DefaultBlock2CTileMap>,
                    true>;
-                ave_time = launch_and_time_kernel(kernel,
+                ave_time = launch_and_time_kernel(stream_config,
-                                                  nrepeat,
+                                                  kernel,
                                                  dim3(grid_size),
                                                  dim3(BlockSize),
                                                  0,
@@ -370,8 +370,8 @@ struct DeviceGemmXdl
                    remove_reference_t<typename GridwiseGemm::DefaultBlock2CTileMap>,
                    false>;
-                ave_time = launch_and_time_kernel(kernel,
+                ave_time = launch_and_time_kernel(stream_config,
-                                                  nrepeat,
+                                                  kernel,
                                                  dim3(grid_size),
                                                  dim3(BlockSize),
                                                  0,
@@ -391,9 +391,10 @@ struct DeviceGemmXdl
        }
        // polymorphic
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
        }
    };

--- a/include/ck/tensor_operation/gpu/device/device_gemm_xdl_c_shuffle_bias_2d.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_xdl_c_shuffle_bias_2d.hpp
@@ -264,7 +264,7 @@ struct DeviceGemmXdl_C_Shuffle_Bias_2d
    {
        using Argument = DeviceGemmXdl_C_Shuffle_Bias_2d::Argument;
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
            {
                std::cout << "arg.a_grid_desc_k0_m_k1_{" << arg.a_grid_desc_k0_m_k1_.GetLength(I0)
@@ -320,8 +320,8 @@ struct DeviceGemmXdl_C_Shuffle_Bias_2d
                    true>;
                ave_time = launch_and_time_kernel(
+                    stream_config,
                    kernel,
-                    nrepeat,
                    dim3(grid_size),
                    dim3(BlockSize),
                    0,
@@ -359,8 +359,8 @@ struct DeviceGemmXdl_C_Shuffle_Bias_2d
                    false>;
                ave_time = launch_and_time_kernel(
+                    stream_config,
                    kernel,
-                    nrepeat,
                    dim3(grid_size),
                    dim3(BlockSize),
                    0,
@@ -382,9 +382,10 @@ struct DeviceGemmXdl_C_Shuffle_Bias_2d
        }
        // polymorphic
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
        }
    };

--- a/include/ck/tensor_operation/gpu/device/device_gemm_xdl_c_shuffle_bias_activation.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_xdl_c_shuffle_bias_activation.hpp
@@ -273,7 +273,7 @@ struct DeviceGemmXdl_C_Shuffle_Bias_Activation
    {
        using Argument = DeviceOp::Argument;
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
            {
                std::cout << "arg.a_grid_desc_k0_m_k1_{" << arg.a_grid_desc_k0_m_k1_.GetLength(I0)
@@ -329,8 +329,8 @@ struct DeviceGemmXdl_C_Shuffle_Bias_Activation
                    true>;
                ave_time = launch_and_time_kernel(
+                    stream_config,
                    kernel,
-                    nrepeat,
                    dim3(grid_size),
                    dim3(BlockSize),
                    0,
@@ -368,8 +368,8 @@ struct DeviceGemmXdl_C_Shuffle_Bias_Activation
                    false>;
                ave_time = launch_and_time_kernel(
+                    stream_config,
                    kernel,
-                    nrepeat,
                    dim3(grid_size),
                    dim3(BlockSize),
                    0,
@@ -391,9 +391,10 @@ struct DeviceGemmXdl_C_Shuffle_Bias_Activation
        }
        // polymorphic
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
        }
    };

--- a/include/ck/tensor_operation/gpu/device/device_gemm_xdl_c_shuffle_bias_activation_add.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_xdl_c_shuffle_bias_activation_add.hpp
@@ -312,7 +312,7 @@ struct DeviceGemmXdl_C_Shuffle_Bias_Activation_Add
    {
        using Argument = DeviceOp::Argument;
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
            {
                std::cout << "arg.a_grid_desc_k0_m_k1_{" << arg.a_grid_desc_k0_m_k1_.GetLength(I0)
@@ -374,8 +374,8 @@ struct DeviceGemmXdl_C_Shuffle_Bias_Activation_Add
                    true>;
                ave_time = launch_and_time_kernel(
+                    stream_config,
                    kernel,
-                    nrepeat,
                    dim3(grid_size),
                    dim3(BlockSize),
                    0,
@@ -418,8 +418,8 @@ struct DeviceGemmXdl_C_Shuffle_Bias_Activation_Add
                    false>;
                ave_time = launch_and_time_kernel(
+                    stream_config,
                    kernel,
-                    nrepeat,
                    dim3(grid_size),
                    dim3(BlockSize),
                    0,
@@ -443,9 +443,10 @@ struct DeviceGemmXdl_C_Shuffle_Bias_Activation_Add
        }
        // polymorphic
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
        }
    };

--- a/include/ck/tensor_operation/gpu/device/device_gemm_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_xdl_cshuffle.hpp
@@ -440,7 +440,7 @@ struct DeviceGemm_Xdl_CShuffle
    {
        using Argument = DeviceOp::Argument;
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
 #if 0
            {
@@ -487,42 +487,22 @@ struct DeviceGemm_Xdl_CShuffle
                    typename GridwiseGemm::DefaultBlock2CTileMap,
                    true>;
-                if(nrepeat == 0)
+                ave_time =
-                {
+                    launch_and_time_kernel(stream_config,
-                    launch_kernel(kernel,
+                                           kernel,
-                                  dim3(grid_size),
+                                           dim3(grid_size),
-                                  dim3(BlockSize),
+                                           dim3(BlockSize),
-                                  0,
+                                           0,
-                                  arg.p_a_grid_,
+                                           arg.p_a_grid_,
-                                  arg.p_b_grid_,
+                                           arg.p_b_grid_,
-                                  arg.p_c_grid_,
+                                           arg.p_c_grid_,
-                                  arg.a_element_op_,
+                                           arg.a_element_op_,
-                                  arg.b_element_op_,
+                                           arg.b_element_op_,
-                                  arg.c_element_op_,
+                                           arg.c_element_op_,
-                                  arg.a_grid_desc_ak0_m_ak1_,
+                                           arg.a_grid_desc_ak0_m_ak1_,
-                                  arg.b_grid_desc_bk0_n_bk1_,
+                                           arg.b_grid_desc_bk0_n_bk1_,
-                                  arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
+                                           arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
-                                  arg.block_2_ctile_map_);
+                                           arg.block_2_ctile_map_);
-                }
-                else
-                {
-                    ave_time =
-                        launch_and_time_kernel(kernel,
-                                               nrepeat,
-                                               dim3(grid_size),
-                                               dim3(BlockSize),
-                                               0,
-                                               arg.p_a_grid_,
-                                               arg.p_b_grid_,
-                                               arg.p_c_grid_,
-                                               arg.a_element_op_,
-                                               arg.b_element_op_,
-                                               arg.c_element_op_,
-                                               arg.a_grid_desc_ak0_m_ak1_,
-                                               arg.b_grid_desc_bk0_n_bk1_,
-                                               arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
-                                               arg.block_2_ctile_map_);
-                }
            }
            else
            {
@@ -538,52 +518,32 @@ struct DeviceGemm_Xdl_CShuffle
                    typename GridwiseGemm::CGridDescriptor_MBlock_MPerBlock_NBlock_NPerBlock,
                    typename GridwiseGemm::DefaultBlock2CTileMap,
                    false>;
+                ave_time =
-                if(nrepeat == 0)
+                    launch_and_time_kernel(stream_config,
-                {
+                                           kernel,
-                    launch_kernel(kernel,
+                                           dim3(grid_size),
-                                  dim3(grid_size),
+                                           dim3(BlockSize),
-                                  dim3(BlockSize),
+                                           0,
-                                  0,
+                                           arg.p_a_grid_,
-                                  arg.p_a_grid_,
+                                           arg.p_b_grid_,
-                                  arg.p_b_grid_,
+                                           arg.p_c_grid_,
-                                  arg.p_c_grid_,
+                                           arg.a_element_op_,
-                                  arg.a_element_op_,
+                                           arg.b_element_op_,
-                                  arg.b_element_op_,
+                                           arg.c_element_op_,
-                                  arg.c_element_op_,
+                                           arg.a_grid_desc_ak0_m_ak1_,
-                                  arg.a_grid_desc_ak0_m_ak1_,
+                                           arg.b_grid_desc_bk0_n_bk1_,
-                                  arg.b_grid_desc_bk0_n_bk1_,
+                                           arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
-                                  arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
+                                           arg.block_2_ctile_map_);
-                                  arg.block_2_ctile_map_);
-                }
-                else
-                {
-                    ave_time =
-                        launch_and_time_kernel(kernel,
-                                               nrepeat,
-                                               dim3(grid_size),
-                                               dim3(BlockSize),
-                                               0,
-                                               arg.p_a_grid_,
-                                               arg.p_b_grid_,
-                                               arg.p_c_grid_,
-                                               arg.a_element_op_,
-                                               arg.b_element_op_,
-                                               arg.c_element_op_,
-                                               arg.a_grid_desc_ak0_m_ak1_,
-                                               arg.b_grid_desc_bk0_n_bk1_,
-                                               arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
-                                               arg.block_2_ctile_map_);
-                }
            }
            return ave_time;
        }
        // polymorphic
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
        }
    };

--- a/include/ck/tensor_operation/gpu/device/device_gemm_xdl_splitk.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_xdl_splitk.hpp
@@ -385,8 +385,11 @@ struct DeviceGemmXdlSplitK
            std::cout << "arg.c_grid_desc_m_n_{ " << arg.c_grid_desc_m_n_.GetLength(I0) << ", "
                      << arg.c_grid_desc_m_n_.GetLength(I1) << "}" << std::endl;
        }
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
+            ShowInfo(arg);
            const auto kbatch = arg.a_grid_desc_kbatch_k0_m_k1_.GetLength(I0);
            if(!GridwiseGemm::CheckValidity(arg.a_grid_desc_kbatch_k0_m_k1_,
@@ -408,50 +411,30 @@ struct DeviceGemmXdlSplitK
            float ave_time = 0;
            const auto Run = [&](const auto& kernel) {
-                if(nrepeat > 0)
+                // FIXME: this should be moved outside of DeviceOp
-                {
+                hipGetErrorString(
-                    ShowInfo(arg);
+                    hipMemset(arg.p_c_grid_,
-                    ave_time = launch_and_time_kernel(kernel,
+                              0,
-                                                      nrepeat,
+                              arg.c_grid_desc_m0_n0_m1_n1_m2_m3_m4_n2_.GetElementSpaceSize() *
-                                                      dim3(grid_size),
+                                  sizeof(CDataType)));
-                                                      dim3(BlockSize),
-                                                      0,
+                ave_time = launch_and_time_kernel(stream_config,
-                                                      arg.p_a_grid_,
+                                                  kernel,
-                                                      arg.p_b_grid_,
+                                                  dim3(grid_size),
-                                                      arg.p_c_grid_,
+                                                  dim3(BlockSize),
-                                                      arg.a_grid_desc_kbatch_k0_m_k1_,
+                                                  0,
-                                                      arg.b_grid_desc_kbatch_k0_n_k1_,
+                                                  arg.p_a_grid_,
-                                                      arg.c_grid_desc_m0_n0_m1_n1_m2_m3_m4_n2_,
+                                                  arg.p_b_grid_,
-                                                      arg.a_element_op_,
+                                                  arg.p_c_grid_,
-                                                      arg.b_element_op_,
+                                                  arg.a_grid_desc_kbatch_k0_m_k1_,
-                                                      arg.c_element_op_,
+                                                  arg.b_grid_desc_kbatch_k0_n_k1_,
-                                                      arg.block_2_ctile_map_);
+                                                  arg.c_grid_desc_m0_n0_m1_n1_m2_m3_m4_n2_,
-                }
+                                                  arg.a_element_op_,
+                                                  arg.b_element_op_,
-                if(kbatch > 1 || nrepeat <= 0)
+                                                  arg.c_element_op_,
-                {
+                                                  arg.block_2_ctile_map_);
-                    hipGetErrorString(
-                        hipMemset(arg.p_c_grid_,
-                                  0,
-                                  arg.c_grid_desc_m0_n0_m1_n1_m2_m3_m4_n2_.GetElementSpaceSize() *
-                                      sizeof(CDataType)));
-                    launch_kernel(kernel,
-                                  dim3(grid_size),
-                                  dim3(BlockSize),
-                                  0,
-                                  arg.p_a_grid_,
-                                  arg.p_b_grid_,
-                                  arg.p_c_grid_,
-                                  arg.a_grid_desc_kbatch_k0_m_k1_,
-                                  arg.b_grid_desc_kbatch_k0_n_k1_,
-                                  arg.c_grid_desc_m0_n0_m1_n1_m2_m3_m4_n2_,
-                                  arg.a_element_op_,
-                                  arg.b_element_op_,
-                                  arg.c_element_op_,
-                                  arg.block_2_ctile_map_);
-                }
            };
            if(has_main_k0_block_loop)
            {
                if(kbatch == 1)
@@ -531,9 +514,10 @@ struct DeviceGemmXdlSplitK
        }
        // polymorphic
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
        }
    };

--- a/include/ck/tensor_operation/gpu/device/device_gemm_xdl_splitk_c_shuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_xdl_splitk_c_shuffle.hpp
@@ -391,8 +391,11 @@ struct DeviceGemmXdlSplitKCShuffle
            std::cout << "arg.c_grid_desc_m_n_{ " << arg.c_grid_desc_m_n_.GetLength(I0) << ", "
                      << arg.c_grid_desc_m_n_.GetLength(I1) << "}" << std::endl;
        }
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
+            ShowInfo(arg);
            const auto kbatch = arg.a_grid_desc_kbatch_k0_m_k1_.GetLength(I0);
            if(!GridwiseGemm::CheckValidity(arg.a_grid_desc_kbatch_k0_m_k1_,
@@ -414,51 +417,29 @@ struct DeviceGemmXdlSplitKCShuffle
            float ave_time = 0;
            const auto Run = [&](const auto& kernel) {
-                if(nrepeat > 0)
+                hipGetErrorString(hipMemset(
-                {
+                    arg.p_c_grid_,
-                    ShowInfo(arg);
+                    0,
-                    ave_time =
+                    arg.c_grid_desc_mblock_mperblock_nblock_nperblock_.GetElementSpaceSize() *
-                        launch_and_time_kernel(kernel,
+                        sizeof(CDataType)));
-                                               nrepeat,
-                                               dim3(grid_size),
+                launch_and_time_kernel(stream_config,
-                                               dim3(BlockSize),
+                                       kernel,
-                                               0,
+                                       dim3(grid_size),
-                                               arg.p_a_grid_,
+                                       dim3(BlockSize),
-                                               arg.p_b_grid_,
+                                       0,
-                                               arg.p_c_grid_,
+                                       arg.p_a_grid_,
-                                               arg.a_grid_desc_kbatch_k0_m_k1_,
+                                       arg.p_b_grid_,
-                                               arg.b_grid_desc_kbatch_k0_n_k1_,
+                                       arg.p_c_grid_,
-                                               arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
+                                       arg.a_grid_desc_kbatch_k0_m_k1_,
-                                               arg.a_element_op_,
+                                       arg.b_grid_desc_kbatch_k0_n_k1_,
-                                               arg.b_element_op_,
+                                       arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
-                                               arg.c_element_op_,
+                                       arg.a_element_op_,
-                                               arg.block_2_ctile_map_);
+                                       arg.b_element_op_,
-                }
+                                       arg.c_element_op_,
+                                       arg.block_2_ctile_map_);
-                if(kbatch > 1 || nrepeat <= 0)
-                {
-                    hipGetErrorString(hipMemset(
-                        arg.p_c_grid_,
-                        0,
-                        arg.c_grid_desc_mblock_mperblock_nblock_nperblock_.GetElementSpaceSize() *
-                            sizeof(CDataType)));
-                    launch_kernel(kernel,
-                                  dim3(grid_size),
-                                  dim3(BlockSize),
-                                  0,
-                                  arg.p_a_grid_,
-                                  arg.p_b_grid_,
-                                  arg.p_c_grid_,
-                                  arg.a_grid_desc_kbatch_k0_m_k1_,
-                                  arg.b_grid_desc_kbatch_k0_n_k1_,
-                                  arg.c_grid_desc_mblock_mperblock_nblock_nperblock_,
-                                  arg.a_element_op_,
-                                  arg.b_element_op_,
-                                  arg.c_element_op_,
-                                  arg.block_2_ctile_map_);
-                }
            };
            if(has_main_k0_block_loop)
            {
                if(kbatch == 1)
@@ -542,9 +523,10 @@ struct DeviceGemmXdlSplitKCShuffle
        }
        // polymorphic
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
        }
    };

--- a/include/ck/tensor_operation/gpu/device/device_grouped_gemm_xdl.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_grouped_gemm_xdl.hpp
@@ -449,7 +449,7 @@ struct DeviceGroupedGemmXdl
    {
        using Argument = DeviceGroupedGemmXdl::Argument;
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
            StaticallyIndexedArray<GemmDescKernelArg, MaxGroupCount> gemm_desc_kernel_args;
@@ -510,8 +510,8 @@ struct DeviceGroupedGemmXdl
                                                    true,
                                                    MaxGroupCount>;
-                ave_time = launch_and_time_kernel(kernel,
+                ave_time = launch_and_time_kernel(stream_config,
-                                                  nrepeat,
+                                                  kernel,
                                                  dim3(arg.grid_size_),
                                                  dim3(BlockSize),
                                                  0,
@@ -534,8 +534,8 @@ struct DeviceGroupedGemmXdl
                                                    false,
                                                    MaxGroupCount>;
-                ave_time = launch_and_time_kernel(kernel,
+                ave_time = launch_and_time_kernel(stream_config,
-                                                  nrepeat,
+                                                  kernel,
                                                  dim3(arg.grid_size_),
                                                  dim3(BlockSize),
                                                  0,
@@ -550,9 +550,10 @@ struct DeviceGroupedGemmXdl
        }
        // polymorphic
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
        }
    };

--- a/include/ck/tensor_operation/gpu/device/device_pool2d_fwd_nhwc_nhwc.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_pool2d_fwd_nhwc_nhwc.hpp
@@ -204,7 +204,7 @@ struct DevicePool2dFwd_Input_N_Hi_Wi_C_Output_N_Ho_Wo_C : public DevicePool2dFwd
    struct Invoker : public BaseInvoker
    {
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
            using gridwise_reduce = GridwiseReduction_mk_to_m_threadwise<InDataType,
                                                                         OutDataType,
@@ -241,8 +241,8 @@ struct DevicePool2dFwd_Input_N_Hi_Wi_C_Output_N_Ho_Wo_C : public DevicePool2dFwd
            const index_t grid_size = (ReduceM / ReduceM_BlockTileSize);
-            return launch_and_time_kernel(kernel,
+            return launch_and_time_kernel(stream_config,
-                                          nrepeat,
+                                          kernel,
                                          dim3(grid_size),
                                          dim3(BlockSize),
                                          0,
@@ -257,9 +257,10 @@ struct DevicePool2dFwd_Input_N_Hi_Wi_C_Output_N_Ho_Wo_C : public DevicePool2dFwd
                                          arg.p_out_indices_dev_);
        }
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
        }
    };

--- a/include/ck/tensor_operation/gpu/device/device_reduce_blockwise.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_reduce_blockwise.hpp
@@ -211,7 +211,7 @@ struct DeviceReduceBlockWise : public DeviceReduce<InElementwiseOperation, AccEl
    struct Invoker : public BaseInvoker
    {
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
            const auto in_grid_desc_m_k =
                DeviceReduceBlockWise::MakeSrc2dDescriptor(arg.inLengths_, arg.inStrides_);
@@ -253,8 +253,8 @@ struct DeviceReduceBlockWise : public DeviceReduce<InElementwiseOperation, AccEl
                                                        InElementwiseOperation,
                                                        AccElementwiseOperation>;
-            avg_time = launch_and_time_kernel(kernel,
+            avg_time = launch_and_time_kernel(stream_config,
-                                              nrepeat,
+                                              kernel,
                                              dim3(arg.gridSize),
                                              dim3(BlockSize),
                                              0,
@@ -272,9 +272,10 @@ struct DeviceReduceBlockWise : public DeviceReduce<InElementwiseOperation, AccEl
            return (avg_time);
        };
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
        };
    };

--- a/include/ck/tensor_operation/gpu/device/device_reduce_blockwise_second_call.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_reduce_blockwise_second_call.hpp
@@ -182,7 +182,7 @@ struct DeviceReduceBlockWiseSecondCall
    struct Invoker : public BaseInvoker
    {
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
            const auto in_grid_desc_m_k = DeviceReduceBlockWiseSecondCall::MakeSrc2dDescriptor(
                arg.inLengths_, arg.inStrides_);
@@ -224,8 +224,8 @@ struct DeviceReduceBlockWiseSecondCall
                                                                    InElementwiseOperation,
                                                                    AccElementwiseOperation>;
-            avg_time = launch_and_time_kernel(kernel,
+            avg_time = launch_and_time_kernel(stream_config,
-                                              nrepeat,
+                                              kernel,
                                              dim3(arg.gridSize),
                                              dim3(BlockSize),
                                              0,
@@ -243,10 +243,11 @@ struct DeviceReduceBlockWiseSecondCall
            return (avg_time);
        };
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
-        };
+        }
    };
    bool IsSupportedArgument(const BaseArgument* p_arg) override

--- a/include/ck/tensor_operation/gpu/device/device_reduce_multiblock_atomic_add.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_reduce_multiblock_atomic_add.hpp
@@ -245,7 +245,7 @@ struct DeviceReduceMultiBlockAtomicAdd
    struct Invoker : public BaseInvoker
    {
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
            const auto in_grid_desc_m_k = DeviceReduceMultiBlockAtomicAdd::MakeSrc2dDescriptor(
                arg.inLengths_, arg.inStrides_, arg.blkGroupSize, arg.kBlockTileIterations);
@@ -275,8 +275,6 @@ struct DeviceReduceMultiBlockAtomicAdd
            float avg_time = 0;
-            KernelTimer timer;
            const auto kernel_pre  = kernel_buffer_set_value<BlockSize, OutDataType, OutGridDesc_M>;
            const auto kernel_main = kernel_reduce_multiblock_atocmi_add<GridwiseReduce,
                                                                         InDataType,
@@ -287,50 +285,38 @@ struct DeviceReduceMultiBlockAtomicAdd
                                                                         InElementwiseOperation,
                                                                         AccElementwiseOperation>;
-            printf("launch_and_time_kernel: grid_dim {%ld, 1, 1}, block_dim {%d, 1, 1} \n",
+            avg_time += launch_and_time_kernel(stream_config,
-                   arg.gridSize,
+                                               kernel_pre,
-                   BlockSize);
+                                               dim3(arg.gridSize_pre),
-            printf("Warm up\n");
+                                               dim3(BlockSize),
+                                               0,
-            for(int i = 0; i < nrepeat + 1; i++)
+                                               out_grid_desc_m,
-            {
+                                               arg.out_dev_,
-                if(i == 1)
+                                               static_cast<OutDataType>(0.0f));
-                    timer.Start();
+            avg_time += launch_and_time_kernel(stream_config,
-                launch_kernel(kernel_pre,
+                                               kernel_main,
-                              dim3(arg.gridSize_pre),
+                                               dim3(arg.gridSize),
-                              dim3(BlockSize),
+                                               dim3(BlockSize),
-                              0,
+                                               0,
-                              out_grid_desc_m,
+                                               in_grid_desc_m_k,
-                              arg.out_dev_,
+                                               out_grid_desc_m,
-                              static_cast<OutDataType>(0.0f));
+                                               arg.in_elementwise_op_,
+                                               arg.acc_elementwise_op_,
-                launch_kernel(kernel_main,
+                                               arg.blkGroupSize,
-                              dim3(arg.gridSize),
+                                               arg.kBlockTileIterations,
-                              dim3(BlockSize),
+                                               arg.alpha_,
-                              0,
+                                               arg.in_dev_,
-                              in_grid_desc_m_k,
+                                               arg.out_dev_);
-                              out_grid_desc_m,
-                              arg.in_elementwise_op_,
+            return avg_time;
-                              arg.acc_elementwise_op_,
+        }
-                              arg.blkGroupSize,
-                              arg.kBlockTileIterations,
-                              arg.alpha_,
-                              arg.in_dev_,
-                              arg.out_dev_);
-            };
-            timer.End();
-            avg_time = timer.GetElapsedTime() / nrepeat;
-            return (avg_time);
-        };
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
-        };
+        }
    };
    bool IsSupportedArgument(const BaseArgument* p_arg) override

--- a/include/ck/tensor_operation/gpu/device/device_reduce_multiblock_partial_reduce.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_reduce_multiblock_partial_reduce.hpp
@@ -273,7 +273,7 @@ struct DeviceReduceMultiBlockPartialReduce
    struct Invoker : public BaseInvoker
    {
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
            const auto in_grid_desc_m_k = DeviceReduceMultiBlockPartialReduce::MakeSrc2dDescriptor(
                arg.inLengths_, arg.inStrides_, arg.blkGroupSize, arg.kBlockTileIterations);
@@ -313,8 +313,8 @@ struct DeviceReduceMultiBlockPartialReduce
                                                                 InElementwiseOperation,
                                                                 AccElementwiseOperation>;
-            avg_time = launch_and_time_kernel(kernel,
+            avg_time = launch_and_time_kernel(stream_config,
-                                              nrepeat,
+                                              kernel,
                                              dim3(arg.gridSize),
                                              dim3(BlockSize),
                                              0,
@@ -331,10 +331,11 @@ struct DeviceReduceMultiBlockPartialReduce
            return (avg_time);
        };
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
-        };
+        }
    };
    bool IsSupportedArgument(const BaseArgument* p_arg) override

--- a/include/ck/tensor_operation/gpu/device/device_reduce_threadwise.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_reduce_threadwise.hpp
@@ -212,7 +212,7 @@ struct DeviceReduceThreadWise : public DeviceReduce<InElementwiseOperation, OutE
    struct Invoker : public BaseInvoker
    {
-        float Run(const Argument& arg, int nrepeat = 1)
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
        {
            const auto in_grid_desc_m_k =
                DeviceReduceThreadWise::MakeSrc2dDescriptor(arg.inLengths_, arg.inStrides_);
@@ -254,8 +254,8 @@ struct DeviceReduceThreadWise : public DeviceReduce<InElementwiseOperation, OutE
                                                         InElementwiseOperation,
                                                         OutElementwiseOperation>;
-            avg_time = launch_and_time_kernel(kernel,
+            avg_time = launch_and_time_kernel(stream_config,
-                                              nrepeat,
+                                              kernel,
                                              dim3(arg.gridSize),
                                              dim3(BlockSize),
                                              0,
@@ -272,10 +272,11 @@ struct DeviceReduceThreadWise : public DeviceReduce<InElementwiseOperation, OutE
            return (avg_time);
        };
-        float Run(const BaseArgument* p_arg, int nrepeat = 1) override
+        float Run(const BaseArgument* p_arg,
+                  const StreamConfig& stream_config = StreamConfig{}) override
        {
-            return Run(*dynamic_cast<const Argument*>(p_arg), nrepeat);
+            return Run(*dynamic_cast<const Argument*>(p_arg), stream_config);
-        };
+        }
    };
    bool IsSupportedArgument(const BaseArgument* p_arg) override

--- a/library/include/ck/library/host/host_interface.hpp
+++ b/library/include/ck/library/host/host_interface.hpp
+#pragma once
+#include <memory>
+#include <string>
+#include "stream_config.hpp"
+#include "config.hpp"
+#include "device_base.hpp"
+struct DeviceConvFwdPtr_t
+{
+    using BaseArgument = ck::tensor_operation::device::BaseArgument;
+    using BaseInvoker  = ck::tensor_operation::device::BaseInvoker;
+    struct DeviceConvFwdPtrImpl;
+    std::unique_ptr<DeviceConvFwdPtrImpl> pImpl;
+    DeviceConvFwdPtr_t();
+    ~DeviceConvFwdPtr_t();
+    DeviceConvFwdPtr_t(DeviceConvFwdPtr_t&&);
+    DeviceConvFwdPtr_t(DeviceConvFwdPtrImpl&);
+    DeviceConvFwdPtr_t& operator=(DeviceConvFwdPtr_t&) = delete;
+    DeviceConvFwdPtr_t& operator=(const DeviceConvFwdPtr_t&) = delete;
+    std::unique_ptr<BaseArgument>
+    MakeArgumentPointer(void* in_ptr,
+                        void* wei_ptr,
+                        void* out_ptr,
+                        size_t N,
+                        size_t K,
+                        size_t C,
+                        std::vector<ck::index_t> input_spatial_lengths,
+                        std::vector<ck::index_t> filter_spatial_lengths,
+                        std::vector<ck::index_t> output_spatial_lengths,
+                        std::vector<ck::index_t> conv_filter_strides,
+                        std::vector<ck::index_t> conv_filter_dilations,
+                        std::vector<ck::index_t> input_left_pads,
+                        std::vector<ck::index_t> input_right_pads)
+        const; // in,wei and out element ops are ignored for now since even if we change them, they
+               // cant be linked
+    std::unique_ptr<BaseInvoker>
+    MakeInvokerPointer() const; // requires including BaseInvoker headers
+    std::string GetTypeString();
+    bool IsSupportedArgument(const BaseArgument* arg_ptr);
+};
+void add_device_conv2d_fwd_xdl_nhwc_kyxc_nhwk_f32_instances_t(
+    std::vector<DeviceConvFwdPtr_t>& instances);
+void add_device_conv2d_fwd_xdl_c_shuffle_nhwc_kyxc_nhwk_f16_instances_t(
+    std::vector<DeviceConvFwdPtr_t>& instances);
+void add_device_conv2d_fwd_xdl_nhwc_kyxc_nhwk_bf16_instances_t(
+    std::vector<DeviceConvFwdPtr_t>& instances);
+void add_device_conv2d_fwd_xdl_nhwc_kyxc_nhwk_f16_instances_t(
+    std::vector<DeviceConvFwdPtr_t>& instances);
+void add_device_conv2d_fwd_xdl_nhwc_kyxc_nhwk_int8_instances_t(
+    std::vector<DeviceConvFwdPtr_t>& instances);
--- a/library/include/ck/library/host_tensor/device.hpp
+++ b/library/include/ck/library/host_tensor/device.hpp
-#ifndef DEVICE_HPP
+#pragma once
-#define DEVICE_HPP
 #include <memory>
 #include <functional>
 #include <thread>
 #include <chrono>
-#include "hip/hip_runtime.h"
+#include <hip/hip_runtime.h>
-#include "hip/hip_fp16.h"
+#include <hip/hip_fp16.h>
+#include "stream_config.hpp"
+#include "ck/options.hpp"
+inline void hip_check_error(hipError_t x)
+{
+    if(x != hipSuccess)
+    {
+        std::ostringstream ss;
+        ss << "HIP runtime error: " << hipGetErrorString(x) << ". " << __FILE__ << ": " << __LINE__
+           << "in function: " << __func__;
+        throw std::runtime_error(ss.str());
+    }
+}
 struct DeviceMem
 {
@@ -36,49 +49,59 @@ struct KernelTimer
    std::unique_ptr<KernelTimerImpl> impl;
 };
-using device_stream_t = hipStream_t;
 template <typename... Args, typename F>
-void launch_kernel(F kernel, dim3 grid_dim, dim3 block_dim, std::size_t lds_byte, Args... args)
+float launch_and_time_kernel(const StreamConfig& stream_config,
+                             F kernel,
+                             dim3 grid_dim,
+                             dim3 block_dim,
+                             std::size_t lds_byte,
+                             Args... args)
 {
-    hipStream_t stream_id = nullptr;
+#if CK_TIME_KERNEL
+    if(stream_config.time_kernel_)
-    hipLaunchKernelGGL(kernel, grid_dim, block_dim, lds_byte, stream_id, args...);
+    {
-}
+        printf("%s: grid_dim {%d, %d, %d}, block_dim {%d, %d, %d} \n",
+               __func__,
+               grid_dim.x,
+               grid_dim.y,
+               grid_dim.z,
+               block_dim.x,
+               block_dim.y,
+               block_dim.z);
-template <typename... Args, typename F>
+        const int nrepeat = 10;
-float launch_and_time_kernel(
-    F kernel, int nrepeat, dim3 grid_dim, dim3 block_dim, std::size_t lds_byte, Args... args)
-{
-    KernelTimer timer;
-    printf("%s: grid_dim {%d, %d, %d}, block_dim {%d, %d, %d} \n",
+        printf("Warm up 1 time\n");
-           __func__,
-           grid_dim.x,
-           grid_dim.y,
-           grid_dim.z,
-           block_dim.x,
-           block_dim.y,
-           block_dim.z);
-    printf("Warm up\n");
+        // warm up
+        hipLaunchKernelGGL(
+            kernel, grid_dim, block_dim, lds_byte, stream_config.stream_id_, args...);
-    hipStream_t stream_id = nullptr;
+        printf("Start running %d times...\n", nrepeat);
-    // warm up
+        KernelTimer timer;
-    hipLaunchKernelGGL(kernel, grid_dim, block_dim, lds_byte, stream_id, args...);
+        timer.Start();
-    printf("Start running %d times...\n", nrepeat);
+        for(int i = 0; i < nrepeat; ++i)
+        {
+            hipLaunchKernelGGL(
+                kernel, grid_dim, block_dim, lds_byte, stream_config.stream_id_, args...);
+        }
-    timer.Start();
+        timer.End();
-    for(int i = 0; i < nrepeat; ++i)
+        return timer.GetElapsedTime() / nrepeat;
-    {
-        hipLaunchKernelGGL(kernel, grid_dim, block_dim, lds_byte, stream_id, args...);
    }
+    else
+    {
+        hipLaunchKernelGGL(
+            kernel, grid_dim, block_dim, lds_byte, stream_config.stream_id_, args...);
-    timer.End();
+        return 0;
+    }
+#else
+    hipLaunchKernelGGL(kernel, grid_dim, block_dim, lds_byte, stream_config.stream_id_, args...);
-    return timer.GetElapsedTime() / nrepeat;
+    return 0;
-}
 #endif
+}
--- a/library/include/ck/library/reference_tensor_operation/cpu/reference_batched_gemm.hpp
+++ b/library/include/ck/library/reference_tensor_operation/cpu/reference_batched_gemm.hpp
@@ -84,7 +84,8 @@ struct ReferenceBatchedGemm : public device::BaseOperator
            return 0;
        }
-        float Run(const device::BaseArgument* p_arg, int) override
+        float Run(const device::BaseArgument* p_arg,
+                  const StreamConfig& /* stream_config */ = StreamConfig{}) override
        {
            return Run(*dynamic_cast<const Argument*>(p_arg));
        }