Absolute include path (#281)

* ad gelu and fast_gelu * added GeLU and fast GeLU * clean up * add gemm+fastgelu example * add gemm+gelu instances * update profiler * clean up * clean up * adding gemm+bias+activation * clean * adding bias * clean * adding gemm multiple d * debugging * add gemm bias add fastgelu * rename, clean * refactoring; add readme * refactor * refactor * refactor * refactor * refactor * refactor * fix * fix * update example * update example * rename * update example * add ckProfiler * clean * clean * clean * clean * add client app example * update readme * delete obselete files * remove old client app * delete old file * cleaning * clean * remove half * fix header path * fix header path * fix header path * fix header path * fix header path * fix header path for all examples * fix header path * fix header path * fix header path * fix header path * fix header path * fix header path * fix header path * fix header path * fix header path * revert client app example * clean build * fix build * temporary disable client test on Jenkins * clean * clean * clean

Absolute include path (#281)
* ad gelu and fast_gelu * added GeLU and fast GeLU * clean up * add gemm+fastgelu example * add gemm+gelu instances * update profiler * clean up * clean up * adding gemm+bias+activation * clean * adding bias * clean * adding gemm multiple d * debugging * add gemm bias add fastgelu * rename, clean * refactoring; add readme * refactor * refactor * refactor * refactor * refactor * refactor * fix * fix * update example * update example * rename * update example * add ckProfiler * clean * clean * clean * clean * add client app example * update readme * delete obselete files * remove old client app * delete old file * cleaning * clean * remove half * fix header path * fix header path * fix header path * fix header path * fix header path * fix header path for all examples * fix header path * fix header path * fix header path * fix header path * fix header path * fix header path * fix header path * fix header path * fix header path * revert client app example * clean build * fix build * temporary disable client test on Jenkins * clean * clean * clean
d1db6a0c · Chao Liu · GitHub · a49115b9 · d1db6a0c · d1db6a0c
Unverified Commit d1db6a0c authored Jun 24, 2022 by Chao Liu Committed by GitHub Jun 24, 2022
20 changed files
--- a/include/ck/tensor_operation/gpu/device/device_conv_fwd_bias_activation_add.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_conv_fwd_bias_activation_add.hpp
-#ifndef DEVICE_CONV_FWD_BIAS_ACTIVATION_ADD_HPP
+#pragma once
-#define DEVICE_CONV_FWD_BIAS_ACTIVATION_ADD_HPP
+#include <vector>
 #include <iostream>
-#include "device_base.hpp"
+#include "ck/tensor_operation/gpu/device/device_base.hpp"
 namespace ck {
 namespace tensor_operation {
@@ -47,4 +48,3 @@ using DeviceConvFwdBiasActivationAddPtr =
 } // namespace device
 } // namespace tensor_operation
 } // namespace ck
-#endif
--- a/include/ck/tensor_operation/gpu/device/device_convnd_backward_weight_xdl_c_shuffle_nhwc_kyxc_nhwk.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_convnd_backward_weight_xdl_c_shuffle_nhwc_kyxc_nhwk.hpp
@@ -2,16 +2,17 @@
 #include <iostream>
 #include <sstream>
-#include "device.hpp"
-#include "device_base.hpp"
+#include "ck/utility/common_header.hpp"
-#include "device_conv_backward_weight.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "convolution_backward_weight_specialization.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "common_header.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/device_conv_backward_weight.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_operation/gpu/device/convolution_backward_weight_specialization.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_bwd_weight.hpp"
-#include "gridwise_gemm_xdlops_bwd_weight.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_unary_elementwise_1d.hpp"
-#include "gridwise_unary_elementwise_1d.hpp"
+#include "ck/device_utility/device_prop.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
 namespace ck {
 namespace tensor_operation {

--- a/include/ck/tensor_operation/gpu/device/device_convnd_bwd_data_xdl_ndhwc_kzyxc_ndhwk.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_convnd_bwd_data_xdl_ndhwc_kzyxc_ndhwk.hpp
-#ifndef DEVICE_CONVND_BWD_DATA_XDL_NDHWC_KZYXC_NDHWK_HPP
+#pragma once
-#define DEVICE_CONVND_BWD_DATA_XDL_NDHWC_KZYXC_NDHWK_HPP
 #include <iostream>
 #include <sstream>
-#include "device.hpp"
-#include "device_base.hpp"
+#include "ck/utility/common_header.hpp"
-#include "device_conv_bwd_data.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "convolution_backward_data_specialization.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "common_header.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/device_conv_bwd_data.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_operation/gpu/device/convolution_backward_data_specialization.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v2r3.hpp"
-#include "gridwise_gemm_xdlops_v2r3.hpp"
+#include "ck/device_utility/device_prop.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
 namespace ck {
 namespace tensor_operation {
@@ -1546,4 +1546,3 @@ struct DeviceConvndBwdDataXdl_Input_N_Di_Hi_Wi_C_Weight_K_Z_Y_X_C_Output_N_Do_Ho
 } // namespace device
 } // namespace tensor_operation
 } // namespace ck
-#endif
--- a/include/ck/tensor_operation/gpu/device/device_convnd_fwd_xdl_nhwc_kyxc_nhwk.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_convnd_fwd_xdl_nhwc_kyxc_nhwk.hpp
@@ -6,16 +6,15 @@
 #include <numeric>
 #include <sstream>
-#include "device.hpp"
+#include "ck/utility/common_header.hpp"
-#include "device_prop.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "device_base.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "device_conv_fwd.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "convolution_forward_specialization.hpp"
+#include "ck/tensor_operation/gpu/device/device_conv_fwd.hpp"
-#include "common_header.hpp"
+#include "ck/tensor_operation/gpu/device/convolution_forward_specialization.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v2r3.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/device_utility/device_prop.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
-#include "gridwise_gemm_xdlops_v2r3.hpp"
 namespace ck {
 namespace tensor_operation {

--- a/include/ck/tensor_operation/gpu/device/device_gemm_bias.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_bias.hpp
 #pragma once
 #include <iostream>
-#include "device_base.hpp"
+#include "ck/tensor_operation/gpu/device/device_base.hpp"
 namespace ck {
 namespace tensor_operation {

--- a/include/ck/tensor_operation/gpu/device/device_gemm_bias_activation.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_bias_activation.hpp
-#ifndef DEVICE_GEMM_BIAS_ACTIVATION_HPP
+#pragma once
-#define DEVICE_GEMM_BIAS_ACTIVATION_HPP
 #include <iostream>
-#include "device_base.hpp"
+#include "ck/tensor_operation/gpu/device/device_base.hpp"
 namespace ck {
 namespace tensor_operation {
@@ -40,4 +40,3 @@ using DeviceGemmBiasActivationPtr = std::unique_ptr<
 } // namespace device
 } // namespace tensor_operation
 } // namespace ck
-#endif
--- a/include/ck/tensor_operation/gpu/device/device_gemm_bias_add_reduce_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_bias_add_reduce_xdl_cshuffle.hpp
 #pragma once
 #include <iostream>
 #include <sstream>
-#include "device.hpp"
-#include "device_gemm_reduce.hpp"
+#include "ck/utility/common_header.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "gridwise_gemm_bias_add_reduce_xdl_cshuffle_v1.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm_reduce.hpp"
-#include "gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_bias_add_reduce_xdl_cshuffle_v1.hpp"
+#include "ck/device_utility/device_prop.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
 namespace ck {
 namespace tensor_operation {

--- a/include/ck/tensor_operation/gpu/device/device_gemm_dl.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_dl.hpp
@@ -3,17 +3,15 @@
 #include <iostream>
 #include <sstream>
-#include "device.hpp"
+#include "ck/utility/common_header.hpp"
-#include "device_prop.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "device_base.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "device_gemm.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "common_header.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_dl_v1r3.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/device_utility/device_prop.hpp"
-#include "gemm_specialization.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
-#include "element_wise_operation.hpp"
-#include "gridwise_gemm_dl_v1r3.hpp"
 namespace ck {
 namespace tensor_operation {

--- a/include/ck/tensor_operation/gpu/device/device_gemm_multiple_d_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_multiple_d_xdl_cshuffle.hpp
@@ -3,15 +3,15 @@
 #include <iostream>
 #include <sstream>
-#include "device.hpp"
+#include "ck/utility/common_header.hpp"
-#include "device_gemm_multiple_d.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "common_header.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm_multiple_d.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "gridwise_gemm_multiple_d_xdl_cshuffle.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_multiple_d_xdl_cshuffle.hpp"
-#include "gemm_specialization.hpp"
+#include "ck/device_utility/device_prop.hpp"
-#include "device_prop.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
 namespace ck {

--- a/include/ck/tensor_operation/gpu/device/device_gemm_reduce_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_reduce_xdl_cshuffle.hpp
 #pragma once
 #include <iostream>
 #include <sstream>
-#include "device.hpp"
-#include "device_gemm_reduce.hpp"
+#include "ck/utility/common_header.hpp"
-#include "common_header.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm_reduce.hpp"
-#include "gridwise_gemm_reduce_xdl_cshuffle_v1.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_reduce_xdl_cshuffle_v1.hpp"
+#include "ck/device_utility/device_prop.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
 namespace ck {
 namespace tensor_operation {

--- a/include/ck/tensor_operation/gpu/device/device_gemm_xdl.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_xdl.hpp
@@ -2,16 +2,16 @@
 #include <iostream>
 #include <sstream>
-#include "device.hpp"
-#include "device_prop.hpp"
+#include "ck/utility/common_header.hpp"
-#include "device_base.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "device_gemm.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "common_header.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v2r3.hpp"
-#include "gridwise_gemm_xdlops_v2r3.hpp"
+#include "ck/device_utility/device_prop.hpp"
-#include "gemm_specialization.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
 namespace ck {
 namespace tensor_operation {

--- a/include/ck/tensor_operation/gpu/device/device_gemm_xdl_c_shuffle_bias_2d.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_xdl_c_shuffle_bias_2d.hpp
 #pragma once
 #include <iostream>
 #include <sstream>
-#include "device.hpp"
-#include "device_gemm_bias.hpp"
+#include "ck/utility/common_header.hpp"
-#include "common_header.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm_bias.hpp"
-#include "gridwise_gemm_xdlops_v3r2.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v3r2.hpp"
+#include "ck/device_utility/device_prop.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
 namespace ck {
 namespace tensor_operation {

--- a/include/ck/tensor_operation/gpu/device/device_gemm_xdl_c_shuffle_bias_activation.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_xdl_c_shuffle_bias_activation.hpp
-#ifndef DEVICE_GEMM_XDL_C_SHUFFLE_BIAS_ACTIVATION_HPP
+#pragma once
-#define DEVICE_GEMM_XDL_C_SHUFFLE_BIAS_ACTIVATION_HPP
 #include <iostream>
 #include <sstream>
-#include "device.hpp"
-#include "device_gemm_bias_activation.hpp"
+#include "ck/utility/common_header.hpp"
-#include "common_header.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm_bias_activation.hpp"
-#include "gridwise_gemm_xdlops_v3r2.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v3r2.hpp"
+#include "ck/device_utility/device_prop.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
 namespace ck {
 namespace tensor_operation {
@@ -513,4 +515,3 @@ struct DeviceGemmXdl_C_Shuffle_Bias_Activation
 } // namespace device
 } // namespace tensor_operation
 } // namespace ck
-#endif
--- a/include/ck/tensor_operation/gpu/device/device_gemm_xdl_c_shuffle_bias_activation_add.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_xdl_c_shuffle_bias_activation_add.hpp
-#ifndef DEVICE_GEMM_XDL_C_SHUFFLE_BIAS_ACTIVATION_ADD_HPP
+#pragma once
-#define DEVICE_GEMM_XDL_C_SHUFFLE_BIAS_ACTIVATION_ADD_HPP
 #include <iostream>
 #include <sstream>
-#include "device.hpp"
-#include "device_gemm_bias_activation_add.hpp"
+#include "ck/utility/common_header.hpp"
-#include "common_header.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm_bias_activation_add.hpp"
-#include "gridwise_gemm_xdlops_v3r3.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v3r3.hpp"
+#include "ck/device_utility/device_prop.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
 namespace ck {
 namespace tensor_operation {
@@ -573,4 +575,3 @@ struct DeviceGemmXdl_C_Shuffle_Bias_Activation_Add
 } // namespace device
 } // namespace tensor_operation
 } // namespace ck
-#endif
--- a/include/ck/tensor_operation/gpu/device/device_gemm_xdl_cshuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_xdl_cshuffle.hpp
 #pragma once
 #include <iostream>
 #include <sstream>
-#include "device.hpp"
-#include "device_gemm.hpp"
+#include "ck/utility/common_header.hpp"
-#include "common_header.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
-#include "gridwise_gemm_xdl_cshuffle_v1.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "tensor_operation/gpu/device/gemm_specialization.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_xdl_cshuffle_v1.hpp"
-#include "device_prop.hpp"
+#include "ck/device_utility/device_prop.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
 namespace ck {
 namespace tensor_operation {

--- a/include/ck/tensor_operation/gpu/device/device_gemm_xdl_splitk.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_xdl_splitk.hpp
-#ifndef DEVICE_GEMM_SPLITK_XDL_HPP
+#pragma once
-#define DEVICE_GEMM_SPLITK_XDL_HPP
 #include <iostream>
 #include <sstream>
-#include "device.hpp"
-#include "device_base.hpp"
+#include "ck/utility/common_header.hpp"
-#include "device_gemm.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "common_header.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "gridwise_gemm_xdlops_v2r4.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v2r4.hpp"
-#include "gemm_specialization.hpp"
+#include "ck/device_utility/device_prop.hpp"
-#include "device_prop.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
-#ifndef CK_RUN_KERNEL_AND_TIME
-#define CK_RUN_KERNEL_AND_TIME 1
-#endif
 namespace ck {
 namespace tensor_operation {
@@ -639,4 +634,3 @@ struct DeviceGemmXdlSplitK
 } // namespace device
 } // namespace tensor_operation
 } // namespace ck
-#endif
--- a/include/ck/tensor_operation/gpu/device/device_gemm_xdl_splitk_c_shuffle.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_gemm_xdl_splitk_c_shuffle.hpp
-#ifndef DEVICE_GEMM_XDL_SPLITK_C_SHUFFLE_HPP
+#pragma once
-#define DEVICE_GEMM_XDL_SPLITK_C_SHUFFLE_HPP
 #include <iostream>
 #include <sstream>
-#include "device.hpp"
-#include "device_base.hpp"
+#include "ck/utility/common_header.hpp"
-#include "device_gemm.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "common_header.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "gridwise_gemm_xdlops_v2r4r2.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v2r4r2.hpp"
-#include "gemm_specialization.hpp"
+#include "ck/device_utility/device_prop.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
-#ifndef CK_RUN_KERNEL_AND_TIME
-#define CK_RUN_KERNEL_AND_TIME 1
-#endif
 namespace ck {
 namespace tensor_operation {
@@ -641,4 +637,3 @@ struct DeviceGemmXdlSplitKCShuffle
 } // namespace device
 } // namespace tensor_operation
 } // namespace ck
-#endif
--- a/include/ck/tensor_operation/gpu/device/device_grouped_gemm_xdl.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_grouped_gemm_xdl.hpp
-#ifndef DEVICE_GROUPED_GEMM_XDL_HPP
+#pragma once
-#define DEVICE_GROUPED_GEMM_XDL_HPP
 #include <iostream>
 #include <sstream>
-#include "device.hpp"
-#include "device_base.hpp"
+#include "ck/utility/common_header.hpp"
-#include "device_gemm.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "common_header.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "tensor_layout.hpp"
+#include "ck/tensor_operation/gpu/device/tensor_layout.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_operation/gpu/device/device_gemm.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/tensor_operation/gpu/device/gemm_specialization.hpp"
-#include "gridwise_gemm_xdlops_v2r3.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_gemm_xdlops_v2r3.hpp"
-#include "gemm_specialization.hpp"
+#include "ck/device_utility/device_prop.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
 namespace ck {
 namespace tensor_operation {
@@ -638,4 +638,3 @@ struct DeviceGroupedGemmXdl
 } // namespace device
 } // namespace tensor_operation
 } // namespace ck
-#endif
--- a/include/ck/tensor_operation/gpu/device/device_pool2d_fwd.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_pool2d_fwd.hpp
-#ifndef DEVICE_POOL2D_FWD_HPP
+#pragma once
-#define DEVICE_POOL2D_FWD_HPP
 #include <iostream>
 #include <array>
-#include "device_base.hpp"
-#include "reduction_enums.hpp"
+#include "ck/tensor_operation/gpu/device/device_base.hpp"
+#include "ck/utility/reduction_enums.hpp"
 namespace ck {
 namespace tensor_operation {
@@ -35,4 +35,3 @@ using DevicePool2dFwdPtr = std::unique_ptr<DevicePool2dFwd<ReduceOpId>>;
 } // namespace device
 } // namespace tensor_operation
 } // namespace ck
-#endif
--- a/include/ck/tensor_operation/gpu/device/device_pool2d_fwd_nhwc_nhwc.hpp
+++ b/include/ck/tensor_operation/gpu/device/device_pool2d_fwd_nhwc_nhwc.hpp
-#ifndef DEVICE_POOL2D_FWD_NHWC_NHWC_HPP
+#pragma once
-#define DEVICE_POOL2D_FWD_NHWC_NHWC_HPP
 #include <iostream>
 #include <sstream>
-#include "device_pool2d_fwd.hpp"
-#include "tensor_descriptor.hpp"
+#include "ck/tensor_description/tensor_descriptor.hpp"
-#include "tensor_descriptor_helper.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "reduction_operator_mapping.hpp"
+#include "ck/tensor_operation/gpu/device/reduction_operator_mapping.hpp"
-#include "gridwise_2d_reduction_threadwise.hpp"
+#include "ck/tensor_operation/gpu/device/device_pool2d_fwd.hpp"
+#include "ck/tensor_operation/gpu/grid/gridwise_2d_reduction_threadwise.hpp"
+#include "ck/device_utility/device_prop.hpp"
+#include "ck/device_utility/kernel_launch.hpp"
 namespace ck {
 namespace tensor_operation {
@@ -315,9 +317,8 @@ struct DevicePool2dFwd_Input_N_Hi_Wi_C_Output_N_Ho_Wo_C : public DevicePool2dFwd
        return str.str();
    }
-}; // namespace device
+};
 } // namespace device
 } // namespace tensor_operation
 } // namespace ck
-#endif