// SPDX-License-Identifier: MIT // Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved. #include #include #include #include #include "ck/ck.hpp" #include "ck/tensor_operation/gpu/device/tensor_layout.hpp" #include "ck/tensor_operation/gpu/device/device_convnd_fwd_nwc_kxc_nwk_xdl.hpp" #include "ck/tensor_operation/gpu/element/element_wise_operation.hpp" #include "ck/library/utility/check_err.hpp" #include "ck/library/utility/convolution_parameter.hpp" #include "ck/library/utility/device_memory.hpp" #include "ck/library/utility/host_tensor.hpp" #include "ck/library/utility/host_tensor_generator.hpp" #include "ck/library/reference_tensor_operation/cpu/reference_conv_fwd.hpp" #include "ck/library/utility/convolution_parameter.hpp" ck::tensor_operation::device::ConvParams parse_conv_params(int num_dim_spatial, int arg_idx, char* const argv[]) { ck::tensor_operation::device::ConvParams params; params.num_dim_spatial_ = num_dim_spatial; params.N_ = std::stoi(argv[arg_idx++]); params.K_ = std::stoi(argv[arg_idx++]); params.C_ = std::stoi(argv[arg_idx++]); params.filter_spatial_lengths_.resize(num_dim_spatial); for(int i = 0; i < num_dim_spatial; ++i) { params.filter_spatial_lengths_[i] = std::stoi(argv[arg_idx++]); } params.input_spatial_lengths_.resize(num_dim_spatial); for(int i = 0; i < num_dim_spatial; ++i) { params.input_spatial_lengths_[i] = std::stoi(argv[arg_idx++]); } params.conv_filter_strides_.resize(num_dim_spatial); for(int i = 0; i < num_dim_spatial; ++i) { params.conv_filter_strides_[i] = std::stoi(argv[arg_idx++]); } params.conv_filter_dilations_.resize(num_dim_spatial); for(int i = 0; i < num_dim_spatial; ++i) { params.conv_filter_dilations_[i] = std::stoi(argv[arg_idx++]); } params.input_left_pads_.resize(num_dim_spatial); for(int i = 0; i < num_dim_spatial; ++i) { params.input_left_pads_[i] = std::stoi(argv[arg_idx++]); } params.input_right_pads_.resize(num_dim_spatial); for(int i = 0; i < num_dim_spatial; ++i) { params.input_right_pads_[i] = std::stoi(argv[arg_idx++]); } return params; } void print_helper_msg() { std::cout << "arg1: verification (0=no, 1=yes)\n" << "arg2: initialization (0=no init, 1=integer value, 2=decimal value)\n" << "arg3: time kernel (0=n0, 1=yes)\n" << "arg4: N spatial dimensions (default 2)\n" << "Following arguments (depending on number of spatial dims):\n" << " N, K, C, \n" << " , (ie Y, X for 2D)\n" << " , (ie Hi, Wi for 2D)\n" << " , (ie Sy, Sx for 2D)\n" << " , (ie Dy, Dx for 2D)\n" << " , (ie LeftPy, LeftPx for 2D)\n" << " , (ie RightPy, RightPx for 2D)\n" << std::endl; } template int run_conv_fwd(const ck::tensor_operation::device::ConvParams& params, bool do_verification, int init_method, bool time_kernel) { auto f_nchw_host_tensor_descriptor = [](ck::index_t n, ck::index_t c, std::vector spatial_lengths) { std::vector nhwc_lengths{static_cast(n), static_cast(c)}; nhwc_lengths.insert( nhwc_lengths.begin() + 1, spatial_lengths.begin(), spatial_lengths.end()); return transpose_host_tensor_descriptor_given_new2old( HostTensorDescriptor(nhwc_lengths), std::vector({0, 3, 1, 2})); }; Tensor input( f_nchw_host_tensor_descriptor(params.N_, params.C_, params.input_spatial_lengths_)); Tensor weights( f_nchw_host_tensor_descriptor(params.K_, params.C_, params.filter_spatial_lengths_)); Tensor host_output( f_nchw_host_tensor_descriptor(params.N_, params.K_, params.GetOutputSpatialLengths())); Tensor device_output( f_nchw_host_tensor_descriptor(params.N_, params.K_, params.GetOutputSpatialLengths())); std::cout << "input: " << input.mDesc << std::endl; std::cout << "weights: " << weights.mDesc << std::endl; std::cout << "output: " << host_output.mDesc << std::endl; switch(init_method) { case 0: break; case 1: input.GenerateTensorValue(GeneratorTensor_2{-5, 5}); weights.GenerateTensorValue(GeneratorTensor_2{-5, 5}); break; default: input.GenerateTensorValue(GeneratorTensor_3{0.0, 1.0}); weights.GenerateTensorValue(GeneratorTensor_3{-0.5, 0.5}); } DeviceMem in_device_buf(sizeof(InDataType) * input.mDesc.GetElementSpace()); DeviceMem wei_device_buf(sizeof(WeiDataType) * weights.mDesc.GetElementSpace()); DeviceMem out_device_buf(sizeof(OutDataType) * device_output.mDesc.GetElementSpace()); in_device_buf.ToDevice(input.mData.data()); wei_device_buf.ToDevice(weights.mData.data()); // do GEMM auto conv = DeviceConvNDFwdInstance{}; auto invoker = conv.MakeInvoker(); auto argument = conv.MakeArgument(static_cast(in_device_buf.GetDeviceBuffer()), static_cast(wei_device_buf.GetDeviceBuffer()), static_cast(out_device_buf.GetDeviceBuffer()), params.N_, params.K_, params.C_, params.input_spatial_lengths_, params.filter_spatial_lengths_, params.GetOutputSpatialLengths(), params.conv_filter_strides_, params.conv_filter_dilations_, params.input_left_pads_, params.input_right_pads_, InElementOp{}, WeiElementOp{}, OutElementOp{}); if(!conv.IsSupportedArgument(argument)) { throw std::runtime_error( "wrong! device_conv with the specified compilation parameters does " "not support this Conv problem"); } float ave_time = invoker.Run(argument, StreamConfig{nullptr, time_kernel}); std::size_t flop = params.GetFlops(); std::size_t num_btype = params.GetByte(); float tflops = static_cast(flop) / 1.E9 / ave_time; float gb_per_sec = num_btype / 1.E6 / ave_time; std::cout << "Perf: " << ave_time << " ms, " << tflops << " TFlops, " << gb_per_sec << " GB/s, " << conv.GetTypeString() << std::endl; if(do_verification) { auto ref_conv = ReferenceConvNDFwdInstance(); auto ref_invoker = ref_conv.MakeInvoker(); auto ref_argument = ref_conv.MakeArgument(input, weights, host_output, params.conv_filter_strides_, params.conv_filter_dilations_, params.input_left_pads_, params.input_right_pads_, InElementOp{}, WeiElementOp{}, OutElementOp{}); ref_invoker.Run(ref_argument); out_device_buf.FromDevice(device_output.mData.data()); return ck::utils::check_err(host_output.mData, device_output.mData, "Error: incorrect results!", 1e-5f, 1e-4f) ? 0 : 1; } return 0; }