[LayerNorm] Check cuda error after querying ctas_per_sm

e4d3013e · Tri Dao · b0ed0a73 · e4d3013e · e4d3013e
Commit e4d3013e authored Nov 15, 2022 by Tri Dao
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 4 deletions

csrc/layer_norm/ln_bwd_semi_cuda_kernel.cu csrc/layer_norm/ln_bwd_semi_cuda_kernel.cu +2 -2

csrc/layer_norm/ln_fwd_cuda_kernel.cu csrc/layer_norm/ln_fwd_cuda_kernel.cu +2 -2

No files found.
--- a/csrc/layer_norm/ln_bwd_semi_cuda_kernel.cu
+++ b/csrc/layer_norm/ln_bwd_semi_cuda_kernel.cu
@@ -44,8 +44,8 @@ void launch_(LaunchParams<BwdParams> &launch_params, const bool configure_params
                    auto kernel = &ln_bwd_kernel<Kernel_traits, PrenormConst, IsDropoutConst, HasResidualConst, HasRowscaleConst>;
                    if( configure_params ) {
                        int ctas_per_sm;
-                        cudaError status_ = cudaOccupancyMaxActiveBlocksPerMultiprocessor(
-                            &ctas_per_sm, kernel, Kernel_traits::THREADS_PER_CTA, Kernel_traits::SMEM_BYTES);
+                        CHECK_CUDA(cudaOccupancyMaxActiveBlocksPerMultiprocessor(
+                            &ctas_per_sm, kernel, Kernel_traits::THREADS_PER_CTA, Kernel_traits::SMEM_BYTES));
                        launch_params.params.ctas_per_col = launch_params.props->multiProcessorCount * ctas_per_sm / Kernel_traits::CTAS_PER_ROW;
                        launch_params.barrier_size = 0;
                        launch_params.workspace_bytes = 0;

--- a/csrc/layer_norm/ln_fwd_cuda_kernel.cu
+++ b/csrc/layer_norm/ln_fwd_cuda_kernel.cu
@@ -41,8 +41,8 @@ void launch_(LaunchParams<FwdParams> &launch_params, const bool configure_params
                auto kernel = &ln_fwd_kernel<Kernel_traits, IsDropoutConst, HasResidualConst, HasRowscaleConst>;
                if( configure_params ) {
                    int ctas_per_sm;
-                    cudaError status_ = cudaOccupancyMaxActiveBlocksPerMultiprocessor(
-                        &ctas_per_sm, kernel, Kernel_traits::THREADS_PER_CTA, Kernel_traits::SMEM_BYTES_FWD);
+                    CHECK_CUDA(cudaOccupancyMaxActiveBlocksPerMultiprocessor(
+                        &ctas_per_sm, kernel, Kernel_traits::THREADS_PER_CTA, Kernel_traits::SMEM_BYTES_FWD));
                    launch_params.params.ctas_per_col = launch_params.props->multiProcessorCount * ctas_per_sm / Kernel_traits::CTAS_PER_ROW;
                    const size_t rows_per_loop = launch_params.params.ctas_per_col * Kernel_traits::ROWS_PER_CTA;
                    launch_params.elts_per_thread = (launch_params.params.rows + rows_per_loop - 1) / rows_per_loop * Kernel_traits::LDGS * Kernel_traits::NUM_ELTS;