[sgl-kernel] avoid per_token_quant_fp8.cu hardcode sm_count (#8738)

f57d2dc1 · Xiaoyu Zhang · GitHub · f2d68ded · f57d2dc1
Unverified Commit f57d2dc1 authored Aug 04, 2025 by Xiaoyu Zhang Committed by GitHub Aug 04, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 3 deletions

sgl-kernel/csrc/gemm/per_token_quant_fp8.cu sgl-kernel/csrc/gemm/per_token_quant_fp8.cu +2 -3

No files found.
--- a/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu
+++ b/sgl-kernel/csrc/gemm/per_token_quant_fp8.cu
@@ -173,9 +173,8 @@ void sgl_per_token_quant_fp8(torch::Tensor input, torch::Tensor output_q, torch:
  TORCH_CHECK(hidden_dim % 8 == 0, "Hidden dimension must be divisible by 8, but got ", hidden_dim);
  cudaStream_t stream = at::cuda::getCurrentCUDAStream();
-  // Hard-code sm_count
+  const int sm_count = at::cuda::getCurrentDeviceProperties()->multiProcessorCount;
-  int sm_count = 132;
+  const int TOKENS_PER_CTA = 8;
-  constexpr int TOKENS_PER_CTA = 8;
  const bool use_warp_kernel = (num_tokens >= sm_count * 2 * TOKENS_PER_CTA);
  const bool use_vec16 = (hidden_dim % 16 == 0);