[Bug] Fix Cutlass Scaled MM Compilation Error (#24887)

Signed-off-by: yewentao256 <zhyanwentao@126.com>

[Bug] Fix Cutlass Scaled MM Compilation Error (#24887)
Signed-off-by: yewentao256 <zhyanwentao@126.com>
e757a629 · Wentao Ye · GitHub · aae725af · e757a629 · e757a629
Unverified Commit e757a629 authored Sep 15, 2025 by Wentao Ye Committed by GitHub Sep 15, 2025
3 changed files
--- a/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm100_fp8_dispatch.cuh
+++ b/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm100_fp8_dispatch.cuh
@@ -146,6 +146,7 @@ void cutlass_gemm_caller_blockwise(torch::Tensor& out, torch::Tensor const& a,
  using ElementAB = typename Gemm::ElementAB;
  using ElementD = typename Gemm::ElementD;
+  using ElementBlockScale = typename Gemm::ElementBlockScale;
  int32_t m = a.size(0), n = b.size(1), k = a.size(1);
@@ -166,26 +167,29 @@ void cutlass_gemm_caller_blockwise(torch::Tensor& out, torch::Tensor const& a,
      ScaleConfig::tile_atom_to_shape_SFB(make_shape(n, m, k, 1)) :
      ScaleConfig::tile_atom_to_shape_SFB(make_shape(m, n, k, 1));
-  auto a_ptr = static_cast<ElementAB*>(a.data_ptr());
+  auto a_ptr = static_cast<ElementAB const*>(a.data_ptr());
-  auto b_ptr = static_cast<ElementAB*>(b.data_ptr());
+  auto b_ptr = static_cast<ElementAB const*>(b.data_ptr());
-  auto a_scales_ptr = static_cast<float*>(a_scales.data_ptr());
+  auto a_scales_ptr = static_cast<ElementBlockScale const*>(a_scales.data_ptr());
-  auto b_scales_ptr = static_cast<float*>(b_scales.data_ptr());
+  auto b_scales_ptr = static_cast<ElementBlockScale const*>(b_scales.data_ptr());
-  auto mainloop_args = [&](){
+  typename GemmKernel::MainloopArguments mainloop_args{};
-    // layout_SFA and layout_SFB cannot be swapped since they are deduced.
+  mainloop_args.layout_SFA = layout_SFA;
-    if (swap_ab) {
+  mainloop_args.layout_SFB = layout_SFB;
-      return typename GemmKernel::MainloopArguments{
+  if (swap_ab) {
-          b_ptr,        b_stride,   a_ptr,        a_stride,
+    mainloop_args.ptr_A = b_ptr;
-          b_scales_ptr, layout_SFA, a_scales_ptr, layout_SFB
+    mainloop_args.dA = b_stride;
-      };
+    mainloop_args.ptr_B = a_ptr;
-    }
+    mainloop_args.dB = a_stride;
-    else {
+    mainloop_args.ptr_SFA = b_scales_ptr;
-      return typename GemmKernel::MainloopArguments{
+    mainloop_args.ptr_SFB = a_scales_ptr;
-          a_ptr,        a_stride,   b_ptr,        b_stride,
+  } else {
-          a_scales_ptr, layout_SFA, b_scales_ptr, layout_SFB
+    mainloop_args.ptr_A = a_ptr;
-      };
+    mainloop_args.dA = a_stride;
-    }
+    mainloop_args.ptr_B = b_ptr;
-  }();
+    mainloop_args.dB = b_stride;
+    mainloop_args.ptr_SFA = a_scales_ptr;
+    mainloop_args.ptr_SFB = b_scales_ptr;
+  }
  auto prob_shape = swap_ab ? cute::make_shape(n, m, k, 1) : cute::make_shape(m, n, k, 1);
  auto c_ptr = static_cast<ElementD*>(out.data_ptr());

--- a/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm120_fp8_dispatch.cuh
+++ b/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm120_fp8_dispatch.cuh
@@ -125,6 +125,7 @@ void cutlass_gemm_caller_blockwise(torch::Tensor& out, torch::Tensor const& a,
  using ElementAB = typename Gemm::ElementAB;
  using ElementD = typename Gemm::ElementD;
+  using ElementBlockScale = typename Gemm::ElementBlockScale;
  int32_t m = a.size(0), n = b.size(1), k = a.size(1);
@@ -143,17 +144,20 @@ void cutlass_gemm_caller_blockwise(torch::Tensor& out, torch::Tensor const& a,
  LayoutSFB layout_SFB = 
      ScaleConfig::tile_atom_to_shape_SFB(make_shape(m, n, k, 1));
-  auto a_ptr = static_cast<ElementAB*>(a.data_ptr());
+  auto a_ptr = static_cast<ElementAB const*>(a.data_ptr());
-  auto b_ptr = static_cast<ElementAB*>(b.data_ptr());
+  auto b_ptr = static_cast<ElementAB const*>(b.data_ptr());
-  auto a_scales_ptr = static_cast<float*>(a_scales.data_ptr());
+  auto a_scales_ptr = static_cast<ElementBlockScale const*>(a_scales.data_ptr());
-  auto b_scales_ptr = static_cast<float*>(b_scales.data_ptr());
+  auto b_scales_ptr = static_cast<ElementBlockScale const*>(b_scales.data_ptr());
-  auto mainloop_args = [&](){
+  typename GemmKernel::MainloopArguments mainloop_args{};
-    return typename GemmKernel::MainloopArguments{
+  mainloop_args.ptr_A = a_ptr;
-        a_ptr,        a_stride,   b_ptr,        b_stride,
+  mainloop_args.dA = a_stride;
-        a_scales_ptr, layout_SFA, b_scales_ptr, layout_SFB
+  mainloop_args.ptr_B = b_ptr;
-    };
+  mainloop_args.dB = b_stride;
-  }();
+  mainloop_args.ptr_SFA = a_scales_ptr;
+  mainloop_args.layout_SFA = layout_SFA;
+  mainloop_args.ptr_SFB = b_scales_ptr;
+  mainloop_args.layout_SFB = layout_SFB;
  auto prob_shape = cute::make_shape(m, n, k, 1);
  auto c_ptr = static_cast<ElementD*>(out.data_ptr());

--- a/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm90_fp8_dispatch.cuh
+++ b/csrc/quantization/cutlass_w8a8/c3x/scaled_mm_blockwise_sm90_fp8_dispatch.cuh
@@ -115,6 +115,7 @@ void cutlass_gemm_caller_blockwise(torch::Tensor& out, torch::Tensor const& a,
  using ElementAB = typename Gemm::ElementAB;
  using ElementD = typename Gemm::ElementD;
+  using ElementBlockScale = typename Gemm::ElementBlockScale;
  int32_t m = a.size(0), n = b.size(1), k = a.size(1);
@@ -135,17 +136,20 @@ void cutlass_gemm_caller_blockwise(torch::Tensor& out, torch::Tensor const& a,
  LayoutSFB layout_SFB = 
      ScaleConfig::tile_atom_to_shape_SFB(make_shape(m, n, k, 1));
-  auto a_ptr = static_cast<ElementAB*>(a.data_ptr());
+  auto a_ptr = static_cast<ElementAB const*>(a.data_ptr());
-  auto b_ptr = static_cast<ElementAB*>(b.data_ptr());
+  auto b_ptr = static_cast<ElementAB const*>(b.data_ptr());
-  auto a_scales_ptr = static_cast<float*>(a_scales.data_ptr());
+  auto a_scales_ptr = static_cast<ElementBlockScale const*>(a_scales.data_ptr());
-  auto b_scales_ptr = static_cast<float*>(b_scales.data_ptr());
+  auto b_scales_ptr = static_cast<ElementBlockScale const*>(b_scales.data_ptr());
-  auto mainloop_args = [&](){
+  typename GemmKernel::MainloopArguments mainloop_args{};
-    return typename GemmKernel::MainloopArguments{
+  mainloop_args.ptr_A = a_ptr;
-        a_ptr,        a_stride,   b_ptr,        b_stride,
+  mainloop_args.dA = a_stride;
-        a_scales_ptr, layout_SFA, b_scales_ptr, layout_SFB
+  mainloop_args.ptr_B = b_ptr;
-    };
+  mainloop_args.dB = b_stride;
-  }();
+  mainloop_args.ptr_SFA = a_scales_ptr;
+  mainloop_args.layout_SFA = layout_SFA;
+  mainloop_args.ptr_SFB = b_scales_ptr;
+  mainloop_args.layout_SFB = layout_SFB;
  auto prob_shape = cute::make_shape(m, n, k, 1);
  auto c_ptr = static_cast<ElementD*>(out.data_ptr());