[Perf] Set split_k to 1 for triton_kernels (#30528)

Signed-off-by: Xin Yang <xyangx@amazon.com>

[Perf] Set split_k to 1 for triton_kernels (#30528)
Signed-off-by: Xin Yang <xyangx@amazon.com>
1f19d8f8 · Xin Yang · GitHub · cd7740ac · 1f19d8f8
Unverified Commit 1f19d8f8 authored Dec 12, 2025 by Xin Yang Committed by GitHub Dec 12, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 12 additions and 6 deletions

vllm/model_executor/layers/quantization/utils/mxfp4_utils.py vllm/model_executor/layers/quantization/utils/mxfp4_utils.py +12 -6

No files found.
--- a/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py
@@ -57,12 +57,18 @@ def _swizzle_mxfp4(quant_tensor, scale, num_warps):
                mx_axis=1, num_warps=num_warps
            )
        )
-    if current_platform.is_cuda() and current_platform.is_device_capability(100):
+    if current_platform.is_cuda():
-        constraints = {
+        if current_platform.is_device_capability(90):
-            "is_persistent": True,
+            constraints = {
-            "epilogue_subtile": 1,
+                "split_k": 1,
-        }
+            }
-        opt_flags.update_opt_flags_constraints(constraints)
+            opt_flags.update_opt_flags_constraints(constraints)
+        elif current_platform.is_device_capability(100):
+            constraints = {
+                "is_persistent": True,
+                "epilogue_subtile": 1,
+            }
+            opt_flags.update_opt_flags_constraints(constraints)
    # transpose the tensor so that the quantization axis is on dim1
    quant_tensor = quant_tensor.transpose(-2, -1)
    scale = scale.transpose(-2, -1)