[Quantization] enable compressed-tensors marlin support for turing (2) (#31008)

Signed-off-by: Jinzhen Lin <jinzhen.ljz@antgroup.com>

[Quantization] enable compressed-tensors marlin support for turing (2) (#31008)
Signed-off-by: Jinzhen Lin <jinzhen.ljz@antgroup.com>
9187de9f · Jinzhen Lin · GitHub · ac1c9342 · 9187de9f · 9187de9f
Unverified Commit 9187de9f authored Dec 19, 2025 by Jinzhen Lin Committed by GitHub Dec 19, 2025
3 changed files
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils.py
@@ -48,7 +48,7 @@ def query_marlin_supported_quant_types(
            -1 if capability_tuple is None else capability_tuple.to_int()
        )

-    if device_capability < 80:
+    if device_capability < 75:
        return []

    # - has_zp is True: return quant_types that has zero points

--- a/vllm/model_executor/layers/quantization/utils/marlin_utils_fp4.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils_fp4.py
@@ -23,7 +23,7 @@ logger = init_logger(__name__)


 def is_fp4_marlin_supported():
-    return current_platform.has_device_capability(80)
+    return current_platform.has_device_capability(75)


 def nvfp4_marlin_process_scales(marlin_scales):

--- a/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils_fp8.py
@@ -22,7 +22,7 @@ logger = init_logger(__name__)


 def is_fp8_marlin_supported():
-    return current_platform.has_device_capability(80)
+    return current_platform.has_device_capability(75)


 def fp8_fused_exponent_bias_into_scales(scales):