Fix AWQ MoE marlin check issue in marlin_utils.py for AMD backend (#30102)

Signed-off-by: yuttian1 <yuttian@amd.com>

Fix AWQ MoE marlin check issue in marlin_utils.py for AMD backend (#30102)
Signed-off-by: yuttian1 <yuttian@amd.com>
c4d62618 · yuttian1 · GitHub · 62079d86 · c4d62618
Unverified Commit c4d62618 authored Dec 06, 2025 by yuttian1 Committed by GitHub Dec 05, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 0 deletions

vllm/model_executor/layers/quantization/utils/marlin_utils.py .../model_executor/layers/quantization/utils/marlin_utils.py +4 -0

No files found.
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils.py
@@ -179,6 +179,8 @@ def check_marlin_supports_shape(
 def check_marlin_supports_layer(layer: LinearBase, group_size: int) -> bool:
+    if current_platform.is_rocm():
+        return False
    output_size_per_partition = (
        getattr(layer, "output_size_per_partition", None) or layer.output_size
    )
@@ -195,6 +197,8 @@ def check_marlin_supports_layer(layer: LinearBase, group_size: int) -> bool:
 def check_moe_marlin_supports_layer(layer: LinearBase, group_size: int) -> bool:
+    if current_platform.is_rocm():
+        return False
    hidden_size = layer.hidden_size
    intermediate_size_per_partition = layer.intermediate_size_per_partition
    # apply_router_weight_on_input is not supported for moe marlin