增加w4a8marlin-ds的moe融合算子输入

26c82c27 · SAC_fanth · 29ee4475 · 26c82c27
Commit 26c82c27 authored Sep 20, 2025 by SAC_fanth
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 0 deletions

vllm/model_executor/layers/quantization/slimquant_w4a8_marlin.py ...del_executor/layers/quantization/slimquant_w4a8_marlin.py +3 -0

No files found.
--- a/vllm/model_executor/layers/quantization/slimquant_w4a8_marlin.py
+++ b/vllm/model_executor/layers/quantization/slimquant_w4a8_marlin.py
@@ -230,6 +230,7 @@ class SlimQuantW4A8Int8MarlinMoEMethod:
        use_nn_moe: Optional[bool] = False,
        routed_scaling_factor: Optional[float] = None,
        use_fused_gate: Optional[bool] = False,
+        shared_output: Optional[torch.Tensor] = None,
        **_  
    ) -> torch.Tensor:
        from vllm.model_executor.layers.fused_moe import fused_experts
@@ -272,4 +273,6 @@ class SlimQuantW4A8Int8MarlinMoEMethod:
            a1_scale=layer.w13_input_scale,
            a2_scale=layer.w2_input_scale,
            use_nn_moe=use_nn_moe,
+            shared_output=shared_output,
+            routed_scaling_factor=routed_scaling_factor,
        )