[feat]w8a8高吞吐模式先做量化在做dispatch

a13dd086 · 王敏 · 62f05dde · a13dd086
Commit a13dd086 authored Dec 22, 2025 by 王敏
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 1 deletion

vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe_marlin.py ...ation/compressed_tensors/compressed_tensors_moe_marlin.py +2 -1

No files found.
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe_marlin.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe_marlin.py
@@ -527,6 +527,7 @@ class CompressedTensorsW8A8Int8MarlinMoEMethod(CompressedTensorsMarlinMoEMethod)
                False)
            
            return TritonOrGroupGemmExperts(
-                use_int8_w8a8=envs.VLLM_ENABLE_DEEPEP_HT_DEEPGEMM,
+                use_int8_w8a8=True,
+                per_act_token_quant=True,
                fused_experts=self.w8a8_groupgemm_contiguous_forward if envs.VLLM_ENABLE_DEEPEP_HT_DEEPGEMM else self.fused_moe_forward
            )