[feat]低延迟模式采用int8 dispatch

ce41e45b · 王敏 · fd894e48 · ce41e45b · ce41e45b
Commit ce41e45b authored Dec 23, 2025 by 王敏
2 changed files
--- a/vllm/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py
+++ b/vllm/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py
@@ -185,7 +185,10 @@ class DeepEPLLPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
        a1_dtype: torch.dtype,
        quant_config: FusedMoEQuantConfig,
    ) -> mk.PrepareResultType:
-        expert_x, expert_x_scale = self._do_quant(expert_x, a1_scale, a1_dtype, quant_config, expert_num_tokens)
+        if not self.use_int8_dispatch:
+            expert_x, expert_x_scale = self._do_quant(expert_x, a1_scale, a1_dtype, quant_config, expert_num_tokens)
+        else:
+            expert_x, expert_x_scale = expert_x
        expert_tokens_meta = mk.ExpertTokensMetadata(
            expert_num_tokens=expert_num_tokens, expert_num_tokens_cpu=None

--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -171,7 +171,7 @@ class FusedMoEMethodBase(QuantizeMethodBase):
                                and moe.quant_config.block_shape
                                == DEEPEP_QUANT_BLOCK_SHAPE)
-            use_int8_dispatch = False#moe.quant_config.quant_dtype == torch.int8
+            use_int8_dispatch = moe.quant_config.quant_dtype == torch.int8
            # Note (varun): Whether to use FP8 dispatch or not needs some
            # profiling. Turning it off for now.