Merge branch 'v0.9.2-dev-zero-mtp' into 'v0.9.2-dev'

feat: pp mtp加入零消耗调度，加入环境变量VLLM_USE_ZERO_MTP，默认打开 See merge request dcutoolkit/deeplearing/vllm!264

Merge branch 'v0.9.2-dev-zero-mtp' into 'v0.9.2-dev'
feat: pp mtp加入零消耗调度，加入环境变量VLLM_USE_ZERO_MTP，默认打开 See merge request dcutoolkit/deeplearing/vllm!264
ce755d66 · zhuwenwen · d126ce21 · c50f084a · ce755d66 · ce755d66
Commit ce755d66 authored Nov 21, 2025 by zhuwenwen
Expand all Show whitespace changes
Inline Side-by-side

Showing with 659 additions and 9 deletions

vllm/envs.py vllm/envs.py +13 -8

vllm/v1/worker/gpu_model_runner.py vllm/v1/worker/gpu_model_runner.py +646 -1

No files found.
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -182,6 +182,7 @@ if TYPE_CHECKING:
    VLLM_USE_LIGHTOP_FILL_MOE_ALIGN: bool = False
    USE_FUSED_CUSTOM_ALL_REDUCE_RMS_QUANT: bool = False
    VLLM_USE_PP_BALANCE: bool = False
+    VLLM_USE_ZERO_MTP: bool = False
    VLLM_USE_CUDA_GRAPH_SIZES: bool = False
 def get_default_cache_root():
@@ -1186,6 +1187,10 @@ environment_variables: dict[str, Callable[[], Any]] = {
        lambda: (os.getenv('VLLM_USE_PP_BALANCE', '1').lower() in
                 ("true", "1")),
+    "VLLM_USE_ZERO_MTP":
+        lambda: (os.getenv('VLLM_USE_ZERO_MTP', '1').lower() in
+                 ("true", "1")),
    # vllm will use 1-18... (not only 1 2 4 8 16)
    "VLLM_USE_CUDA_GRAPH_SIZES":
        lambda: (os.getenv('VLLM_USE_CUDA_GRAPH_SIZES', 'False').lower() in

--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py