[fix]修复不开mtp精度异常问题

a363d2c3 · zhuwenwen · 7ff48a6c · a363d2c3 · a363d2c3
Commit a363d2c3 authored Nov 26, 2025 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 3 deletions

vllm/envs.py vllm/envs.py +1 -1

vllm/v1/worker/gpu_model_runner.py vllm/v1/worker/gpu_model_runner.py +2 -2

No files found.
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -1188,7 +1188,7 @@ environment_variables: dict[str, Callable[[], Any]] = {
                 ("true", "1")),

    "VLLM_USE_ZERO_MTP":
-        lambda: (os.getenv('VLLM_USE_ZERO_MTP', '0').lower() in
+        lambda: (os.getenv('VLLM_USE_ZERO_MTP', '1').lower() in
                 ("true", "1")),

    # vllm will use 1-24... (not only 1 2 4 8 16 24)

--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -3315,11 +3315,11 @@ class GPUModelRunnerMTP(GPUModelRunnerBase):
        # Get the valid generated tokens.
        sampled_token_ids = sampler_output.sampled_token_ids
        max_gen_len = sampled_token_ids.shape[-1]
-        sampled_token_ids_cpu = sampled_token_ids.to('cpu', non_blocking=True)
        if not self.speculative_config:
            # Speculative decoding is not enabled.
            spec_token_ids = None
        else:
+            sampled_token_ids_cpu = sampled_token_ids.to('cpu', non_blocking=True)
            self.spec_sampler_event.record()
            mask = (sampled_token_ids == -1)
            mask_int = mask.int()
@@ -3338,7 +3338,7 @@ class GPUModelRunnerMTP(GPUModelRunnerBase):
            )
        if max_gen_len == 1:
            # No spec decode tokens.
-            valid_sampled_token_ids = sampled_token_ids_cpu.tolist()
+            valid_sampled_token_ids = sampled_token_ids.tolist()
        else:
            # Includes spec decode tokens.
            self.spec_sampler_event.synchronize()