[fix]解决EP不启用mtp时某些size报错

a9b4bc74 · 王敏 · 7439b205 · a9b4bc74
Commit a9b4bc74 authored Dec 25, 2025 by 王敏
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 1 deletion

vllm/v1/worker/gpu_model_runner.py vllm/v1/worker/gpu_model_runner.py +5 -1

No files found.
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -2076,10 +2076,14 @@ class GPUModelRunnerBase(LoRAModelRunnerMixin):
                num_actual_tokens = round_down(num_tokens, 1 + self.speculative_config.num_lookahead_slots)
                num_reqs = num_actual_tokens // min_tokens_per_req
        num_scheduled_tokens_list = [min_tokens_per_req] * num_reqs
+        
        if not self.ep_sp:
            num_scheduled_tokens_list[-1] += num_tokens % num_reqs
        else:
-            num_scheduled_tokens_list[-1] += num_tokens % min_tokens_per_req
+            if self.speculative_config is not None:
+                num_scheduled_tokens_list[-1] += num_tokens % min_tokens_per_req
+            else:
+                num_scheduled_tokens_list[-1] += num_tokens % num_reqs

        assert sum(num_scheduled_tokens_list) == num_tokens
        assert len(num_scheduled_tokens_list) == num_reqs