Merge branch 'v0.9.2-dev-ds-wm-1224' into 'v0.9.2-dev-ds'

[feat]解决EP开启pd_padding大输入卡住问题 See merge request dcutoolkit/deeplearing/vllm!319

Merge branch 'v0.9.2-dev-ds-wm-1224' into 'v0.9.2-dev-ds'
[feat]解决EP开启pd_padding大输入卡住问题 See merge request dcutoolkit/deeplearing/vllm!319
066cef58 · zhuwenwen · b91ae72f · 7439b205 · 066cef58 · 066cef58
Commit 066cef58 authored Dec 25, 2025 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 4 deletions

vllm/v1/spec_decode/eagle.py vllm/v1/spec_decode/eagle.py +2 -2

vllm/zero_overhead/v1/eagle.py vllm/zero_overhead/v1/eagle.py +2 -2

No files found.
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -223,8 +223,8 @@ class EagleProposer:
        with set_forward_context(per_layer_attn_metadata,
                                 self.vllm_config,
-                                 num_tokens=num_input_tokens,
+                                 num_tokens=num_input_tokens,):
-                                 skip_cuda_graphs=not decoding):
+                                 #skip_cuda_graphs=not decoding):
            ret_hidden_states = self.model(
                self.input_ids[:num_input_tokens],
                self.positions[:num_input_tokens],

--- a/vllm/zero_overhead/v1/eagle.py
+++ b/vllm/zero_overhead/v1/eagle.py
@@ -146,8 +146,8 @@ class V1ZeroEagleProposer(EagleProposer):
        with set_forward_context(per_layer_attn_metadata,
                                 self.vllm_config,
-                                 num_tokens=num_input_tokens,
+                                 num_tokens=num_input_tokens,):
-                                 skip_cuda_graphs=not decoding):
+                                 #skip_cuda_graphs=not decoding):
            ret_hidden_states = self.model(
                self.input_ids[:num_input_tokens],
                self.positions[:num_input_tokens],