Merge branch 'v0.9.2-dev-fix-zero' into 'v0.9.2-dev'

fix: zero overhead KERNEL VMFault See merge request dcutoolkit/deeplearing/vllm!446

Merge branch 'v0.9.2-dev-fix-zero' into 'v0.9.2-dev'
fix: zero overhead KERNEL VMFault See merge request dcutoolkit/deeplearing/vllm!446
7e0cdd29 · zhuwenwen · fa3bae2e · 808a9ed9 · 7e0cdd29
Commit 7e0cdd29 authored Feb 27, 2026 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 2 deletions

vllm/zero_overhead/v1/eagle.py vllm/zero_overhead/v1/eagle.py +3 -2

No files found.
--- a/vllm/zero_overhead/v1/eagle.py
+++ b/vllm/zero_overhead/v1/eagle.py
@@ -154,10 +154,11 @@ class V1ZeroEagleProposer(EagleProposer):
                    self.attn_metadata_cudagraph.decode.seq_lens[:attn_metadata.num_decode_tokens] = (
                        attn_metadata.decode.seq_lens)
+        use_ep = self.vllm_config.parallel_config.enable_expert_parallel
        with set_forward_context(per_layer_attn_metadata,
                                 self.vllm_config,
-                                 num_tokens=num_input_tokens,):
+                                 num_tokens=num_input_tokens,
-                                 #skip_cuda_graphs=not decoding):
+                                 skip_cuda_graphs= not (decoding or use_ep)):
            ret_hidden_states = self.model(
                self.input_ids[:num_input_tokens],
                self.positions[:num_input_tokens],