[Bugfix][Spec Decode] Fix wrong valid_mask for padded speculation when chunked...

[Bugfix][Spec Decode] Fix wrong valid_mask for padded speculation when chunked prefill occurs (#26231) Signed-off-by: seven-mile <i@7li.moe> Signed-off-by: Benjamin Chislett <bchislett@nvidia.com> Co-authored-by: Benjamin Chislett <bchislett@nvidia.com>

[Bugfix][Spec Decode] Fix wrong valid_mask for padded speculation when chunked...
[Bugfix][Spec Decode] Fix wrong valid_mask for padded speculation when chunked prefill occurs (#26231) Signed-off-by: seven-mile <i@7li.moe> Signed-off-by: Benjamin Chislett <bchislett@nvidia.com> Co-authored-by: Benjamin Chislett <bchislett@nvidia.com>
b2ea5ba6 · 7mile · GitHub · 824a3f40 · b2ea5ba6
Unverified Commit b2ea5ba6 authored Oct 07, 2025 by 7mile Committed by GitHub Oct 06, 2025
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 7 deletions

vllm/v1/spec_decode/eagle.py vllm/v1/spec_decode/eagle.py +3 -7

No files found.
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -522,10 +522,6 @@ class EagleProposer:
        )

        # Generate a mask for all valid tokens within those requests
-        max_gen_len = sampled_token_ids.shape[-1]
-        if max_gen_len == 1:
-            valid_mask = torch.ones_like(valid_sampled_token_ids_gpu, dtype=torch.bool)
-        else:
        valid_mask = (valid_sampled_token_ids_gpu != -1) & (
            valid_sampled_token_ids_gpu < gpu_input_batch.vocab_size
        )