Merge branch 'v0.9.2-dev' into 'v0.9.2-dev-add_connector'

# Conflicts: # vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_engine.py

Merge branch 'v0.9.2-dev' into 'v0.9.2-dev-add_connector'
# Conflicts: # vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_engine.py
02689420 · xuxz · ef362942 · fa683b07 · 02689420
Commit 02689420 authored Feb 05, 2026 by xuxz
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 1 deletion

vllm/zero_overhead/v1/gpu_model_runner.py vllm/zero_overhead/v1/gpu_model_runner.py +2 -1

No files found.
--- a/vllm/zero_overhead/v1/gpu_model_runner.py
+++ b/vllm/zero_overhead/v1/gpu_model_runner.py
@@ -465,7 +465,7 @@ class V1ZeroModelRunner(GPUModelRunner):
        num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
        # make sure that the padded length is divisible by attn_tp_size because we may need reduce-scatter across attn_tp dim.
-        if self.ep_sp:
+        if self.ep_sp or self.enable_dp_attention:
            num_input_tokens = round_up(num_scheduled_tokens, tp_size)
            if (self.use_cuda_graph
                    and num_input_tokens <= self.cudagraph_batch_sizes[-1]):
@@ -796,6 +796,7 @@ class V1ZeroModelRunner(GPUModelRunner):
                        req_state = self.requests[req_id]
                        token_idx = self.last_sampled_token_lens[req_idx]
                        if token_idx == -1:
+                            self.fix_sampled_token_ids[req_idx].clear()
                            continue
                        fix_len = len(self.fix_sampled_token_ids[req_idx])
                        req_state.output_token_ids[token_idx:token_idx + fix_len] = self.fix_sampled_token_ids[req_idx]