[Revert] Fix performance regression for GLM-4.7-GPTQ decode and MTP acceptance rate (#33771)

Signed-off-by: aabbccddwasd <aabbccddwasd@qq.com>

[Revert] Fix performance regression for GLM-4.7-GPTQ decode and MTP acceptance rate (#33771)
Signed-off-by: aabbccddwasd <aabbccddwasd@qq.com>
179ae7da · aabbccddwasd · GitHub · c4df59ad · 179ae7da
Unverified Commit 179ae7da authored Feb 09, 2026 by aabbccddwasd Committed by GitHub Feb 08, 2026
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 3 deletions

vllm/v1/attention/backends/flashinfer.py vllm/v1/attention/backends/flashinfer.py +1 -3

No files found.
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -919,9 +919,7 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
        # Guard access to seq_lens_cpu, which may not always be needed
        # and can be expensive to retrieve in async mode.
        needs_seq_lens_cpu = self.use_dcp or use_cascade or not is_only_trtllm_decode
-        seq_lens_cpu = (
+        seq_lens_cpu = common_attn_metadata.seq_lens_cpu if needs_seq_lens_cpu else None
-            common_attn_metadata.seq_lens.cpu() if needs_seq_lens_cpu else None
-        )
        seq_lens_np = seq_lens_cpu.numpy() if seq_lens_cpu is not None else None
        num_blocks_np = (
            (seq_lens_np + (page_size - 1)) // page_size