[Bug] Batch invariant: Fix flash attn MLA `RuntimeError: scheduler_metadata...

[Bug] Batch invariant: Fix flash attn MLA `RuntimeError: scheduler_metadata must have shape (metadata_size)` (#27884)

[Bug] Batch invariant: Fix flash attn MLA `RuntimeError: scheduler_metadata...
[Bug] Batch invariant: Fix flash attn MLA `RuntimeError: scheduler_metadata must have shape (metadata_size)` (#27884)
7e4be741 · Wentao Ye · GitHub · 380ba681 · 7e4be741 · 7e4be741
Unverified Commit 7e4be741 authored Nov 04, 2025 by Wentao Ye Committed by GitHub Nov 04, 2025
Showing with 5 additions and 3 deletions

vllm/model_executor/layers/batch_invariant.py vllm/model_executor/layers/batch_invariant.py +2 -0

vllm/v1/attention/backends/mla/flashattn_mla.py vllm/v1/attention/backends/mla/flashattn_mla.py +3 -3

No files found.
--- a/vllm/model_executor/layers/batch_invariant.py
+++ b/vllm/model_executor/layers/batch_invariant.py
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import contextlib
+import functools
 import os
 from collections import namedtuple
 from collections.abc import Callable
@@ -846,6 +847,7 @@ def get_batch_invariant_attention_block_size() -> AttentionBlockSize:
    return AttentionBlockSize(block_m=16, block_n=16)
+@functools.cache
 def vllm_is_batch_invariant():
    env_key = "VLLM_BATCH_INVARIANT"
    is_overridden = False

--- a/vllm/v1/attention/backends/mla/flashattn_mla.py
+++ b/vllm/v1/attention/backends/mla/flashattn_mla.py
@@ -163,6 +163,9 @@ class FlashAttnMLAMetadataBuilder(MLACommonMetadataBuilder[FlashAttnMLAMetadata]
            # we only set num_splits when using cuda graphs.
            max_num_splits = self.max_num_splits
+        if vllm_is_batch_invariant():
+            max_num_splits = 1
        scheduler_metadata = self._schedule_decode(
            num_reqs=seq_lens_cpu.numel(),
            cu_query_lens=query_start_loc_device,
@@ -188,9 +191,6 @@ class FlashAttnMLAMetadataBuilder(MLACommonMetadataBuilder[FlashAttnMLAMetadata]
            self.scheduler_metadata[n:] = 0
            scheduler_metadata = self.scheduler_metadata[:n]
-        if vllm_is_batch_invariant():
-            max_num_splits = 1
        metadata = FlashAttnMLADecodeMetadata(
            block_table=block_table_tensor,
            seq_lens=seq_lens_device,