update paged_mqa_logits

d89f7579 · zhuwenwen · 30399801 · d89f7579 · d89f7579
Commit d89f7579 authored Dec 20, 2025 by zhuwenwen
Showing with 4 additions and 2 deletions

vllm/model_executor/models/deepseek_v2.py vllm/model_executor/models/deepseek_v2.py +3 -1

vllm/v1/attention/backends/mla/indexer.py vllm/v1/attention/backends/mla/indexer.py +1 -1

No files found.
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -691,6 +691,8 @@ def sparse_attn_indexer(
                max_model_len=max_model_len,
            )
        else:
+            padded_q_fp8_decode_tokens = padded_q_fp8_decode_tokens.half
+            kv_cache = kv_cache.half
            logits = gemmopt.paged_mqa_logits(
                padded_q_fp8_decode_tokens,
                kv_cache,
@@ -698,7 +700,7 @@ def sparse_attn_indexer(
                decode_metadata.seq_lens,
                decode_metadata.block_table,
                decode_metadata.schedule_metadata,
-                max_model_len=max_model_len,
+                max_context_len=max_model_len,
            )
        # padded query len
        current_device = padded_q_fp8_decode_tokens.device

--- a/vllm/v1/attention/backends/mla/indexer.py
+++ b/vllm/v1/attention/backends/mla/indexer.py
@@ -312,7 +312,7 @@ class DeepseekV32IndexerMetadataBuilder(AttentionMetadataBuilder):
            seq_lens = common_attn_metadata.seq_lens[:num_decodes]
            if current_platform.is_rocm():
-                self.scheduler_metadata_buffer[:] = gemmopt.get_paged_mqa_logits_metadata(
+                self.scheduler_metadata_buffer = gemmopt.get_paged_mqa_logits_metadata(
                    seq_lens, self.kv_cache_spec.block_size, self.num_sms)
            else:
                self.scheduler_metadata_buffer[:] = get_paged_mqa_logits_metadata(