[fix]修复v1 mtp接受率低的问题

04b61f0e · 王敏 · dea49b15 · 04b61f0e · 04b61f0e · 04b61f0e
Commit 04b61f0e authored Aug 10, 2025 by 王敏
3 changed files
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -546,6 +546,9 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
        device = self.runner.device
        block_table = self.block_table
        block_table_tensor = block_table.get_device_tensor()[:num_reqs]
+        slot_mapping = common_attn_metadata.slot_mapping
+        if slot_mapping is None:
            block_table.slot_mapping[:num_actual_tokens].copy_(
                block_table.slot_mapping_cpu[:num_actual_tokens],
                non_blocking=True)

--- a/vllm/v1/attention/backends/utils.py
+++ b/vllm/v1/attention/backends/utils.py
@@ -45,6 +45,8 @@ class CommonAttentionMetadata:
    """(batch_size,), record the rejected tokens number in cpu and gpu"""
    num_speculative_tokens: int = 0
    """Number of speculative tokens"""
+    slot_mapping: torch.Tensor = None
+    """(batch_size, seq_len), slot mapping"""
 M = TypeVar("M")

--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -159,6 +159,7 @@ class EagleProposer:
                num_actual_tokens=num_tokens,
                max_query_len=max_query_len,
                num_rejected_tokens=num_rejected_tokens,
+                slot_mapping=target_slot_mapping
            )
            assert self.runner is not None