[feat]支持mtp模型full_cuda_graph

a1239b53 · 王敏 · 7d4f5027 · a1239b53 · a1239b53 · a1239b53
Commit a1239b53 authored Aug 07, 2025 by 王敏
3 changed files
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -647,13 +647,13 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
                rarange = np.repeat(query_lens, query_lens) - arange - 1
                repeats = torch.from_numpy(query_lens).pin_memory().to(
-                    block_table_tensor.device, non_blocking=True)
+                    block_table_tensor.device, non_blocking=True).contiguous()
                decode_block_table_tensor = torch.repeat_interleave(
                    block_table_tensor[:self._num_decodes, ...],
-                    repeats, dim=0)
+                    repeats, dim=0).contiguous()
-                decode_seq_lens = torch.repeat_interleave(seq_lens[:self._num_decodes], repeats, dim=0)
+                decode_seq_lens = torch.repeat_interleave(seq_lens[:self._num_decodes], repeats, dim=0).contiguous()
                seq_lens_minus = torch.from_numpy(rarange).to(torch.int32).pin_memory().to(
-                    seq_lens.device, non_blocking=True)
+                    seq_lens.device, non_blocking=True).contiguous()
                decode_seq_lens = decode_seq_lens - seq_lens_minus
                if self.spec_decode_block_table_tensor is not None:

--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -269,7 +269,7 @@ class EagleProposer:
            block_table = self.runner.attn_metadata_builders[0].block_table.get_device_tensor()[:batch_size, ...]
            attn_metadata.decode = self.runner.attn_metadata_builders[0]._build_decode(
                block_table_tensor=block_table,
-                seq_lens=(seq_lens + 1),
+                seq_lens=seq_lens,
            )
        for i in range(self.num_speculative_tokens - 1):

--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1548,8 +1548,6 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                attn_metadata,
            )
-            spec_token_ids = spec_token_ids.tolist()
        # Clear KVConnector state after all KVs are generated.
        if has_kv_transfer_group():
            get_kv_transfer_group().clear_connector_metadata()