Revert "[feat]优化mtp相关函数返回类型"

This reverts commit edc45625.

Revert "[feat]优化mtp相关函数返回类型"
This reverts commit edc45625.
c34fa0bf · zhuwenwen · edc45625 · c34fa0bf · c34fa0bf
Commit c34fa0bf authored Aug 06, 2025 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 4 deletions

vllm/v1/spec_decode/eagle.py vllm/v1/spec_decode/eagle.py +2 -2

vllm/v1/worker/gpu_model_runner.py vllm/v1/worker/gpu_model_runner.py +1 -2

No files found.
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -98,7 +98,7 @@ class EagleProposer:
        next_token_ids: torch.Tensor,
        common_attn_metadata: CommonAttentionMetadata,
        sampling_metadata: SamplingMetadata,
-    ) -> tuple[torch.Tensor, torch.Tensor]:
+    ) -> torch.Tensor:
        num_tokens = target_token_ids.shape[0]
        batch_size = next_token_ids.shape[0]
        last_token_indices = common_attn_metadata.query_start_loc[1:] - 1
@@ -194,7 +194,7 @@ class EagleProposer:
        # Early exit if there is only one draft token to be generated.
        if self.num_speculative_tokens == 1:
            # [batch_size, 1]
-            return draft_token_ids.view(-1, 1), draft_prob.view(-1, 1, draft_prob.shape[-1])
+            return draft_token_ids.view(-1, 1), draft_probs_list
        # TODO: Currently, MTP module released by deepseek only has
        # one layer. Adapt this code to support multiple layers once

--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1687,8 +1687,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
        aux_hidden_states: Optional[torch.Tensor],
        spec_decode_metadata: Optional[SpecDecodeMetadata],
        common_attn_metadata: CommonAttentionMetadata,
-    ) -> tuple[list[list[int]], torch.Tensor]:
+    ) -> list[list[int]]:
-        draft_probs = None
        num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
        if self.speculative_config.method == "ngram":
            assert isinstance(self.drafter, NgramProposer)