[MTP] Refactor mtp predictor to avoid d2h operation (#27643)

Signed-off-by: MengqingCao <cmq0113@163.com>

[MTP] Refactor mtp predictor to avoid d2h operation (#27643)
Signed-off-by: MengqingCao <cmq0113@163.com>
10042057 · Mengqing Cao · GitHub · ba33e883 · 10042057
Unverified Commit 10042057 authored Oct 31, 2025 by Mengqing Cao Committed by GitHub Oct 30, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

vllm/model_executor/models/deepseek_mtp.py vllm/model_executor/models/deepseek_mtp.py +1 -1

No files found.
--- a/vllm/model_executor/models/deepseek_mtp.py
+++ b/vllm/model_executor/models/deepseek_mtp.py
@@ -97,7 +97,7 @@ class DeepSeekMultiTokenPredictorLayer(nn.Module):
    ) -> torch.Tensor:
        assert inputs_embeds is not None
        # masking inputs at position 0, as not needed by MTP
-        inputs_embeds[positions == 0] = 0
+        inputs_embeds = torch.where(positions.unsqueeze(-1) == 0, 0, inputs_embeds)
        inputs_embeds = self.enorm(inputs_embeds)
        previous_hidden_states = self.hnorm(previous_hidden_states)