[Bugfix] Fix KDA output (#27905)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>

[Bugfix] Fix KDA output (#27905)
Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
3a5de7d2 · Jee Jee Li · GitHub · bc4486d6 · 3a5de7d2
Unverified Commit 3a5de7d2 authored Nov 01, 2025 by Jee Jee Li Committed by GitHub Nov 01, 2025
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 3 deletions

vllm/model_executor/layers/kda.py vllm/model_executor/layers/kda.py +2 -3

No files found.
--- a/vllm/model_executor/layers/kda.py
+++ b/vllm/model_executor/layers/kda.py
@@ -259,7 +259,7 @@ class KimiDeltaAttention(nn.Module, MambaBase):
        hidden_states: torch.Tensor,
        positions: torch.Tensor,
        output: torch.Tensor,
-    ) -> torch.Tensor:
+    ) -> None:
        num_tokens = hidden_states.size(0)
        q = self.q_proj(hidden_states)[0]
        k = self.k_proj(hidden_states)[0]
@@ -291,8 +291,7 @@ class KimiDeltaAttention(nn.Module, MambaBase):
        )
        core_attn_out = self.o_norm(core_attn_out, g2)
        core_attn_out = rearrange(core_attn_out, "1 n h d -> n (h d)")
-
-        return self.o_proj(core_attn_out)[0]
+        output[:] = self.o_proj(core_attn_out)[0]

    def _forward(
        self,