[Bugfix][Model] OLMo 2: split qkv correctly for GQA and MQA (#13687)

9a1f1da5 · Shane A · GitHub · 68d630a0 · 9a1f1da5
Unverified Commit 9a1f1da5 authored Feb 21, 2025 by Shane A Committed by GitHub Feb 21, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

vllm/model_executor/models/olmo2.py vllm/model_executor/models/olmo2.py +1 -1

No files found.
--- a/vllm/model_executor/models/olmo2.py
+++ b/vllm/model_executor/models/olmo2.py
@@ -157,7 +157,7 @@ class Olmo2Attention(nn.Module):
        attn_metadata: AttentionMetadata,
    ) -> torch.Tensor:
        qkv, _ = self.qkv_proj(hidden_states)
-        q, k, v = qkv.chunk(chunks=3, dim=-1)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
        q, k = self._apply_qk_norm(q, k)
        q, k = self.rotary_emb(positions, q, k)
        attn_output = self.attn(q, k, v, kv_cache, attn_metadata)