issue/29 - fixing tensor length mismatches across requests

9038f7ab · wooway777 · c41055b5 · 9038f7ab
Commit 9038f7ab authored Aug 20, 2025 by wooway777
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 4 deletions

src/models/jiuge/jiuge.cpp src/models/jiuge/jiuge.cpp +4 -4

No files found.
--- a/src/models/jiuge/jiuge.cpp
+++ b/src/models/jiuge/jiuge.cpp
@@ -217,17 +217,17 @@ void inferDeviceBatch(const JiugeMeta &meta, DeviceResource &rsrc,
            rearrange(kv_caches[req]->k[idev][layer]->slice(0, past_len, seq_len), k);
            rearrange(kv_caches[req]->v[idev][layer]->slice(0, past_len, seq_len), v);
            // qk
-            rearrange(q_rearrange, q);
+            rearrange(q_rearrange->slice(2, 0, seq_len), q);
            auto qk_gemm = qk_buf->view({nkvh, ngroup * seq_len, total_len});
            auto k_gemm = kv_caches[req]->k[idev][layer]->slice(0, 0, total_len)->permute({1, 2, 0});
-            linear(qk_gemm, rearrange_q_buf, k_gemm, 1.f / float(sqrt(dh)), 0.f, nullptr, nullptr);
+            linear(qk_gemm, rearrange_q_buf->slice(1, 0, ngroup * seq_len), k_gemm, 1.f / float(sqrt(dh)), 0.f, nullptr, nullptr);
            // softmax
            auto qk_softmax = qk_buf->view({nh, seq_len, total_len});
            causalSoftmax(qk_softmax, qk_softmax);
            auto v_gemm = kv_caches[req]->v[idev][layer]->slice(0, 0, total_len)->permute({1, 0, 2});
-            linear(attn_val_buf, qk_gemm, v_gemm, 1.f, 0.f, nullptr, nullptr);
+            linear(attn_val_buf->slice(1, 0, ngroup * seq_len), qk_gemm, v_gemm, 1.f, 0.f, nullptr, nullptr);
            // rearrange attn val
-            rearrange(o, attn_val_gemm);
+            rearrange(o, attn_val_gemm->slice(2, 0, seq_len));
            token_offset += seq_len;
        }