Represent query_length in a different way to solve jit issue (#25164)

Fix jit trace

Represent query_length in a different way to solve jit issue (#25164)
Fix jit trace
d23d2c27 · jiqing-feng · GitHub · 2a787201 · d23d2c27
Unverified Commit d23d2c27 authored Jul 28, 2023 by jiqing-feng Committed by GitHub Jul 28, 2023
Show whitespace changes
Inline Side-by-side

Showing with 1 addition and 3 deletions

src/transformers/models/mpt/modeling_mpt.py src/transformers/models/mpt/modeling_mpt.py +1 -3

No files found.
--- a/src/transformers/models/mpt/modeling_mpt.py
+++ b/src/transformers/models/mpt/modeling_mpt.py
@@ -154,9 +154,7 @@ class MptAttention(nn.Module):
        attention_scores = torch.matmul(query_states, key_states.transpose(-1, -2)) * self.softmax_scale
-        query_length = seq_length
+        query_length = seq_length if past_key_value is None else seq_length + past_key_value[0].shape[2]
-        if past_key_value is not None:
-            query_length += past_key_value[0].shape[2]
        if position_bias is not None:
            if len(position_bias.shape) != 3: