Make sliding window size inclusive in eager attention (#29519)

* Make sliding window size inclusive in eager attention * Fix tests

Make sliding window size inclusive in eager attention (#29519)
* Make sliding window size inclusive in eager attention * Fix tests
608fa549 · Jonatan Kłosko · GitHub · f386c51a · 608fa549 · 608fa549
Unverified Commit 608fa549 authored Mar 08, 2024 by Jonatan Kłosko Committed by GitHub Mar 08, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 4 deletions

src/transformers/modeling_attn_mask_utils.py src/transformers/modeling_attn_mask_utils.py +3 -3

tests/test_modeling_utils.py tests/test_modeling_utils.py +1 -1

No files found.
--- a/src/transformers/modeling_attn_mask_utils.py
+++ b/src/transformers/modeling_attn_mask_utils.py
@@ -164,10 +164,10 @@ class AttentionMaskConverter:

        # add lower triangular sliding window mask if necessary
        if sliding_window is not None:
-            diagonal = past_key_values_length - sliding_window + 1
+            diagonal = past_key_values_length - sliding_window - 1

-            context_mask = 1 - torch.triu(torch.ones_like(mask, dtype=torch.int), diagonal=diagonal)
-            mask.masked_fill_(context_mask.bool(), torch.finfo(dtype).min)
+            context_mask = torch.tril(torch.ones_like(mask, dtype=torch.bool), diagonal=diagonal)
+            mask.masked_fill_(context_mask, torch.finfo(dtype).min)

        return mask[None, None, :, :].expand(bsz, 1, tgt_len, tgt_len + past_key_values_length)


--- a/tests/test_modeling_utils.py
+++ b/tests/test_modeling_utils.py
@@ -1673,7 +1673,7 @@ class AttentionMaskTester(unittest.TestCase):
    def compute_num_context_mask(self, kv_len, context, q_len):
        # This function computes the # of attention tokens that are added for
        # the sliding window
-        c_mask_len = kv_len - context
+        c_mask_len = kv_len - context - 1
        num_mask_triangle = c_mask_len * (c_mask_len + 1) // 2
        cut_mask_len = max(c_mask_len - q_len, 0)
        num_cut_mask = cut_mask_len * (cut_mask_len + 1) // 2