Revert "Error (also in original) model, scaling only q matrix not qk.T dot...

Revert "Error (also in original) model, scaling only q matrix not qk.T dot product (qk.T/sqrt(dim_per_head))" (#22444) Revert "Error (also in original) model, scaling only q matrix not qk.T dot product (qk.T/sqrt(dim_per_head)) (#21627)" This reverts commit bad83008.

Revert "Error (also in original) model, scaling only q matrix not qk.T dot...
Revert "Error (also in original) model, scaling only q matrix not qk.T dot product (qk.T/sqrt(dim_per_head))" (#22444) Revert "Error (also in original) model, scaling only q matrix not qk.T dot product (qk.T/sqrt(dim_per_head)) (#21627)" This reverts commit bad83008.
55dae94c · Sylvain Gugger · GitHub · 8894b817 · 55dae94c · 55dae94c
Unverified Commit 55dae94c authored Mar 29, 2023 by Sylvain Gugger Committed by GitHub Mar 29, 2023
Showing with 4 additions and 2 deletions

src/transformers/models/flaubert/modeling_flaubert.py src/transformers/models/flaubert/modeling_flaubert.py +2 -1

src/transformers/models/xlm/modeling_xlm.py src/transformers/models/xlm/modeling_xlm.py +2 -1

No files found.
--- a/src/transformers/models/flaubert/modeling_flaubert.py
+++ b/src/transformers/models/flaubert/modeling_flaubert.py
@@ -172,7 +172,8 @@ class MultiHeadAttention(nn.Module):
                    k, v = cache[self.layer_id]
            cache[self.layer_id] = (k, v)
-        scores = torch.matmul(q, k.transpose(2, 3)) / math.sqrt(dim_per_head)  # (bs, n_heads, qlen, klen)
+        q = q / math.sqrt(dim_per_head)  # (bs, n_heads, qlen, dim_per_head)
+        scores = torch.matmul(q, k.transpose(2, 3))  # (bs, n_heads, qlen, klen)
        mask = (mask == 0).view(mask_reshape).expand_as(scores)  # (bs, n_heads, qlen, klen)
        scores.masked_fill_(mask, torch.finfo(scores.dtype).min)  # (bs, n_heads, qlen, klen)

--- a/src/transformers/models/xlm/modeling_xlm.py
+++ b/src/transformers/models/xlm/modeling_xlm.py
@@ -176,7 +176,8 @@ class MultiHeadAttention(nn.Module):
                    k, v = cache[self.layer_id]
            cache[self.layer_id] = (k, v)
-        scores = torch.matmul(q, k.transpose(2, 3)) / math.sqrt(dim_per_head)  # (bs, n_heads, qlen, klen)
+        q = q / math.sqrt(dim_per_head)  # (bs, n_heads, qlen, dim_per_head)
+        scores = torch.matmul(q, k.transpose(2, 3))  # (bs, n_heads, qlen, klen)
        mask = (mask == 0).view(mask_reshape).expand_as(scores)  # (bs, n_heads, qlen, klen)
        scores.masked_fill_(mask, torch.finfo(scores.dtype).min)  # (bs, n_heads, qlen, klen)