Avoid erasing the attention mask when double padding (#8915)

8453201c · Sylvain Gugger · GitHub · 0deece9c · 8453201c
Unverified Commit 8453201c authored Dec 03, 2020 by Sylvain Gugger Committed by GitHub Dec 03, 2020
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 3 deletions

src/transformers/tokenization_utils_base.py src/transformers/tokenization_utils_base.py +2 -3

No files found.
--- a/src/transformers/tokenization_utils_base.py
+++ b/src/transformers/tokenization_utils_base.py
@@ -3047,9 +3047,8 @@ class PreTrainedTokenizerBase(SpecialTokensMixin):
                encoded_inputs["input_ids"] = [self.pad_token_id] * difference + encoded_inputs["input_ids"]
            else:
                raise ValueError("Invalid padding strategy:" + str(self.padding_side))
-        else:
+        elif return_attention_mask and "attention_mask" not in encoded_inputs:
-            if return_attention_mask:
+            encoded_inputs["attention_mask"] = [1] * len(encoded_inputs["input_ids"])
-                encoded_inputs["attention_mask"] = [1] * len(encoded_inputs["input_ids"])
        return encoded_inputs