Fix fast tokenization problems (#13930)

* Fix albert mask token tokenization. * Ensure special tokans sanitized. * Style * Fix * Apply suggestions from code review

Fix fast tokenization problems (#13930)
* Fix albert mask token tokenization. * Ensure special tokans sanitized. * Style * Fix * Apply suggestions from code review
ea163d09 · Li-Huai (Allan) Lin · GitHub · 5c153079 · ea163d09 · ea163d09
Unverified Commit ea163d09 authored Nov 10, 2021 by Li-Huai (Allan) Lin Committed by GitHub Nov 10, 2021
2 changed files
--- a/src/transformers/models/albert/tokenization_albert.py
+++ b/src/transformers/models/albert/tokenization_albert.py
@@ -142,8 +142,13 @@ class AlbertTokenizer(PreTrainedTokenizer):
        sp_model_kwargs: Optional[Dict[str, Any]] = None,
        **kwargs
    ) -> None:
-        # Mask token behave like a normal word, i.e. include the space before it
-        mask_token = AddedToken(mask_token, lstrip=True, rstrip=False) if isinstance(mask_token, str) else mask_token
+        # Mask token behave like a normal word, i.e. include the space before it and
+        # is included in the raw text, there should be a match in a non-normalized sentence.
+        mask_token = (
+            AddedToken(mask_token, lstrip=True, rstrip=False, normalized=False)
+            if isinstance(mask_token, str)
+            else mask_token
+        )

        self.sp_model_kwargs = {} if sp_model_kwargs is None else sp_model_kwargs


--- a/src/transformers/models/albert/tokenization_albert_fast.py
+++ b/src/transformers/models/albert/tokenization_albert_fast.py
@@ -135,8 +135,13 @@ class AlbertTokenizerFast(PreTrainedTokenizerFast):
        mask_token="[MASK]",
        **kwargs
    ):
-        # Mask token behave like a normal word, i.e. include the space before it
-        mask_token = AddedToken(mask_token, lstrip=True, rstrip=False) if isinstance(mask_token, str) else mask_token
+        # Mask token behave like a normal word, i.e. include the space before it and
+        # is included in the raw text, there should be a match in a non-normalized sentence.
+        mask_token = (
+            AddedToken(mask_token, lstrip=True, rstrip=False, normalized=False)
+            if isinstance(mask_token, str)
+            else mask_token
+        )

        super().__init__(
            vocab_file,