Replace double occurrences as the last step (#11367)

0cbddfb1 · Lysandre Debut · GitHub · 73fde1de · 0cbddfb1
Unverified Commit 0cbddfb1 authored May 24, 2021 by Lysandre Debut Committed by GitHub May 24, 2021
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

src/transformers/convert_slow_tokenizer.py src/transformers/convert_slow_tokenizer.py +2 -2

No files found.
--- a/src/transformers/convert_slow_tokenizer.py
+++ b/src/transformers/convert_slow_tokenizer.py
@@ -453,7 +453,6 @@ class AlbertConverter(SpmConverter):
        list_normalizers = [
            normalizers.Replace("``", '"'),
            normalizers.Replace("''", '"'),
-            normalizers.Replace(Regex(" {2,}"), " "),
        ]
        if not self.original_tokenizer.keep_accents:
            list_normalizers.append(normalizers.NFKD())
@@ -463,6 +462,7 @@ class AlbertConverter(SpmConverter):

        precompiled_charsmap = proto.normalizer_spec.precompiled_charsmap
        list_normalizers.append(normalizers.Precompiled(precompiled_charsmap))
+        list_normalizers.append(normalizers.Replace(Regex(" {2,}"), " "))
        return normalizers.Sequence(list_normalizers)

    def post_processor(self):
@@ -641,7 +641,6 @@ class XLNetConverter(SpmConverter):
        list_normalizers = [
            normalizers.Replace("``", '"'),
            normalizers.Replace("''", '"'),
-            normalizers.Replace(Regex(" {2,}"), " "),
        ]
        if not self.original_tokenizer.keep_accents:
            list_normalizers.append(normalizers.NFKD())
@@ -651,6 +650,7 @@ class XLNetConverter(SpmConverter):

        precompiled_charsmap = proto.normalizer_spec.precompiled_charsmap
        list_normalizers.append(normalizers.Precompiled(precompiled_charsmap))
+        list_normalizers.append(normalizers.Replace(Regex(" {2,}"), " "))
        return normalizers.Sequence(list_normalizers)

    def post_processor(self):