add special tokens to unique_added_tokens_encoder

b262577d · vitaliyradchenko · 83a23479 · b262577d
Commit b262577d authored Dec 25, 2019 by vitaliyradchenko
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 1 deletion

src/transformers/tokenization_utils.py src/transformers/tokenization_utils.py +4 -1

No files found.
--- a/src/transformers/tokenization_utils.py
+++ b/src/transformers/tokenization_utils.py
@@ -469,6 +469,9 @@ class PreTrainedTokenizer(object):
        tokenizer.init_inputs = init_inputs
        tokenizer.init_kwargs = init_kwargs

+        # update unique_added_tokens_encoder with special tokens for correct tokenization
+        tokenizer.unique_added_tokens_encoder.update(set(tokenizer.all_special_tokens))
+
        # Add supplementary tokens.
        if added_tokens_file is not None:
            with open(added_tokens_file, encoding="utf-8") as added_tokens_handle:
@@ -476,7 +479,7 @@ class PreTrainedTokenizer(object):
            added_tok_decoder = {v: k for k, v in added_tok_encoder.items()}
            tokenizer.added_tokens_encoder.update(added_tok_encoder)
            tokenizer.added_tokens_decoder.update(added_tok_decoder)
-            tokenizer.unique_added_tokens_encoder.update(set(tokenizer.added_tokens_encoder.keys()).union(set(tokenizer.all_special_tokens)))
+            tokenizer.unique_added_tokens_encoder.update(set(tokenizer.added_tokens_encoder.keys()))

        return tokenizer