Pickle CamemBERT tokenizer

908230d2 · Lysandre · 24d5ad1d · 908230d2
Commit 908230d2 authored Jan 24, 2020 by Lysandre
Hide whitespace changes
Inline Side-by-side

Showing with 18 additions and 0 deletions

src/transformers/tokenization_camembert.py src/transformers/tokenization_camembert.py +18 -0

No files found.
--- a/src/transformers/tokenization_camembert.py
+++ b/src/transformers/tokenization_camembert.py
@@ -169,6 +169,24 @@ class CamembertTokenizer(PreTrainedTokenizer):
            return self.fairseq_ids_to_tokens[index]
        return self.sp_model.IdToPiece(index - self.fairseq_offset)

+    def __getstate__(self):
+        state = self.__dict__.copy()
+        state["sp_model"] = None
+        return state
+
+    def __setstate__(self, d):
+        self.__dict__ = d
+        try:
+            import sentencepiece as spm
+        except ImportError:
+            logger.warning(
+                "You need to install SentencePiece to use AlbertTokenizer: https://github.com/google/sentencepiece"
+                "pip install sentencepiece"
+            )
+            raise
+        self.sp_model = spm.SentencePieceProcessor()
+        self.sp_model.Load(self.vocab_file)
+
    def convert_tokens_to_string(self, tokens):
        """Converts a sequence of tokens (strings for sub-words) in a single string."""
        out_string = "".join(tokens).replace(SPIECE_UNDERLINE, " ").strip()