fix tokenization

24831477 · thomwolf · 03c2c762 · 24831477 · 24831477
Commit 24831477 authored Oct 08, 2019 by thomwolf
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

transformers/tests/tokenization_ctrl_test.py transformers/tests/tokenization_ctrl_test.py +1 -1

transformers/tokenization_ctrl.py transformers/tokenization_ctrl.py +1 -1

No files found.
--- a/transformers/tests/tokenization_ctrl_test.py
+++ b/transformers/tests/tokenization_ctrl_test.py
@@ -55,7 +55,7 @@ class CTRLTokenizationTest(CommonTestCases.CommonTokenizerTester):
        tokenizer = CTRLTokenizer(self.vocab_file, self.merges_file, **self.special_tokens_map)
        text = "adapt react readapt apt"
        bpe_tokens = 'adapt re@@ a@@ c@@ t re@@ adapt apt'.split()
-        tokens = tokenizer.tokenize(text, add_prefix_space=True)
+        tokens = tokenizer.tokenize(text)
        self.assertListEqual(tokens, bpe_tokens)

        input_tokens = tokens + [tokenizer.unk_token]

--- a/transformers/tokenization_ctrl.py
+++ b/transformers/tokenization_ctrl.py
@@ -205,7 +205,7 @@ class CTRLTokenizer(PreTrainedTokenizer):

    def convert_tokens_to_string(self, tokens):
        """ Converts a sequence of tokens (string) in a single string. """
-        out_string = ''.join(tokens).replace('@@', ' ').strip()
+        out_string = ' '.join(tokens).replace('@@ ', '').strip()
        return out_string

    def save_vocabulary(self, save_directory):