🐛 #2096 in tokenizer.decode, space is not joined between all subtexts...

🐛 #2096 in tokenizer.decode, space is not joined between all subtexts instead of before added tokens

🐛 #2096 in tokenizer.decode, space is not joined between all subtexts...
🐛 #2096 in tokenizer.decode, space is not joined between all subtexts instead of before added tokens
df160af7 · Pascal Voitot · Lysandre Debut · 5b7b78e0 · df160af7 · df160af7
Commit df160af7 authored Dec 10, 2019 by Pascal Voitot Committed by Lysandre Debut Dec 13, 2019
Hide whitespace changes
Inline Side-by-side

Showing with 18 additions and 2 deletions

transformers/tests/tokenization_bert_test.py transformers/tests/tokenization_bert_test.py +16 -0

transformers/tokenization_utils.py transformers/tokenization_utils.py +2 -2

No files found.
--- a/transformers/tests/tokenization_bert_test.py
+++ b/transformers/tests/tokenization_bert_test.py
@@ -99,6 +99,21 @@ class BertTokenizationTest(CommonTestCases.CommonTokenizerTester):
        self.assertListEqual(
            tokenizer.tokenize("unwantedX running"), ["[UNK]", "runn", "##ing"])
+    def test_encode_decode_with_spaces(self):
+        tokenizer = self.get_tokenizer()
+        new_toks = ['[ABC]', '[DEF]', 'GHI IHG']
+        tokenizer.add_tokens(new_toks)
+        input = "unwanted running [ABC] [DEF] running unwanted [ABC] GHI IHG unwanted [DEF]"
+        encoded = tokenizer.encode(input)
+        decoded = tokenizer.decode(encoded)
+        self.assertEqual(
+            decoded.lower(),
+            (f"[CLS] {input.lower()} [SEP]").lower()
+        )
    def test_is_whitespace(self):
        self.assertTrue(_is_whitespace(u" "))
        self.assertTrue(_is_whitespace(u"\t"))
@@ -139,5 +154,6 @@ class BertTokenizationTest(CommonTestCases.CommonTokenizerTester):
        assert encoded_sentence == [101] + text + [102]
        assert encoded_pair == [101] + text + [102] + text_2 + [102]
 if __name__ == '__main__':
    unittest.main()
--- a/transformers/tokenization_utils.py
+++ b/transformers/tokenization_utils.py
@@ -1180,12 +1180,12 @@ class PreTrainedTokenizer(object):
                if current_sub_text:
                    sub_texts.append(self.convert_tokens_to_string(current_sub_text))
                    current_sub_text = []
-                sub_texts.append(" " + token + " ")
+                sub_texts.append(token)
            else:
                current_sub_text.append(token)
        if current_sub_text:
            sub_texts.append(self.convert_tokens_to_string(current_sub_text))
-        text = ''.join(sub_texts)
+        text = ' '.join(sub_texts)
        if clean_up_tokenization_spaces:
            clean_text = self.clean_up_tokenization(text)