sum() is the leanest method to flatten a string list, so it's been replaced by...

sum() is the leanest method to flatten a string list, so it's been replaced by itertools.chain.from_iterable()

sum() is the leanest method to flatten a string list, so it's been replaced by...
sum() is the leanest method to flatten a string list, so it's been replaced by itertools.chain.from_iterable()
7627dde1 · İbrahim Ethem Demirci · 155c782a · 7627dde1
Commit 7627dde1 authored Nov 14, 2019 by İbrahim Ethem Demirci
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 2 deletions

transformers/tokenization_utils.py transformers/tokenization_utils.py +3 -2

No files found.
--- a/transformers/tokenization_utils.py
+++ b/transformers/tokenization_utils.py
@@ -21,6 +21,7 @@ import os
 import json
 import six
 import copy
+import itertools
 from io import open
 from .file_utils import cached_path, is_tf_available, is_torch_available
@@ -641,9 +642,9 @@ class PreTrainedTokenizer(object):
                        tokenized_text += [sub_text]
                text_list = tokenized_text
-            return sum((self._tokenize(token, **kwargs) if token not \
+            return list(itertools.chain.from_iterable((self._tokenize(token, **kwargs) if token not \
                    in self.added_tokens_encoder and token not in self.all_special_tokens \
-                    else [token] for token in tokenized_text), [])
+                    else [token] for token in tokenized_text)))
        added_tokens = list(self.added_tokens_encoder.keys()) + self.all_special_tokens
        tokenized_text = split_on_tokens(added_tokens, text)