Tweak ESM tokenizer for Nucleotide Transformer (#22770)

* If EOS is None, don't add it to sequences * If EOS is None, don't add it to sequences

Tweak ESM tokenizer for Nucleotide Transformer (#22770)
* If EOS is None, don't add it to sequences * If EOS is None, don't add it to sequences
06e737fb · Matt · GitHub · c8df3900 · 06e737fb
Unverified Commit 06e737fb authored Apr 14, 2023 by Matt Committed by GitHub Apr 14, 2023
Show whitespace changes
Inline Side-by-side

Showing with 8 additions and 3 deletions

src/transformers/models/esm/tokenization_esm.py src/transformers/models/esm/tokenization_esm.py +8 -3

No files found.
--- a/src/transformers/models/esm/tokenization_esm.py
+++ b/src/transformers/models/esm/tokenization_esm.py
@@ -91,11 +91,16 @@ class EsmTokenizer(PreTrainedTokenizer):
    def build_inputs_with_special_tokens(
        self, token_ids_0: List[int], token_ids_1: Optional[List[int]] = None
    ) -> List[int]:
-        if token_ids_1 is None:
-            return [self.cls_token_id] + token_ids_0 + [self.eos_token_id]
        cls = [self.cls_token_id]
        sep = [self.eos_token_id]  # No sep token in ESM vocabulary
-        return cls + token_ids_0 + sep + token_ids_1 + sep
+        if token_ids_1 is None:
+            if self.eos_token_id is None:
+                return cls + token_ids_0
+            else:
+                return cls + token_ids_0 + sep
+        elif self.eos_token_id is None:
+            raise ValueError("Cannot tokenize multiple sequences when EOS token is not set!")
+        return cls + token_ids_0 + sep + token_ids_1 + sep  # Multiple inputs always have an EOS token

    def get_special_tokens_mask(
        self, token_ids_0: List, token_ids_1: Optional[List] = None, already_has_special_tokens: bool = False