fix(llama): fix LlamaTokenzier (#22746)

Bug in LlamaTokenizer when #22742

fix(llama): fix LlamaTokenzier (#22746)
Bug in LlamaTokenizer when #22742
90ce374d · Ruiyang Sun · GitHub · d85bf954 · 90ce374d
Unverified Commit 90ce374d authored Apr 14, 2023 by Ruiyang Sun Committed by GitHub Apr 13, 2023
Show whitespace changes
Inline Side-by-side

Showing with 8 additions and 5 deletions

src/transformers/models/llama/tokenization_llama.py src/transformers/models/llama/tokenization_llama.py +8 -5

No files found.
--- a/src/transformers/models/llama/tokenization_llama.py
+++ b/src/transformers/models/llama/tokenization_llama.py
@@ -246,9 +246,12 @@ class LlamaTokenizer(PreTrainedTokenizer):
        Returns:
            `List[int]`: List of [token type IDs](../glossary#token-type-ids) according to the given sequence(s).
        """
-        sep = [self.sep_token_id]
-        cls = [self.cls_token_id]
+        bos_token_id = [self.bos_token_id] if self.add_bos_token else []
+        eos_token_id = [self.eos_token_id] if self.add_eos_token else []

-        if token_ids_1 is None:
-            return len(cls + token_ids_0 + sep) * [0]
-        return len(cls + token_ids_0 + sep) * [0] + len(token_ids_1 + sep) * [1]
+        output = [0] * len(bos_token_id + token_ids_0 + eos_token_id)
+
+        if token_ids_1 is not None:
+            output += [1] * len(bos_token_id + token_ids_1 + eos_token_id)
+
+        return output