[Lllama] Update tokenization code to ensure parsing of the special tokens [core] (#24042)

* preventllama fast from returning token type ids * remove type hints * normalised False

[Lllama] Update tokenization code to ensure parsing of the special tokens [core] (#24042)
* preventllama fast from returning token type ids * remove type hints * normalised False
535542d3 · Arthur · GitHub · 2e2088f2 · 535542d3 · 535542d3
Unverified Commit 535542d3 authored Jun 09, 2023 by Arthur Committed by GitHub Jun 09, 2023
Showing with 4 additions and 3 deletions

src/transformers/convert_slow_tokenizer.py src/transformers/convert_slow_tokenizer.py +3 -3

src/transformers/models/llama/tokenization_llama_fast.py src/transformers/models/llama/tokenization_llama_fast.py +1 -0

No files found.
--- a/src/transformers/convert_slow_tokenizer.py
+++ b/src/transformers/convert_slow_tokenizer.py
@@ -1134,9 +1134,9 @@ class LlamaConverter(SpmConverter):
            )
            tokenizer.add_special_tokens(
                [
-                    AddedToken("<unk>", normalized=True),
+                    AddedToken("<unk>", normalized=False),
-                    AddedToken("<s>", normalized=True),
+                    AddedToken("<s>", normalized=False),
-                    AddedToken("</s>", normalized=True),
+                    AddedToken("</s>", normalized=False),
                ]
            )
        else:

--- a/src/transformers/models/llama/tokenization_llama_fast.py
+++ b/src/transformers/models/llama/tokenization_llama_fast.py
@@ -77,6 +77,7 @@ class LlamaTokenizerFast(PreTrainedTokenizerFast):
    vocab_files_names = VOCAB_FILES_NAMES
    slow_tokenizer_class = LlamaTokenizer
    padding_side = "left"
+    model_input_names = ["input_ids", "attention_mask"]
    def __init__(
        self,