add prefix space ignored in llama #29625 (#30964)

* add prefix space ignored in llama #29625 * adding test with add_prefix_space=False * ruff --------- Co-authored-by: Ita Zaporozhets <itazaporozhets@Itas-MBP.localdomain>

add prefix space ignored in llama #29625 (#30964)
* add prefix space ignored in llama #29625 * adding test with add_prefix_space=False * ruff --------- Co-authored-by: Ita Zaporozhets <itazaporozhets@Itas-MBP.localdomain>
7f6e8741 · Ita Zaporozhets · GitHub · 6657fb5f · 7f6e8741 · 7f6e8741
Unverified Commit 7f6e8741 authored May 24, 2024 by Ita Zaporozhets Committed by GitHub May 24, 2024
Showing with 5 additions and 0 deletions

src/transformers/models/llama/tokenization_llama_fast.py src/transformers/models/llama/tokenization_llama_fast.py +1 -0

tests/models/llama/test_tokenization_llama.py tests/models/llama/test_tokenization_llama.py +4 -0

No files found.
--- a/src/transformers/models/llama/tokenization_llama_fast.py
+++ b/src/transformers/models/llama/tokenization_llama_fast.py
@@ -163,6 +163,7 @@ class LlamaTokenizerFast(PreTrainedTokenizerFast):
            add_bos_token=add_bos_token,
            add_eos_token=add_eos_token,
            use_default_system_prompt=use_default_system_prompt,
+            add_prefix_space=add_prefix_space,
            legacy=legacy,
            **kwargs,
        )

--- a/tests/models/llama/test_tokenization_llama.py
+++ b/tests/models/llama/test_tokenization_llama.py
@@ -602,6 +602,10 @@ class LlamaIntegrationTest(unittest.TestCase):
        self.assertEqual(decoded_tokens, "hello")
    def test_no_prefix_space(self):
+        tokenizer_no_prefix_space = LlamaTokenizerFast.from_pretrained("huggyllama/llama-7b", add_prefix_space=False)
+        no_prefix_space_tokens = tokenizer_no_prefix_space.tokenize("Hey")
+        self.assertEqual(no_prefix_space_tokens, ["H", "ey"])
        tokenizer = LlamaTokenizerFast.from_pretrained(
            "huggyllama/llama-7b", legacy=False, from_slow=True, add_prefix_space=False
        )