Use slow tokenizer for open llama models (#168)

67d96c29 · Woosuk Kwon · GitHub · 033f5c78 · 67d96c29
Unverified Commit 67d96c29 authored Jun 19, 2023 by Woosuk Kwon Committed by GitHub Jun 20, 2023
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 1 deletion

vllm/engine/tokenizer_utils.py vllm/engine/tokenizer_utils.py +6 -1

No files found.
--- a/vllm/engine/tokenizer_utils.py
+++ b/vllm/engine/tokenizer_utils.py
@@ -17,7 +17,12 @@ def get_tokenizer(
 ) -> Union[PreTrainedTokenizer, PreTrainedTokenizerFast]:
    """Gets a tokenizer for the given model name via Huggingface."""
    config = AutoConfig.from_pretrained(model_name)
-    if config.model_type == "llama" and getattr(kwargs, "use_fast", True):
+    if "open_llama" in model_name:
+        kwargs["use_fast"] = False
+        logger.info(
+            "OpenLLaMA models do not support the fast tokenizer. "
+            "Using the slow tokenizer instead.")
+    elif config.model_type == "llama" and getattr(kwargs, "use_fast", True):
        # LLaMA fast tokenizer causes protobuf errors in some environments.
        # However, we found that the below LLaMA fast tokenizer works well in
        # most environments.