Configure the pad tokens for Qwen when using vLLM (#2810)

61b63da7 · Yifei Zhang · GitHub · 7158f4f4 · 61b63da7
Unverified Commit 61b63da7 authored Mar 20, 2025 by Yifei Zhang Committed by GitHub Mar 20, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 5 deletions

lm_eval/models/vllm_causallms.py lm_eval/models/vllm_causallms.py +5 -5

No files found.
--- a/lm_eval/models/vllm_causallms.py
+++ b/lm_eval/models/vllm_causallms.py
@@ -113,11 +113,11 @@ class VLLM(TemplateLM):
            self.batch_size = "auto"
            eval_logger.info("Manual batching is not compatible with data parallelism.")

-            from transformers import AutoConfig
+        from transformers import AutoConfig

-            self._config = AutoConfig.from_pretrained(
-                pretrained, trust_remote_code=trust_remote_code, revision=revision
-            )
+        self._config = AutoConfig.from_pretrained(
+            pretrained, trust_remote_code=trust_remote_code, revision=revision
+        )
        self.tokenizer = get_tokenizer(
            tokenizer if tokenizer else pretrained,
            tokenizer_mode=tokenizer_mode,
@@ -125,7 +125,7 @@ class VLLM(TemplateLM):
            revision=tokenizer_revision,
            add_bos_token=add_bos_token,
        )
-        self.tokenizer = configure_pad_token(self.tokenizer)
+        self.tokenizer = configure_pad_token(self.tokenizer, model_config=self._config)
        self.add_bos_token = add_bos_token
        if "gemma" in pretrained.lower():
            self.add_bos_token = True