Fix max_tokens handling in vllm_vlms.py (#2637)

* Update vllm_vlms.py * pre-commit --------- Co-authored-by: Baber <baber@hey.com>

Fix max_tokens handling in vllm_vlms.py (#2637)
* Update vllm_vlms.py * pre-commit --------- Co-authored-by: Baber <baber@hey.com>
370e2f9e · Jan Kaniecki · GitHub · b2c090cc · 370e2f9e
Unverified Commit 370e2f9e authored Jan 21, 2025 by Jan Kaniecki Committed by GitHub Jan 21, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 1 deletion

lm_eval/models/vllm_vlms.py lm_eval/models/vllm_vlms.py +3 -1

No files found.
--- a/lm_eval/models/vllm_vlms.py
+++ b/lm_eval/models/vllm_vlms.py
@@ -271,7 +271,9 @@ class VLLM_VLM(VLLM):
                left_truncate_len=max_ctx_len,
            )

-            cont = self._model_generate(inputs, stop=until, generate=True, **kwargs)
+            cont = self._model_generate(
+                inputs, stop=until, generate=True, max_tokens=max_gen_toks, **kwargs
+            )

            for output, context in zip(cont, contexts):
                generated_text = output.outputs[0].text