fix: passing max_length to vllm engine args (#1124)

* fix: passing max_length to vllm engine args * feat: add `max_model_len` * chore: lint

fix: passing max_length to vllm engine args (#1124)
* fix: passing max_length to vllm engine args * feat: add `max_model_len` * chore: lint
2a47159c · NanoCode012 · GitHub · c4f8c40e · 2a47159c
Unverified Commit 2a47159c authored Dec 15, 2023 by NanoCode012 Committed by GitHub Dec 14, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 7 additions and 1 deletion

lm_eval/models/vllm_causallms.py lm_eval/models/vllm_causallms.py +7 -1

No files found.
--- a/lm_eval/models/vllm_causallms.py
+++ b/lm_eval/models/vllm_causallms.py
@@ -46,6 +46,7 @@ class VLLM(LM):
        batch_size: Union[str, int] = 1,
        max_batch_size=None,
        max_length: int = None,
+        max_model_len: int = None,
        seed: int = 1234,
        gpu_memory_utilization: float = 0.9,
        device: str = "cuda",
@@ -62,6 +63,11 @@ please install vllm via `pip install lm-eval[vllm]` or `pip install -e .[vllm]`"
            )

        assert "cuda" in device or device is None, "vLLM only supports CUDA"
+        assert (
+            max_length is None or max_model_len is None
+        ), "Either max_length or max_model_len may be provided, but not both"
+
+        self._max_length = max_model_len if max_model_len is not None else max_length
        self.tensor_parallel_size = int(tensor_parallel_size)
        self.data_parallel_size = int(data_parallel_size)
        self.model_args = {
@@ -74,6 +80,7 @@ please install vllm via `pip install lm-eval[vllm]` or `pip install -e .[vllm]`"
            "tokenizer_revision": tokenizer_revision,
            "trust_remote_code": trust_remote_code,
            "tensor_parallel_size": int(tensor_parallel_size),
+            "max_model_len": int(self._max_length) if self._max_length else None,
            "swap_space": int(swap_space),
            "quantization": quantization,
            "seed": int(seed),
@@ -89,7 +96,6 @@ please install vllm via `pip install lm-eval[vllm]` or `pip install -e .[vllm]`"
            tokenizer_revision=tokenizer_revision,
        )
        self.batch_size = batch_size
-        self._max_length = max_length
        self._max_gen_toks = max_gen_toks

    @property