Fix lora requests when dp with vllm (#2433)

* fix: use lora_request for data parallel vllm evals * fix(docs): include type hint * chore: lint, et pre-commit al --------- Co-authored-by: Chris Kerwell Gresla <chris@wafer.systems>

Fix lora requests when dp with vllm (#2433)
* fix: use lora_request for data parallel vllm evals * fix(docs): include type hint * chore: lint, et pre-commit al --------- Co-authored-by: Chris Kerwell Gresla <chris@wafer.systems>
838a3e03 · Chris Kerwell Gresla · GitHub · 7882043b · 838a3e03
Unverified Commit 838a3e03 authored Oct 30, 2024 by Chris Kerwell Gresla Committed by GitHub Oct 30, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 17 additions and 16 deletions

lm_eval/models/vllm_causallms.py lm_eval/models/vllm_causallms.py +17 -16

No files found.
--- a/lm_eval/models/vllm_causallms.py
+++ b/lm_eval/models/vllm_causallms.py
@@ -239,17 +239,25 @@ class VLLM(TemplateLM):
            # but then tensor_parallel breaks
            @ray.remote
            def run_inference_one_model(
-                model_args: dict, sampling_params, requests: List[List[int]]
+                model_args: dict,
+                sampling_params,
+                requests: List[List[int]],
+                lora_request: LoRARequest,
            ):
                llm = LLM(**model_args)
                return llm.generate(
-                    prompt_token_ids=requests, sampling_params=sampling_params
+                    prompt_token_ids=requests,
+                    sampling_params=sampling_params,
+                    lora_request=lora_request,
                )
            # dispatch requests to all self.data_parallel_size workers, in interleaved fashion
            # interleaved important to balance context lengths across workers
            requests = [list(x) for x in distribute(self.data_parallel_size, requests)]
-            inputs = ((self.model_args, sampling_params, req) for req in requests)
+            inputs = (
+                (self.model_args, sampling_params, req, self.lora_request)
+                for req in requests
+            )
            object_refs = [run_inference_one_model.remote(*x) for x in inputs]
            results = ray.get(object_refs)
            # Invoke ray.shutdown() to prevent hang-ups if subsequent calls required.
@@ -257,19 +265,12 @@ class VLLM(TemplateLM):
            # flatten results
            return undistribute(results)
-        if self.lora_request is not None:
+        outputs = self.model.generate(
-            outputs = self.model.generate(
+            prompt_token_ids=requests,
-                prompt_token_ids=requests,
+            sampling_params=sampling_params,
-                sampling_params=sampling_params,
+            use_tqdm=True if self.batch_size == "auto" else False,
-                use_tqdm=True if self.batch_size == "auto" else False,
+            lora_request=self.lora_request,
-                lora_request=self.lora_request,
+        )
-            )
-        else:
-            outputs = self.model.generate(
-                prompt_token_ids=requests,
-                sampling_params=sampling_params,
-                use_tqdm=True if self.batch_size == "auto" else False,
-            )
        return outputs
    def loglikelihood_rolling(