Fixes to Loglikelihood prefix token / VLLM (#1611)

* make vllm use prefix_token_id ; have prefix_token_id be optional method to define * custom_prefix_token_id wasn't set if not passed

Fixes to Loglikelihood prefix token / VLLM (#1611)
* make vllm use prefix_token_id ; have prefix_token_id be optional method to define * custom_prefix_token_id wasn't set if not passed
c7b03ad4 · Hailey Schoelkopf · GitHub · d4b8fc13 · c7b03ad4 · c7b03ad4
Unverified Commit c7b03ad4 authored Mar 20, 2024 by Hailey Schoelkopf Committed by GitHub Mar 20, 2024
4 changed files
--- a/lm_eval/api/model.py
+++ b/lm_eval/api/model.py
@@ -284,10 +284,9 @@ class TemplateLM(LM):
        pass
    @property
-    @abc.abstractmethod
    def prefix_token_id(self):
        # it is used as prefix for loglikelihood
-        pass
+        return self.eot_token_id
    @abc.abstractmethod
    def tok_encode(self, string: str, **kwargs):

--- a/lm_eval/models/huggingface.py
+++ b/lm_eval/models/huggingface.py
@@ -99,6 +99,7 @@ class HFLM(TemplateLM):
        trust_remote_code: Optional[bool] = False,
        use_fast_tokenizer: Optional[bool] = True,
        add_bos_token: Optional[bool] = False,
+        prefix_token_id: Optional[int] = None,
        # arguments used for splitting a model across GPUs naively.
        # only used if `parallelize=True`.
        parallelize: Optional[bool] = False,
@@ -109,7 +110,6 @@ class HFLM(TemplateLM):
        # PEFT and quantization options
        peft: Optional[str] = None,
        autogptq: Optional[Union[bool, str]] = False,
-        prefix_token_id: Optional[int] = None,
        **kwargs,
    ) -> None:
        super().__init__()
@@ -342,9 +342,10 @@ class HFLM(TemplateLM):
            self._world_size = 1
        self.custom_prefix_token_id = prefix_token_id
-        eval_logger.info(
+        if prefix_token_id is not None:
-            f"Loglikelihood prefix token id used in evaluation: {self.prefix_token_id}"
+            eval_logger.info(
-        )
+                f"Loglikelihood prefix token id used in evaluation: {self.prefix_token_id}"
+            )
    @property
    def config(self):

--- a/lm_eval/models/vllm_causallms.py
+++ b/lm_eval/models/vllm_causallms.py
@@ -42,6 +42,7 @@ class VLLM(TemplateLM):
        tokenizer_mode: Literal["auto", "slow"] = "auto",
        tokenizer_revision: Optional[str] = None,
        add_bos_token: Optional[bool] = False,
+        prefix_token_id: Optional[int] = None,
        tensor_parallel_size: int = 1,
        quantization: Optional[str] = None,
        max_gen_toks: int = 256,
@@ -118,6 +119,11 @@ class VLLM(TemplateLM):
            tokenizer_revision=tokenizer_revision,
        )
        self.add_bos_token = add_bos_token
+        self.custom_prefix_token_id = prefix_token_id
+        if prefix_token_id is not None:
+            eval_logger.info(
+                f"Loglikelihood prefix token id used in evaluation: {self.prefix_token_id}"
+            )
        self._max_gen_toks = max_gen_toks
@@ -126,6 +132,15 @@ class VLLM(TemplateLM):
        # we use EOT because end of *text* is more accurate for what we're doing than end of *sentence*
        return self.tokenizer.eos_token_id
+    @property
+    def prefix_token_id(self):
+        # it is used as prefix for loglikelihood
+        if self.custom_prefix_token_id is not None:
+            return self.custom_prefix_token_id
+        if self.tokenizer.bos_token_id is not None:
+            return self.tokenizer.bos_token_id
+        return self.tokenizer.eos_token_id
    @property
    def max_length(self):
        if self._max_length:  # if max length manually set, return it

--- a/tests/models/test_vllm.py
+++ b/tests/models/test_vllm.py
@@ -25,8 +25,8 @@ class TEST_VLLM:
    multiple_choice_task.build_all_requests(limit=10, rank=0, world_size=1)
    MULTIPLE_CH: List[Instance] = multiple_choice_task.instances
    generate_until_task = task_list["gsm8k"]  # type: ignore
-    generate_until_task.build_all_requests(limit=10, rank=0, world_size=1)
    generate_until_task._config.generation_kwargs["max_gen_toks"] = 10
+    generate_until_task.build_all_requests(limit=10, rank=0, world_size=1)
    generate_until: List[Instance] = generate_until_task.instances
    rolling_task = task_list["wikitext"]  # type: ignore
    rolling_task.build_all_requests(limit=10, rank=0, world_size=1)