add fast tokenizer flag

165f8493 · haileyschoelkopf · 98c85d73 · 165f8493
Commit 165f8493 authored Jul 13, 2023 by haileyschoelkopf
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 0 deletions

lm_eval/models/huggingface.py lm_eval/models/huggingface.py +2 -0

No files found.
--- a/lm_eval/models/huggingface.py
+++ b/lm_eval/models/huggingface.py
@@ -70,6 +70,7 @@ class HFLM(LM):
        batch_size: Optional[int] = 1,
        low_cpu_mem_usage: Optional[bool] = True,
        trust_remote_code: Optional[bool] = False,
+        use_fast_tokenizer: Optional[bool] = True,
        # arguments used for splitting a model across GPUs naively.
        # only used if `parallelize=True`.
        parallelize: Optional[bool] = False,
@@ -216,6 +217,7 @@ class HFLM(LM):
            pretrained if tokenizer is None else tokenizer,
            revision=revision,
            trust_remote_code=trust_remote_code,
+            use_fast=use_fast_tokenizer,
        )

        self.vocab_size = self.tokenizer.vocab_size