fix: remove tokenizer costraint in `gpt2`

fbea4311 · jon-tow · 2d843472 · fbea4311
Commit fbea4311 authored May 21, 2023 by jon-tow
Hide whitespace changes
Inline Side-by-side

Showing with 18 additions and 18 deletions

lm_eval/models/gpt2.py lm_eval/models/gpt2.py +18 -18

No files found.
--- a/lm_eval/models/gpt2.py
+++ b/lm_eval/models/gpt2.py
@@ -47,27 +47,27 @@ class HFLM(BaseLM):
            revision=revision,
        )

-        assert isinstance(
-            self.tokenizer,
-            (
-                transformers.GPT2Tokenizer,
-                transformers.GPT2TokenizerFast,
-                transformers.T5Tokenizer,
-                transformers.T5TokenizerFast,
-            ),
-        ), "this tokenizer has not been checked for compatibility yet!"
+        # assert isinstance(
+        #     self.tokenizer,
+        #     (
+        #         transformers.GPT2Tokenizer,
+        #         transformers.GPT2TokenizerFast,
+        #         transformers.T5Tokenizer,
+        #         transformers.T5TokenizerFast,
+        #     ),
+        # ), "this tokenizer has not been checked for compatibility yet!"

        self.vocab_size = self.tokenizer.vocab_size

-        if isinstance(
-            self.tokenizer, (transformers.GPT2Tokenizer, transformers.GPT2TokenizerFast)
-        ):
-            assert self.tokenizer.encode("hello\n\nhello") == [
-                31373,
-                198,
-                198,
-                31373,
-            ], self.tokenizer.encode("hello\n\nhello")
+        # if isinstance(
+        #     self.tokenizer, (transformers.GPT2Tokenizer, transformers.GPT2TokenizerFast)
+        # ):
+        #     assert self.tokenizer.encode("hello\n\nhello") == [
+        #         31373,
+        #         198,
+        #         198,
+        #         31373,
+        #     ], self.tokenizer.encode("hello\n\nhello")

        # multithreading and batching
        self.batch_size_per_gpu = batch_size  # todo: adaptive batch size