fix: switch from slow to generic tokenizer class (#15122)

aa0135f2 · Leandro von Werra · GitHub · 27b819b0 · aa0135f2
Unverified Commit aa0135f2 authored Jan 12, 2022 by Leandro von Werra Committed by GitHub Jan 12, 2022
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

examples/research_projects/codeparrot/scripts/bpe_training.py ...ples/research_projects/codeparrot/scripts/bpe_training.py +2 -2

No files found.
--- a/examples/research_projects/codeparrot/scripts/bpe_training.py
+++ b/examples/research_projects/codeparrot/scripts/bpe_training.py
@@ -2,7 +2,7 @@ from datasets import load_dataset
 from tqdm import tqdm

 from arguments import TokenizerTrainingArguments
-from transformers import GPT2Tokenizer, HfArgumentParser
+from transformers import AutoTokenizer, HfArgumentParser
 from transformers.models.gpt2.tokenization_gpt2 import bytes_to_unicode


@@ -17,7 +17,7 @@ parser = HfArgumentParser(TokenizerTrainingArguments)
 args = parser.parse_args()

 # Base tokenizer
-tokenizer = GPT2Tokenizer.from_pretrained(args.base_tokenizer)
+tokenizer = AutoTokenizer.from_pretrained(args.base_tokenizer)
 base_vocab = list(bytes_to_unicode().values())

 # Load dataset