fix(run_language_modeling): use arg overwrite_cache (#4407)

d9ece823 · Boris Dayma · GitHub · d39bf0ac · d9ece823
Unverified Commit d9ece823 authored May 18, 2020 by Boris Dayma Committed by GitHub May 18, 2020
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 1 deletion

examples/language-modeling/run_language_modeling.py examples/language-modeling/run_language_modeling.py +4 -1

No files found.
--- a/examples/language-modeling/run_language_modeling.py
+++ b/examples/language-modeling/run_language_modeling.py
@@ -120,7 +120,9 @@ def get_dataset(args: DataTrainingArguments, tokenizer: PreTrainedTokenizer, eva
    if args.line_by_line:
        return LineByLineTextDataset(tokenizer=tokenizer, file_path=file_path, block_size=args.block_size)
    else:
-        return TextDataset(tokenizer=tokenizer, file_path=file_path, block_size=args.block_size)
+        return TextDataset(
+            tokenizer=tokenizer, file_path=file_path, block_size=args.block_size, overwrite_cache=args.overwrite_cache
+        )


 def main():
@@ -216,6 +218,7 @@ def main():
        data_args.block_size = min(data_args.block_size, tokenizer.max_len)

    # Get datasets
+
    train_dataset = get_dataset(data_args, tokenizer=tokenizer) if training_args.do_train else None
    eval_dataset = get_dataset(data_args, tokenizer=tokenizer, evaluate=True) if training_args.do_eval else None
    data_collator = DataCollatorForLanguageModeling(