Restrain tokenizer.model_max_length default (#9681)

* Restrain tokenizer.model_max_length default * Fix indent

Restrain tokenizer.model_max_length default (#9681)
* Restrain tokenizer.model_max_length default * Fix indent
a1ad16a4 · Sylvain Gugger · GitHub · 7e662e6a · a1ad16a4
Unverified Commit a1ad16a4 authored Jan 20, 2021 by Sylvain Gugger Committed by GitHub Jan 20, 2021
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 0 deletions

examples/language-modeling/run_mlm.py examples/language-modeling/run_mlm.py +6 -0

No files found.
--- a/examples/language-modeling/run_mlm.py
+++ b/examples/language-modeling/run_mlm.py
@@ -338,6 +338,12 @@ def main():
        if data_args.max_seq_length is None:
            max_seq_length = tokenizer.model_max_length
+            if max_seq_length > 1024:
+                logger.warn(
+                    f"The tokenizer picked seems to have a very large `model_max_length` ({tokenizer.model_max_length}). "
+                    "Picking 1024 instead. You can change that default value by passing --max_seq_length xxx."
+                )
+                max_seq_length = 1024
        else:
            if data_args.max_seq_length > tokenizer.model_max_length:
                logger.warn(