Simplify column_names in run_clm/mlm (#21382)

* simplify column_names in run_clm * simplify column_names in run_mlm * minor

Simplify column_names in run_clm/mlm (#21382)
* simplify column_names in run_clm * simplify column_names in run_mlm * minor
074d6b75 · Quentin Lhoest · GitHub · c21298a6 · 074d6b75 · 074d6b75
Unverified Commit 074d6b75 authored Jan 31, 2023 by Quentin Lhoest Committed by GitHub Jan 31, 2023
Showing with 4 additions and 16 deletions

examples/pytorch/language-modeling/run_clm.py examples/pytorch/language-modeling/run_clm.py +2 -8

examples/pytorch/language-modeling/run_mlm.py examples/pytorch/language-modeling/run_mlm.py +2 -8

No files found.
--- a/examples/pytorch/language-modeling/run_clm.py
+++ b/examples/pytorch/language-modeling/run_clm.py
@@ -419,15 +419,9 @@ def main():
    # Preprocessing the datasets.
    # First we tokenize all the texts.
    if training_args.do_train:
-        if data_args.streaming:
+        column_names = list(raw_datasets["train"].features)
-            column_names = raw_datasets["train"].features.keys()
-        else:
-            column_names = raw_datasets["train"].column_names
    else:
-        if data_args.streaming:
+        column_names = list(raw_datasets["validation"].features)
-            column_names = raw_datasets["validation"].features.keys()
-        else:
-            column_names = raw_datasets["validation"].column_names
    text_column_name = "text" if "text" in column_names else column_names[0]
    # since this will be pickled to avoid _LazyModule error in Hasher force logger loading before tokenize_function

--- a/examples/pytorch/language-modeling/run_mlm.py
+++ b/examples/pytorch/language-modeling/run_mlm.py
@@ -405,15 +405,9 @@ def main():
    # Preprocessing the datasets.
    # First we tokenize all the texts.
    if training_args.do_train:
-        if data_args.streaming:
+        column_names = list(raw_datasets["train"].features)
-            column_names = raw_datasets["train"].features.keys()
-        else:
-            column_names = raw_datasets["train"].column_names
    else:
-        if data_args.streaming:
+        column_names = list(raw_datasets["validation"].features)
-            column_names = raw_datasets["validation"].features.keys()
-        else:
-            column_names = raw_datasets["validation"].column_names
    text_column_name = "text" if "text" in column_names else column_names[0]
    if data_args.max_seq_length is None: