docs: add docs for map, and add num procs to load_dataset (#27520)

69c9b89f · Phuc Van Phan · GitHub · 85fde09c · 69c9b89f
Unverified Commit 69c9b89f authored Nov 16, 2023 by Phuc Van Phan Committed by GitHub Nov 16, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 1 deletion

examples/flax/speech-recognition/run_flax_speech_recognition_seq2seq.py ...speech-recognition/run_flax_speech_recognition_seq2seq.py +3 -1

No files found.
--- a/examples/flax/speech-recognition/run_flax_speech_recognition_seq2seq.py
+++ b/examples/flax/speech-recognition/run_flax_speech_recognition_seq2seq.py
@@ -439,6 +439,7 @@ def main():
            data_args.dataset_config_name,
            split=data_args.train_split_name,
            cache_dir=data_args.dataset_cache_dir,
+            num_proc=data_args.preprocessing_num_workers,
            token=True if model_args.use_auth_token else None,
        )

@@ -448,6 +449,7 @@ def main():
            data_args.dataset_config_name,
            split=data_args.eval_split_name,
            cache_dir=data_args.dataset_cache_dir,
+            num_proc=data_args.preprocessing_num_workers,
            token=True if model_args.use_auth_token else None,
        )

@@ -551,7 +553,7 @@ def main():
        prepare_dataset,
        remove_columns=next(iter(raw_datasets.values())).column_names,
        num_proc=num_workers,
-        desc="preprocess train dataset",
+        desc="preprocess train and eval dataset",
    )

    # filter training data with inputs longer than max_input_length