add dataset (#20005)

1f6885ba · Steven Liu · GitHub · 4f1e5e4e · 1f6885ba
Unverified Commit 1f6885ba authored Nov 01, 2022 by Steven Liu Committed by GitHub Nov 01, 2022
Hide whitespace changes
Inline Side-by-side

Showing with 17 additions and 6 deletions

docs/source/en/quicktour.mdx docs/source/en/quicktour.mdx +17 -6

No files found.
--- a/docs/source/en/quicktour.mdx
+++ b/docs/source/en/quicktour.mdx
@@ -432,19 +432,30 @@ Depending on your task, you'll typically pass the following parameters to [`Trai
   >>> tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")
   ```

-4. Your preprocessed train and test datasets:
+4. Load a dataset:

   ```py
-   >>> train_dataset = dataset["train"]  # doctest: +SKIP
-   >>> eval_dataset = dataset["eval"]  # doctest: +SKIP
+   >>> from datasets import load_dataset
+
+   >>> dataset = load_dataset("rottten_tomatoes")
+   ```
+
+5. Create a function to tokenize the dataset, and apply it over the entire dataset with [`~datasets.Dataset.map`]:
+
+   ```py
+   >>> def tokenize_dataset(dataset):
+   ...     return tokenizer(dataset["text"])
+
+
+   >>> dataset = dataset.map(tokenize_dataset, batched=True)
   ```

-5. A [`DataCollator`] to create a batch of examples from your dataset:
+6. A [`DataCollatorWithPadding`] to create a batch of examples from your dataset:

   ```py
-   >>> from transformers import DefaultDataCollator
+   >>> from transformers import DataCollatorWithPadding

-   >>> data_collator = DefaultDataCollator()
+   >>> data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
   ```

 Now gather all these classes in [`Trainer`]: