Move shuffling up for datasets loaded with load_dataset

d832a218 · Casper · a9cef34b · d832a218
Commit d832a218 authored Sep 15, 2023 by Casper
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 3 deletions

awq/utils/calib_data.py awq/utils/calib_data.py +5 -3

No files found.
--- a/awq/utils/calib_data.py
+++ b/awq/utils/calib_data.py
-from typing import List, Union
 import torch
 import logging
+from typing import List, Union
 from datasets import load_dataset
 def get_calib_dataset(data: Union[str, List[str]] = "pileval",
@@ -11,14 +11,16 @@ def get_calib_dataset(data: Union[str, List[str]] = "pileval",
            dataset = load_dataset("mit-han-lab/pile-val-backup", split="validation")
        else:
            dataset = load_dataset(data, split=split)
+        dataset = dataset.shuffle(seed=42)
    elif isinstance(data, list):
        dataset = [{text_column: text} for text in data]
    else:
        raise NotImplementedError(
            "Either pass a string to a huggingface dataset or a list"
            "that is preprocessed with one sample of text per element.")
-    dataset = dataset.shuffle(seed=42)
    samples = []
    n_run = 0
    for data in dataset: