more renaming

85b8cac7 · sanchit-gandhi · cd26d4f4 · 85b8cac7 · 85b8cac7 · 85b8cac7
Commit 85b8cac7 authored Apr 05, 2024 by sanchit-gandhi
4 changed files
--- a/README.md
+++ b/README.md
@@ -27,9 +27,9 @@ In the proceeding example, we follow Stability's approach by taking audio embedd
 model, and training the linear classifier on a combination of three open-source datasets:
 1. The English Accented (`en_accented`) subset of [Voxpopuli](https://huggingface.co/datasets/facebook/voxpopuli)
 2. The train split of [VCTK](https://huggingface.co/datasets/vctk) 
-3. The dev split of [EdAcc](https://huggingface.co/datasets/sanchit-gandhi/edacc)
+3. The dev split of [EdAcc](https://huggingface.co/datasets/edinburghcstr/edacc)
-The model is subsequently evaluated on the test split of [EdAcc](https://huggingface.co/datasets/sanchit-gandhi/edacc)
+The model is subsequently evaluated on the test split of [EdAcc](https://huggingface.co/datasets/edinburghcstr/edacc)
 to give the final classification accuracy.
 ```bash
@@ -37,11 +37,11 @@ to give the final classification accuracy.
 python run_audio_classification.py \
    --model_name_or_path "facebook/mms-lid-126" \
-    --train_dataset_name "vctk+facebook/voxpopuli+sanchit-gandhi/edacc" \
+    --train_dataset_name "vctk+facebook/voxpopuli+edinburghcstr/edacc" \
    --train_dataset_config_name "main+en_accented+default" \
    --train_split_name "train+test+validation" \
    --train_label_column_name "accent+accent+accent" \
-    --eval_dataset_name "sanchit-gandhi/edacc" \
+    --eval_dataset_name "edinburghcstr/edacc" \
    --eval_dataset_config_name "default" \
    --eval_split_name "test" \
    --eval_label_column_name "accent" \

--- a/dataset_concatenation_scripts/run_dataset_concatenation.sh
+++ b/dataset_concatenation_scripts/run_dataset_concatenation.sh
 #!/usr/bin/env bash
 python run_dataset_concatenation.py \
-    --dataset_name "sanchit-gandhi/vctk+facebook/voxpopuli+sanchit-gandhi/edacc-normalized" \
+    --dataset_name "sanchit-gandhi/vctk+facebook/voxpopuli+edinburghcstr/edacc-normalized" \
    --dataset_config_name "default+en_accented+default" \
    --dataset_split_name "train+test+validation" \
    --label_column_name "accent+accent+accent" \
@@ -11,7 +11,7 @@ python run_dataset_concatenation.py \
    --output_dir "./concatenated-dataset"
 python run_dataset_concatenation.py \
-    --dataset_name "sanchit-gandhi/edacc-normalized" \
+    --dataset_name "edinburghcstr/edacc-normalized" \
    --dataset_config_name "default" \
    --dataset_split_name "test" \
    --label_column_name "accent" \

--- a/edacc/prepare_edacc.py
+++ b/edacc/prepare_edacc.py
@@ -73,7 +73,7 @@ def main():
                "How would you describe your accent in English? (e.g. Italian, Glaswegian)"
            ]
-    accent_dataset = load_dataset("sanchit-gandhi/edacc_accents", split="train")
+    accent_dataset = load_dataset("edinburghcstr/edacc_accents", split="train")
    def format_dataset(batch):
        batch["speaker_id"] = (

--- a/edacc/run_edacc.sh
+++ b/edacc/run_edacc.sh
@@ -3,5 +3,5 @@
 python prepare_edacc.py \
    --dataset_dir "/fsx/sanchit/edacc/edacc_v1.0" \
    --output_dir "/fsx/sanchit/edacc_processed" \
-    --hub_dataset_id "sanchit-gandhi/edacc-normalized" \
+    --hub_dataset_id "edinburghcstr/edacc-normalized" \
    --push_to_hub