BIG Reorganize examples (#4213)

* Created using Colaboratory * [examples] reorganize files * remove run_tpu_glue.py as superseded by TPU support in Trainer * Bugfix: int, not tuple * move files around

BIG Reorganize examples (#4213)
* Created using Colaboratory * [examples] reorganize files * remove run_tpu_glue.py as superseded by TPU support in Trainer * Bugfix: int, not tuple * move files around
0ae96ff8 · Julien Chaumond · GitHub · cafa6a9e · 0ae96ff8 · 0ae96ff8
Commit 0ae96ff8 authored May 07, 2020 by Julien Chaumond Committed by GitHub May 07, 2020
6 changed files
--- a/examples/tests_samples/SQUAD/dev-v2.0.json
+++ b/examples/tests_samples/SQUAD/dev-v2.0.json
--- a/examples/tests_samples/SQUAD/train-v2.0.json
+++ b/examples/tests_samples/SQUAD/train-v2.0.json
--- a/examples/tests_samples/STS-B/dev.tsv
+++ b/examples/tests_samples/STS-B/dev.tsv
--- a/examples/tests_samples/STS-B/train.tsv
+++ b/examples/tests_samples/STS-B/train.tsv
--- a/tests/test_trainer.py
+++ b/tests/test_trainer.py
@@ -28,7 +28,7 @@ class DataCollatorIntegrationTest(unittest.TestCase):
        MODEL_ID = "bert-base-cased-finetuned-mrpc"
        tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
        data_args = GlueDataTrainingArguments(
-            task_name="mrpc", data_dir="./examples/tests_samples/MRPC", overwrite_cache=True
+            task_name="mrpc", data_dir="./tests/fixtures/tests_samples/MRPC", overwrite_cache=True
        )
        dataset = GlueDataset(data_args, tokenizer=tokenizer, evaluate=True)
        data_collator = DefaultDataCollator()
@@ -39,7 +39,7 @@ class DataCollatorIntegrationTest(unittest.TestCase):
        MODEL_ID = "distilroberta-base"
        tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
        data_args = GlueDataTrainingArguments(
-            task_name="sts-b", data_dir="./examples/tests_samples/STS-B", overwrite_cache=True
+            task_name="sts-b", data_dir="./tests/fixtures/tests_samples/STS-B", overwrite_cache=True
        )
        dataset = GlueDataset(data_args, tokenizer=tokenizer, evaluate=True)
        data_collator = DefaultDataCollator()
@@ -91,7 +91,7 @@ class TrainerIntegrationTest(unittest.TestCase):
        tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
        model = AutoModelForSequenceClassification.from_pretrained(MODEL_ID)
        data_args = GlueDataTrainingArguments(
-            task_name="mrpc", data_dir="./examples/tests_samples/MRPC", overwrite_cache=True
+            task_name="mrpc", data_dir="./tests/fixtures/tests_samples/MRPC", overwrite_cache=True
        )
        eval_dataset = GlueDataset(data_args, tokenizer=tokenizer, evaluate=True)


--- a/valohai.yaml
+++ b/valohai.yaml
 ---

 - step:
-    name: Execute python examples/run_glue.py
+    name: Execute python examples/text-classification/run_glue.py
    image: pytorch/pytorch:nightly-devel-cuda10.0-cudnn7
    command:
      - python /valohai/repository/utils/download_glue_data.py --data_dir=/glue_data
      - pip install -e .
      - pip install -r examples/requirements.txt
-      - python examples/run_glue.py --do_train --data_dir=/glue_data/{parameter-value:task_name} {parameters}
+      - python examples/text-classification/run_glue.py --do_train --data_dir=/glue_data/{parameter-value:task_name} {parameters}
    parameters:
      - name: model_type
        pass-as: --model_type={v}