removed promptsource yaml file

ed304c1d · lintangsutawika · 73c04968 · ed304c1d · 73c04968 · 73c04968
Commit ed304c1d authored Jul 24, 2023 by lintangsutawika
11 changed files
--- a/lm_eval/tasks/benchmarks/t0_eval.yaml
+++ b/lm_eval/tasks/benchmarks/t0_eval.yaml
 group: t0_eval
 task:
-  # Coreference Resolution
+  # # Coreference Resolution
-  - dataset_path: super_glue
+  # - dataset_path: super_glue
-    dataset_name: wsc.fixed
+  #   dataset_name: wsc.fixed
-    use_prompt: promptsource:*
+  #   use_prompt: promptsource:*
-    training_split: train
+  #   training_split: train
-    validation_split: validation
+  #   validation_split: validation
-    metric_list:
+  #   metric_list:
-      - metric: exact_match
+  #     - metric: exact_match
-        aggregation: mean
+  #       aggregation: mean
-        higher_is_better: true
+  #       higher_is_better: true
-        ignore_case: true
+  #       ignore_case: true
-        ignore_punctuation: true
+  #       ignore_punctuation: true
-  # Coreference Resolution
+  # # Coreference Resolution
-  - dataset_path: winogrande
+  # - dataset_path: winogrande
-    dataset_name: winogrande_xl
+  #   dataset_name: winogrande_xl
-    use_prompt: promptsource:*
+  #   use_prompt: promptsource:*
-    training_split: train
+  #   training_split: train
-    validation_split: validation
+  #   validation_split: validation
-    metric_list:
+  #   metric_list:
-      - metric: exact_match
+  #     - metric: exact_match
-        aggregation: mean
+  #       aggregation: mean
-        higher_is_better: true
+  #       higher_is_better: true
-        ignore_case: true
+  #       ignore_case: true
-        ignore_punctuation: true
+  #       ignore_punctuation: true
  # Natural Language Inference
  - dataset_path: super_glue
    dataset_name: cb
@@ -48,41 +48,43 @@ task:
        higher_is_better: true
        ignore_case: true
        ignore_punctuation: true
-  # Natural Language Inference
+  # # Natural Language Inference
-  # - dataset_path: anli
+  # # - dataset_path: anli
+  # #   use_prompt: promptsource:*
+  # #   training_split: train_r1
+  # #   validation_split: dev_r1
+  # # Sentence Completion
+  # - dataset_path: super_glue
+  #   dataset_name: copa
  #   use_prompt: promptsource:*
-  # Sentence Completion
+  #   training_split: train
-  - dataset_path: super_glue
+  #   validation_split: validation
-    dataset_name: copa
+  #   metric_list:
-    use_prompt: promptsource:*
+  #     - metric: exact_match
-    training_split: train
+  #       aggregation: mean
-    validation_split: validation
+  #       higher_is_better: true
-    metric_list:
+  #       ignore_case: true
-      - metric: exact_match
+  #       ignore_punctuation: true
-        aggregation: mean
+  # # Natural Language Inference
-        higher_is_better: true
+  # - dataset_path: hellaswag
-        ignore_case: true
+  #   use_prompt: promptsource:*
-        ignore_punctuation: true
+  #   training_split: train
-  # Natural Language Inference
+  #   validation_split: validation
-  - dataset_path: hellaswag
+  #   metric_list:
-    use_prompt: promptsource:*
+  #     - metric: exact_match
-    training_split: train
+  #       aggregation: mean
-    validation_split: validation
+  #       higher_is_better: true
-    metric_list:
+  #       ignore_case: true
-      - metric: exact_match
+  #       ignore_punctuation: true
-        aggregation: mean
+  # # Word Sense Disambiguation
-        higher_is_better: true
+  # - dataset_path: super_glue
-        ignore_case: true
+  #   dataset_name: wic
-        ignore_punctuation: true
+  #   use_prompt: promptsource:*
-  # Word Sense Disambiguation
+  #   training_split: train
-  - dataset_path: super_glue
+  #   validation_split: validation
-    dataset_name: wic
+  #   metric_list:
-    use_prompt: promptsource:*
+  #     - metric: exact_match
-    training_split: train
+  #       aggregation: mean
-    validation_split: validation
+  #       higher_is_better: true
-    metric_list:
+  #       ignore_case: true
-      - metric: exact_match
+  #       ignore_punctuation: true
-        aggregation: mean
-        higher_is_better: true
-        ignore_case: true
-        ignore_punctuation: true
--- a/lm_eval/tasks/super_glue/multirc/promptsource-00.yaml
+++ b/lm_eval/tasks/super_glue/multirc/promptsource-00.yaml
-group:
-  - super-glue-promptsource
-task: "I was going to say…"
-dataset_path: super_glue
-dataset_name: multirc
-training_split: train
-validation_split: validation
-use_prompt: "promptsource:I was going to say…"
-metric_list:
-  - metric: exact_match
-    aggregation: mean
-    higher_is_better: true
-    ignore_case: true
-    ignore_punctuation: true
--- a/lm_eval/tasks/super_glue/multirc/promptsource-01.yaml
+++ b/lm_eval/tasks/super_glue/multirc/promptsource-01.yaml
-include: promptsource-00.yaml
-group:
-  - super-glue-promptsource
-task: "Would it be good to answer…"
-use_prompt: "promptsource:Would it be good to answer…"
--- a/lm_eval/tasks/super_glue/multirc/promptsource-02.yaml
+++ b/lm_eval/tasks/super_glue/multirc/promptsource-02.yaml
-include: promptsource-00.yaml
-group:
-  - super-glue-promptsource
-task: "confirm"
-use_prompt: "promptsource:confirm"
--- a/lm_eval/tasks/super_glue/record/promptsource-00.yaml
+++ b/lm_eval/tasks/super_glue/record/promptsource-00.yaml
-group:
-  - super-glue-promptsource
-task: "Add sentence after (continuation choices)"
-dataset_path: super_glue
-dataset_name: record
-training_split: train
-validation_split: validation
-use_prompt: "promptsource:Add sentence after (continuation choices)"
-metric_list:
-  - metric: exact_match
-    aggregation: mean
-    higher_is_better: true
-    ignore_case: true
-    ignore_punctuation: true
--- a/lm_eval/tasks/super_glue/rte/promptsource-00.yaml
+++ b/lm_eval/tasks/super_glue/rte/promptsource-00.yaml
-group:
-  - super-glue-promptsource
-task: "rte"
-dataset_path: super_glue
-dataset_name: rte
-training_split: train
-validation_split: validation
-use_prompt: "promptsource:GPT-3 style"
-generation_kwargs:
-    until:
-    - "\n"
-    - "\n\n"
-metric_list:
-  - metric: exact_match
-    aggregation: mean
-    higher_is_better: true
-    ignore_case: true
-    ignore_punctuation: true
--- a/lm_eval/tasks/super_glue/rte/promptsource-01.yaml
+++ b/lm_eval/tasks/super_glue/rte/promptsource-01.yaml
-include: promptsource-00.yaml
-group:
-  - super-glue-promptsource
-task: "MNLI crowdsource"
-use_prompt: "promptsource:MNLI crowdsource"
--- a/lm_eval/tasks/super_glue/rte/promptsource-02.yaml
+++ b/lm_eval/tasks/super_glue/rte/promptsource-02.yaml
-include: promptsource-00.yaml
-group:
-  - super-glue-promptsource
-task: "based on the previous passage"
-use_prompt: "promptsource:based on the previous passage"
--- a/lm_eval/tasks/super_glue/wsc.fixed/promptsource-00.yaml
+++ b/lm_eval/tasks/super_glue/wsc.fixed/promptsource-00.yaml
-group:
-  - super-glue-promptsource
-task: "GPT-3 Style"
-dataset_path: super_glue
-dataset_name: wsc.fixed
-training_split: train
-validation_split: validation
-use_prompt: "promptsource:GPT-3 Style"
-metric_list:
-  - metric: exact_match
-    aggregation: mean
-    higher_is_better: true
-    ignore_case: true
-    ignore_punctuation: true
--- a/lm_eval/tasks/super_glue/wsc.fixed/promptsource-01.yaml
+++ b/lm_eval/tasks/super_glue/wsc.fixed/promptsource-01.yaml
-include: promptsource-00.yaml
-group:
-  - super-glue-promptsource
-task: "I think they mean"
-use_prompt: "promptsource:I think they mean"
--- a/lm_eval/tasks/super_glue/wsc.fixed/promptsource-02.yaml
+++ b/lm_eval/tasks/super_glue/wsc.fixed/promptsource-02.yaml
-include: promptsource-00.yaml
-group:
-  - super-glue-promptsource
-task: "Who or what is/are"
-use_prompt: "promptsource:Who or what is/are"