fix alllll the merge conflicts

7d09b24c · haileyschoelkopf · 96dfe976 · 6348b947 · 7d09b24c · 7d09b24c
Commit 7d09b24c authored Jul 03, 2024 by haileyschoelkopf
20 changed files
--- a/lm_eval/tasks/model_written_evals/sycophancy/sycophancy_on_philpapers2020.yaml
+++ b/lm_eval/tasks/model_written_evals/sycophancy/sycophancy_on_philpapers2020.yaml
-group: sycophancy
+tag: sycophancy
 task: sycophancy_on_philpapers2020
 dataset_path: EleutherAI/sycophancy
 dataset_name: sycophancy_on_philpapers2020

--- a/lm_eval/tasks/model_written_evals/sycophancy/sycophancy_on_political_typology_quiz.yaml
+++ b/lm_eval/tasks/model_written_evals/sycophancy/sycophancy_on_political_typology_quiz.yaml
-group: sycophancy
+tag: sycophancy
 task: sycophancy_on_political_typology_quiz
 dataset_path: EleutherAI/sycophancy
 dataset_name: sycophancy_on_political_typology_quiz

--- a/lm_eval/tasks/model_written_evals/winogenerated/_template_yaml
+++ b/lm_eval/tasks/model_written_evals/winogenerated/_template_yaml
-group: winogenerated
+tag: winogenerated
 dataset_path: EleutherAI/winogenerated
 output_type: multiple_choice
 validation_split: validation

--- a/lm_eval/tasks/okapi/arc_multilingual/_arc_yaml
+++ b/lm_eval/tasks/okapi/arc_multilingual/_arc_yaml
-group:
+tag:
  - arc_multilingual
 dataset_path: null
 dataset_name: null

--- a/lm_eval/tasks/okapi/hellaswag_multilingual/_hellaswag_yaml
+++ b/lm_eval/tasks/okapi/hellaswag_multilingual/_hellaswag_yaml
-group:
+tag:
  - hellaswag_multilingual
 dataset_path: null
 dataset_name: null

--- a/lm_eval/tasks/okapi/mmlu_multilingual/_default_yaml
+++ b/lm_eval/tasks/okapi/mmlu_multilingual/_default_yaml
-group:
+tag:
  - m_mmlu
 dataset_path: alexandrainst/m_mmlu
 test_split: test

--- a/lm_eval/tasks/okapi/truthfulqa_multilingual/_truthfulqa_mc1_yaml
+++ b/lm_eval/tasks/okapi/truthfulqa_multilingual/_truthfulqa_mc1_yaml
-group:
+tag:
  - truthfulqa_multilingual
 dataset_path: null
 dataset_name: null

--- a/lm_eval/tasks/paws-x/_pawsx.yaml
+++ b/lm_eval/tasks/paws-x/_pawsx.yaml
+group: pawsx
+task:
+  - paws_en
+  - paws_de
+  - paws_es
+  - paws_fr
+  - paws_ja
+  - paws_ko
+  - paws_zh
+aggregate_metric_list:
+  - metric: acc
+    aggregation: mean
+    weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/paws-x/pawsx_template_yaml
+++ b/lm_eval/tasks/paws-x/pawsx_template_yaml
 # This file will be included in the generated language-specific task configs.
 # It doesn't have a yaml file extension as it is not meant to be imported directly
 # by the harness.
-group: pawsx
 task: null
 dataset_path: paws-x
 dataset_name: null

--- a/lm_eval/tasks/pile/pile_arxiv.yaml
+++ b/lm_eval/tasks/pile/pile_arxiv.yaml
-group:
-  - pile
 task: pile_arxiv
 dataset_path: EleutherAI/pile
 dataset_name: pile_arxiv

--- a/lm_eval/tasks/polemo2/polemo2_in.yaml
+++ b/lm_eval/tasks/polemo2/polemo2_in.yaml
-group:
+tag:
  - polemo2
 task: polemo2_in
 dataset_path: allegro/klej-polemo2-in

--- a/lm_eval/tasks/qa4mre/qa4mre_2011.yaml
+++ b/lm_eval/tasks/qa4mre/qa4mre_2011.yaml
-group:
+tag:
  - qa4mre
 task: qa4mre_2011
 dataset_path: qa4mre

--- a/lm_eval/tasks/qasper/bool.yaml
+++ b/lm_eval/tasks/qasper/bool.yaml
-group: qasper
+tag: qasper
 task: qasper_bool
 dataset_path: allenai/qasper
 output_type: multiple_choice

--- a/lm_eval/tasks/qasper/freeform.yaml
+++ b/lm_eval/tasks/qasper/freeform.yaml
-group: qasper
+tag: qasper
 task: qasper_freeform
 dataset_path: allenai/qasper
 output_type: generate_until

--- a/lm_eval/tasks/squad_completion/task.py
+++ b/lm_eval/tasks/squad_completion/task.py
@@ -12,7 +12,7 @@ class SQUADCompletion(ConfigurableTask):
    DATASET_PATH = "hazyresearch/based-squad"
    DATASET_NAME = "default"
-    def __init__(self):
+    def __init__(self, **kwargs):
        super().__init__(config={"metadata": {"version": self.VERSION}})
    def has_training_docs(self):

--- a/lm_eval/tasks/storycloze/storycloze_2016.yaml
+++ b/lm_eval/tasks/storycloze/storycloze_2016.yaml
-group: storycloze
+tag: storycloze
 task: storycloze_2016
 dataset_path: story_cloze
 dataset_name: 2016

--- a/lm_eval/tasks/storycloze/storycloze_2018.yaml
+++ b/lm_eval/tasks/storycloze/storycloze_2018.yaml
-group: storycloze
+tag: storycloze
 task: storycloze_2018
 dataset_path: story_cloze
 dataset_name: 2018

--- a/lm_eval/tasks/super_glue/README.md
+++ b/lm_eval/tasks/super_glue/README.md
@@ -26,10 +26,14 @@ Homepage: https://super.gluebenchmark.com/
 }
 ```
-### Groups and Tasks
+### Groups, Tags, and Tasks
 #### Groups
+None.
+#### Tags
 * `super-glue-lm-eval-v1`: SuperGLUE eval adapted from LM Eval V1
 * `super-glue-t5-prompt`: SuperGLUE prompt and evaluation that matches the T5 paper (if using accelerate, will error if record is included.)

--- a/lm_eval/tasks/swde/task.py
+++ b/lm_eval/tasks/swde/task.py
@@ -12,7 +12,7 @@ class SWDE(ConfigurableTask):
    DATASET_PATH = "hazyresearch/based-swde-v2"
    DATASET_NAME = "default"
-    def __init__(self):
+    def __init__(self, **kwargs):
        super().__init__(config={"metadata": {"version": self.VERSION}})
    def has_training_docs(self):

--- a/lm_eval/tasks/translation/iwslt2017_ar-en.yaml
+++ b/lm_eval/tasks/translation/iwslt2017_ar-en.yaml
@@ -5,8 +5,7 @@ doc_to_target: ' {{translation["en"]}}'
 doc_to_text: 'Arabic phrase: {{translation["ar"]}}
  English phrase:'
-group:
+tag:
- generate_until
 - translation
 - iwslt2017
 include: wmt_common_yaml