Merge branch 'main' into multimodal-prototyping

e4db76cb · haileyschoelkopf · 6cc6e9cd · ad80f555 · e4db76cb · e4db76cb
Commit e4db76cb authored Jul 09, 2024 by haileyschoelkopf
20 changed files
--- a/lm_eval/tasks/agieval/math.yaml
+++ b/lm_eval/tasks/agieval/math.yaml
-group:
-  - agieval
-  - agieval_en
 task: agieval_math
 dataset_path: hails/agieval-math
 dataset_name: null

--- a/lm_eval/tasks/agieval/sat-en-without-passage.yaml
+++ b/lm_eval/tasks/agieval/sat-en-without-passage.yaml
 include: aqua-rat.yaml
-group:
-  - agieval
-  - agieval_nous
-  - agieval_en
 task: agieval_sat_en_without_passage
 dataset_path: hails/agieval-sat-en-without-passage
--- a/lm_eval/tasks/agieval/sat-en.yaml
+++ b/lm_eval/tasks/agieval/sat-en.yaml
 include: aqua-rat.yaml
-group:
-  - agieval
-  - agieval_nous
-  - agieval_en
 task: agieval_sat_en
 dataset_path: hails/agieval-sat-en
--- a/lm_eval/tasks/agieval/sat-math.yaml
+++ b/lm_eval/tasks/agieval/sat-math.yaml
 include: aqua-rat.yaml
-group:
-  - agieval
-  - agieval_nous
-  - agieval_en
 task: agieval_sat_math
 dataset_path: hails/agieval-sat-math
--- a/lm_eval/tasks/anli/anli_r1.yaml
+++ b/lm_eval/tasks/anli/anli_r1.yaml
-group:
+tag:
  - anli
 task: anli_r1
 dataset_path: anli

--- a/lm_eval/tasks/arabicmmlu/arabicmmlu.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu.yaml
@@ -5,3 +5,8 @@ task:
 - arabicmmlu_humanities
 - arabicmmlu_stem
 - arabicmmlu_language
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 0
--- a/lm_eval/tasks/arabicmmlu/_arabicmmlu_humanities.yaml
+++ b/lm_eval/tasks/arabicmmlu/_arabicmmlu_humanities.yaml
+group: arabicmmlu_humanities
+group_alias: Humanities
+task:
+  - arabicmmlu_humanities_tasks
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 0
--- a/lm_eval/tasks/arabicmmlu/_arabicmmlu_language.yaml
+++ b/lm_eval/tasks/arabicmmlu/_arabicmmlu_language.yaml
+group: arabicmmlu_language
+group_alias: Language
+task:
+  - arabicmmlu_language_tasks
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 0
--- a/lm_eval/tasks/arabicmmlu/_arabicmmlu_other.yaml
+++ b/lm_eval/tasks/arabicmmlu/_arabicmmlu_other.yaml
+group: arabicmmlu_other
+group_alias: Other
+task:
+  - arabicmmlu_other_tasks
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 0
--- a/lm_eval/tasks/arabicmmlu/_arabicmmlu_social_science.yaml
+++ b/lm_eval/tasks/arabicmmlu/_arabicmmlu_social_science.yaml
+group: arabicmmlu_social_science
+group_alias: Social Science
+task:
+  - arabicmmlu_social_science_tasks
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 0
--- a/lm_eval/tasks/arabicmmlu/_arabicmmlu_stem.yaml
+++ b/lm_eval/tasks/arabicmmlu/_arabicmmlu_stem.yaml
+group: arabicmmlu_stem
+group_alias: STEM
+task:
+  - arabicmmlu_stem_tasks
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 0
--- a/lm_eval/tasks/arabicmmlu/_default_template_yaml
+++ b/lm_eval/tasks/arabicmmlu/_default_template_yaml
@@ -11,3 +11,5 @@ metric_list:
  - metric: acc
    aggregation: mean
    higher_is_better: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/arabicmmlu/_generate_configs.py
+++ b/lm_eval/tasks/arabicmmlu/_generate_configs.py
@@ -59,7 +59,7 @@ SUBJECTS = {
 def parse_args():
    parser = argparse.ArgumentParser()
-    parser.add_argument("--base_yaml_path", default="_default_template_yaml")
+    parser.add_argument("--base_yaml_path", default="_default_arabicmmlu_template_yaml")
    parser.add_argument("--save_prefix_path", default="arabicmmlu")
    return parser.parse_args()
@@ -81,8 +81,7 @@ if __name__ == "__main__":
        yaml_dict = {
            "include": base_yaml_name,
-            "group": f"arabicmmlu_{category}",
+            "tag": f"arabicmmlu_{category}",
-            "group_alias": category.replace("_", " "),
            "task": f"arabicmmlu_{subject.lower().replace(' ', '_')}",
            "task_alias": subject,
            "dataset_name": subject,

--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_arabic_language_general.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_arabic_language_general.yaml
 "dataset_name": "Arabic Language (General)"
-"group": "arabicmmlu_language"
+"tag": "arabicmmlu_language_tasks"
-"group_alias": "language"
+"include": "_default_arabicmmlu_template_yaml"
-"include": "_default_template_yaml"
 "task": "arabicmmlu_arabic_language_(general)"
 "task_alias": "Arabic Language (General)"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_arabic_language_grammar.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_arabic_language_grammar.yaml
 "dataset_name": "Arabic Language (Grammar)"
-"group": "arabicmmlu_language"
+"tag": "arabicmmlu_language_tasks"
-"group_alias": "language"
+"include": "_default_arabicmmlu_template_yaml"
-"include": "_default_template_yaml"
 "task": "arabicmmlu_arabic_language_(grammar)"
 "task_alias": "Arabic Language (Grammar)"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_driving_test.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_driving_test.yaml
 "dataset_name": "Driving Test"
-"group": "arabicmmlu_other"
+"tag": "arabicmmlu_other_tasks"
-"group_alias": "other"
+"include": "_default_arabicmmlu_template_yaml"
-"include": "_default_template_yaml"
 "task": "arabicmmlu_driving_test"
 "task_alias": "Driving Test"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_general_knowledge.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_general_knowledge.yaml
 "dataset_name": "General Knowledge"
-"group": "arabicmmlu_other"
+"tag": "arabicmmlu_other_tasks"
-"group_alias": "other"
+"include": "_default_arabicmmlu_template_yaml"
-"include": "_default_template_yaml"
 "task": "arabicmmlu_general_knowledge"
 "task_alias": "General Knowledge"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_high_arabic_language.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_high_arabic_language.yaml
 "dataset_name": "High Arabic Language"
-"group": "arabicmmlu_language"
+"tag": "arabicmmlu_language_tasks"
-"group_alias": "language"
+"include": "_default_arabicmmlu_template_yaml"
-"include": "_default_template_yaml"
 "task": "arabicmmlu_high_arabic_language"
 "task_alias": "High Arabic Language"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_high_biology.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_high_biology.yaml
 "dataset_name": "High Biology"
-"group": "arabicmmlu_stem"
+"tag": "arabicmmlu_stem_tasks"
-"group_alias": "stem"
+"include": "_default_arabicmmlu_template_yaml"
-"include": "_default_template_yaml"
 "task": "arabicmmlu_high_biology"
 "task_alias": "High Biology"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_high_civics.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_high_civics.yaml
 "dataset_name": "High Civics"
-"group": "arabicmmlu_social_science"
+"tag": "arabicmmlu_social_science_tasks"
-"group_alias": "social science"
+"include": "_default_arabicmmlu_template_yaml"
-"include": "_default_template_yaml"
 "task": "arabicmmlu_high_civics"
 "task_alias": "High Civics"