Merge branch 'group-agg-rework' of...

Merge branch 'group-agg-rework' of https://github.com/EleutherAI/lm-evaluation-harness into multiprompt

Merge branch 'group-agg-rework' of...
Merge branch 'group-agg-rework' of https://github.com/EleutherAI/lm-evaluation-harness into multiprompt
88486e57 · lintangsutawika · 5971f2ca · ba73d131 · 88486e57 · 88486e57
Commit 88486e57 authored Jul 05, 2024 by lintangsutawika
20 changed files
--- a/lm_eval/tasks/mmlu/continuation/mmlu_professional_law.yaml
+++ b/lm_eval/tasks/mmlu/continuation/mmlu_professional_law.yaml
 "dataset_name": "professional_law"
 "description": "The following are questions (with answers) about professional\
  \ law.\n\n"
-"group": "mmlu_continuation_humanities"
+"tag": "mmlu_continuation_humanities"
 "include": "_continuation_template_yaml"
 "task": "mmlu_continuation_professional_law"
--- a/lm_eval/tasks/mmlu/continuation/mmlu_professional_medicine.yaml
+++ b/lm_eval/tasks/mmlu/continuation/mmlu_professional_medicine.yaml
 "dataset_name": "professional_medicine"
 "description": "The following are questions (with answers) about professional\
  \ medicine.\n\n"
-"group": "mmlu_continuation_other"
+"tag": "mmlu_continuation_other"
 "include": "_continuation_template_yaml"
 "task": "mmlu_continuation_professional_medicine"
--- a/lm_eval/tasks/mmlu/continuation/mmlu_professional_psychology.yaml
+++ b/lm_eval/tasks/mmlu/continuation/mmlu_professional_psychology.yaml
 "dataset_name": "professional_psychology"
 "description": "The following are questions (with answers) about professional\
  \ psychology.\n\n"
-"group": "mmlu_continuation_social_sciences"
+"tag": "mmlu_continuation_social_sciences"
 "include": "_continuation_template_yaml"
 "task": "mmlu_continuation_professional_psychology"
--- a/lm_eval/tasks/mmlu/continuation/mmlu_public_relations.yaml
+++ b/lm_eval/tasks/mmlu/continuation/mmlu_public_relations.yaml
 "dataset_name": "public_relations"
 "description": "The following are questions (with answers) about public\
  \ relations.\n\n"
-"group": "mmlu_continuation_social_sciences"
+"tag": "mmlu_continuation_social_sciences"
 "include": "_continuation_template_yaml"
 "task": "mmlu_continuation_public_relations"
--- a/lm_eval/tasks/mmlu/continuation/mmlu_security_studies.yaml
+++ b/lm_eval/tasks/mmlu/continuation/mmlu_security_studies.yaml
 "dataset_name": "security_studies"
 "description": "The following are questions (with answers) about security\
  \ studies.\n\n"
-"group": "mmlu_continuation_social_sciences"
+"tag": "mmlu_continuation_social_sciences"
 "include": "_continuation_template_yaml"
 "task": "mmlu_continuation_security_studies"
--- a/lm_eval/tasks/mmlu/continuation/mmlu_sociology.yaml
+++ b/lm_eval/tasks/mmlu/continuation/mmlu_sociology.yaml
 "dataset_name": "sociology"
 "description": "The following are questions (with answers) about sociology.\n\
  \n"
-"group": "mmlu_continuation_social_sciences"
+"tag": "mmlu_continuation_social_sciences"
 "include": "_continuation_template_yaml"
 "task": "mmlu_continuation_sociology"
--- a/lm_eval/tasks/mmlu/continuation/mmlu_us_foreign_policy.yaml
+++ b/lm_eval/tasks/mmlu/continuation/mmlu_us_foreign_policy.yaml
 "dataset_name": "us_foreign_policy"
 "description": "The following are questions (with answers) about us\
  \ foreign policy.\n\n"
-"group": "mmlu_continuation_social_sciences"
+"tag": "mmlu_continuation_social_sciences"
 "include": "_continuation_template_yaml"
 "task": "mmlu_continuation_us_foreign_policy"
--- a/lm_eval/tasks/mmlu/continuation/mmlu_virology.yaml
+++ b/lm_eval/tasks/mmlu/continuation/mmlu_virology.yaml
 "dataset_name": "virology"
 "description": "The following are questions (with answers) about virology.\n\
  \n"
-"group": "mmlu_continuation_other"
+"tag": "mmlu_continuation_other"
 "include": "_continuation_template_yaml"
 "task": "mmlu_continuation_virology"
--- a/lm_eval/tasks/mmlu/continuation/mmlu_world_religions.yaml
+++ b/lm_eval/tasks/mmlu/continuation/mmlu_world_religions.yaml
 "dataset_name": "world_religions"
 "description": "The following are questions (with answers) about world\
  \ religions.\n\n"
-"group": "mmlu_continuation_humanities"
+"tag": "mmlu_continuation_humanities"
 "include": "_continuation_template_yaml"
 "task": "mmlu_continuation_world_religions"
--- a/lm_eval/tasks/mmlu/default/_default_template_yaml
+++ b/lm_eval/tasks/mmlu/default/_default_template_yaml
@@ -13,3 +13,5 @@ metric_list:
    higher_is_better: true
 metadata:
  version: 0.0
+dataset_kwargs:
+  trust_remote_code: true
--- a/lm_eval/tasks/mmlu/default/_mmlu.yaml
+++ b/lm_eval/tasks/mmlu/default/_mmlu.yaml
@@ -4,6 +4,8 @@ task:
  - mmlu_other
  - mmlu_social_sciences
  - mmlu_humanities
-aggregate_metric: True
-weight_by_size: True
-version: 1
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 1
--- a/lm_eval/tasks/mmlu/default/_mmlu_humanities.yaml
+++ b/lm_eval/tasks/mmlu/default/_mmlu_humanities.yaml
@@ -2,6 +2,8 @@ group: mmlu_humanities
 group_alias: humanities
 task:
  - mmlu_humanities_tasks
-aggregate_metric: True
-weight_by_size: True
-version: 1
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 1
--- a/lm_eval/tasks/mmlu/default/_mmlu_other.yaml
+++ b/lm_eval/tasks/mmlu/default/_mmlu_other.yaml
@@ -2,6 +2,8 @@ group: mmlu_other
 group_alias: other
 task:
  - mmlu_other_tasks
-aggregate_metric: True
-weight_by_size: True
-version: 1
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 1
--- a/lm_eval/tasks/mmlu/default/_mmlu_social_sciences.yaml
+++ b/lm_eval/tasks/mmlu/default/_mmlu_social_sciences.yaml
@@ -2,6 +2,8 @@ group: mmlu_social_sciences
 group_alias: social sciences
 task:
  - mmlu_social_sciences_tasks
-aggregate_metric: True
-weight_by_size: True
-version: 1
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 1
--- a/lm_eval/tasks/mmlu/default/_mmlu_stem.yaml
+++ b/lm_eval/tasks/mmlu/default/_mmlu_stem.yaml
@@ -2,6 +2,8 @@ group: mmlu_stem
 group_alias: stem
 task:
  - mmlu_stem_tasks
-aggregate_metric: True
-weight_by_size: True
-version: 1
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 1
--- a/lm_eval/tasks/mmlu/default/mmlu_abstract_algebra.yaml
+++ b/lm_eval/tasks/mmlu/default/mmlu_abstract_algebra.yaml
 "dataset_name": "abstract_algebra"
 "description": "The following are multiple choice questions (with answers) about abstract\
  \ algebra.\n\n"
-"group": "mmlu_stem_tasks"
+"tag": "mmlu_stem_tasks"
 "include": "_default_template_yaml"
 "task": "mmlu_abstract_algebra"
 "task_alias": "abstract_algebra"
--- a/lm_eval/tasks/mmlu/default/mmlu_anatomy.yaml
+++ b/lm_eval/tasks/mmlu/default/mmlu_anatomy.yaml
 "dataset_name": "anatomy"
 "description": "The following are multiple choice questions (with answers) about anatomy.\n\
  \n"
-"group": "mmlu_stem_tasks"
+"tag": "mmlu_stem_tasks"
 "include": "_default_template_yaml"
 "task": "mmlu_anatomy"
 "task_alias": "anatomy"
--- a/lm_eval/tasks/mmlu/default/mmlu_astronomy.yaml
+++ b/lm_eval/tasks/mmlu/default/mmlu_astronomy.yaml
 "dataset_name": "astronomy"
 "description": "The following are multiple choice questions (with answers) about astronomy.\n\
  \n"
-"group": "mmlu_stem_tasks"
+"tag": "mmlu_stem_tasks"
 "include": "_default_template_yaml"
 "task": "mmlu_astronomy"
 "task_alias": "astronomy"
--- a/lm_eval/tasks/mmlu/default/mmlu_business_ethics.yaml
+++ b/lm_eval/tasks/mmlu/default/mmlu_business_ethics.yaml
 "dataset_name": "business_ethics"
 "description": "The following are multiple choice questions (with answers) about business\
  \ ethics.\n\n"
-"group": "mmlu_other_tasks"
+"tag": "mmlu_other_tasks"
 "include": "_default_template_yaml"
 "task": "mmlu_business_ethics"
 "task_alias": "business_ethics"
--- a/lm_eval/tasks/mmlu/default/mmlu_clinical_knowledge.yaml
+++ b/lm_eval/tasks/mmlu/default/mmlu_clinical_knowledge.yaml
 "dataset_name": "clinical_knowledge"
 "description": "The following are multiple choice questions (with answers) about clinical\
  \ knowledge.\n\n"
-"group": "mmlu_other_tasks"
+"tag": "mmlu_other_tasks"
 "include": "_default_template_yaml"
 "task": "mmlu_clinical_knowledge"
 "task_alias": "clinical_knowledge"