Merge branch 'main' into ai2d

89b6bdb3 · Baber · 59053d58 · 144a1e58 · 89b6bdb3 · 89b6bdb3
Commit 89b6bdb3 authored Feb 06, 2025 by Baber
20 changed files
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_moral_disputes.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_moral_disputes.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_moral_disputes
+tag: global_mmlu_full_ar_humanities_tasks
+task: global_mmlu_full_ar_moral_disputes
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_moral_scenarios.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_moral_scenarios.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_moral_scenarios
+tag: global_mmlu_full_ar_humanities_tasks
+task: global_mmlu_full_ar_moral_scenarios
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_nutrition.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_nutrition.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_nutrition
+tag: global_mmlu_full_ar_other_tasks
+task: global_mmlu_full_ar_nutrition
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_philosophy.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_philosophy.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_philosophy
+tag: global_mmlu_full_ar_humanities_tasks
+task: global_mmlu_full_ar_philosophy
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_prehistory.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_prehistory.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_prehistory
+tag: global_mmlu_full_ar_humanities_tasks
+task: global_mmlu_full_ar_prehistory
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_professional_accounting.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_professional_accounting.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_professional_accounting
+tag: global_mmlu_full_ar_other_tasks
+task: global_mmlu_full_ar_professional_accounting
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_professional_law.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_professional_law.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_professional_law
+tag: global_mmlu_full_ar_humanities_tasks
+task: global_mmlu_full_ar_professional_law
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_professional_medicine.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_professional_medicine.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_professional_medicine
+tag: global_mmlu_full_ar_other_tasks
+task: global_mmlu_full_ar_professional_medicine
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_professional_psychology.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_professional_psychology.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_professional_psychology
+tag: global_mmlu_full_ar_social_sciences_tasks
+task: global_mmlu_full_ar_professional_psychology
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_public_relations.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_public_relations.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_public_relations
+tag: global_mmlu_full_ar_social_sciences_tasks
+task: global_mmlu_full_ar_public_relations
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_security_studies.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_security_studies.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_security_studies
+tag: global_mmlu_full_ar_social_sciences_tasks
+task: global_mmlu_full_ar_security_studies
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_sociology.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_sociology.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_sociology
+tag: global_mmlu_full_ar_social_sciences_tasks
+task: global_mmlu_full_ar_sociology
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_us_foreign_policy.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_us_foreign_policy.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_us_foreign_policy
+tag: global_mmlu_full_ar_social_sciences_tasks
+task: global_mmlu_full_ar_us_foreign_policy
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_virology.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_virology.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_virology
+tag: global_mmlu_full_ar_other_tasks
+task: global_mmlu_full_ar_virology
--- a/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_world_religions.yaml
+++ b/lm_eval/tasks/global_mmlu/full/ar/global_mmlu_full_ar_world_religions.yaml
+# Generated by _generate_configs.py
+include: _ar_template_yaml
+process_docs: !function utils.process_world_religions
+tag: global_mmlu_full_ar_humanities_tasks
+task: global_mmlu_full_ar_world_religions
--- a/lm_eval/tasks/global_mmlu/full/ar/utils.py
+++ b/lm_eval/tasks/global_mmlu/full/ar/utils.py
+from functools import partial
+
+
+SUBJECTS = [
+    "abstract_algebra",
+    "anatomy",
+    "astronomy",
+    "business_ethics",
+    "clinical_knowledge",
+    "college_biology",
+    "college_chemistry",
+    "college_computer_science",
+    "college_mathematics",
+    "college_medicine",
+    "college_physics",
+    "computer_security",
+    "conceptual_physics",
+    "econometrics",
+    "electrical_engineering",
+    "elementary_mathematics",
+    "formal_logic",
+    "global_facts",
+    "high_school_biology",
+    "high_school_chemistry",
+    "high_school_computer_science",
+    "high_school_european_history",
+    "high_school_geography",
+    "high_school_government_and_politics",
+    "high_school_macroeconomics",
+    "high_school_mathematics",
+    "high_school_microeconomics",
+    "high_school_physics",
+    "high_school_psychology",
+    "high_school_statistics",
+    "high_school_us_history",
+    "high_school_world_history",
+    "human_aging",
+    "human_sexuality",
+    "international_law",
+    "jurisprudence",
+    "logical_fallacies",
+    "machine_learning",
+    "management",
+    "marketing",
+    "medical_genetics",
+    "miscellaneous",
+    "moral_disputes",
+    "moral_scenarios",
+    "nutrition",
+    "philosophy",
+    "prehistory",
+    "professional_accounting",
+    "professional_law",
+    "professional_medicine",
+    "professional_psychology",
+    "public_relations",
+    "security_studies",
+    "sociology",
+    "us_foreign_policy",
+    "virology",
+    "world_religions",
+]
+
+
+def process_docs(dataset, subject):
+    return dataset.filter(lambda x: x["subject"] == subject)
+
+
+process_functions = {
+    f"process_{subject}": partial(process_docs, subject=subject) for subject in SUBJECTS
+}
+
+globals().update(process_functions)
--- a/lm_eval/tasks/global_mmlu/full/bn/_bn_template_yaml
+++ b/lm_eval/tasks/global_mmlu/full/bn/_bn_template_yaml
+dataset_path: CohereForAI/Global-MMLU
+dataset_name: bn
+test_split: test
+fewshot_split: dev
+fewshot_config:
+  sampler: first_n
+output_type: multiple_choice
+doc_to_text: "{{question.strip()}}\nA. {{option_a}}\nB. {{option_b}}\nC. {{option_c}}\nD. {{option_d}}\nAnswer:"
+doc_to_choice: ["A", "B", "C", "D"]
+doc_to_target: answer
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/global_mmlu/full/bn/_global_mmlu_full_bn.yaml
+++ b/lm_eval/tasks/global_mmlu/full/bn/_global_mmlu_full_bn.yaml
+group: global_mmlu_full_bn
+task:
+  - global_mmlu_full_bn_stem
+  - global_mmlu_full_bn_other
+  - global_mmlu_full_bn_social_sciences
+  - global_mmlu_full_bn_humanities
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/global_mmlu/full/bn/_global_mmlu_full_bn_humanities.yaml
+++ b/lm_eval/tasks/global_mmlu/full/bn/_global_mmlu_full_bn_humanities.yaml
+group: global_mmlu_full_bn_humanities
+task:
+  - global_mmlu_full_bn_humanities_tasks
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/global_mmlu/full/bn/_global_mmlu_full_bn_other.yaml
+++ b/lm_eval/tasks/global_mmlu/full/bn/_global_mmlu_full_bn_other.yaml
+group: global_mmlu_full_bn_other
+task:
+  - global_mmlu_full_bn_other_tasks
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: true
+metadata:
+  version: 0.0