separate category for `global_mmlu` (#2652)

* separate category * set version 0.0 * apply precommit

separate category for `global_mmlu` (#2652)
* separate category * set version 0.0 * apply precommit
5c006ed4 · Minho Ryu · GitHub · 370e2f9e · 370e2f9e · 370e2f9e
Unverified Commit 5c006ed4 authored Jan 25, 2025 by Minho Ryu Committed by GitHub Jan 24, 2025
20 changed files
--- a/lm_eval/tasks/global_mmlu/default/global_mmlu_fr.yaml
+++ b/lm_eval/tasks/global_mmlu/default/global_mmlu_fr.yaml
-# Generated by _generate_configs.py
-dataset_name: fr
-include: _default_yaml
-task: global_mmlu_fr
--- a/lm_eval/tasks/global_mmlu/default/global_mmlu_hi.yaml
+++ b/lm_eval/tasks/global_mmlu/default/global_mmlu_hi.yaml
-# Generated by _generate_configs.py
-dataset_name: hi
-include: _default_yaml
-task: global_mmlu_hi
--- a/lm_eval/tasks/global_mmlu/default/global_mmlu_id.yaml
+++ b/lm_eval/tasks/global_mmlu/default/global_mmlu_id.yaml
-# Generated by _generate_configs.py
-dataset_name: id
-include: _default_yaml
-task: global_mmlu_id
--- a/lm_eval/tasks/global_mmlu/default/global_mmlu_it.yaml
+++ b/lm_eval/tasks/global_mmlu/default/global_mmlu_it.yaml
-# Generated by _generate_configs.py
-dataset_name: it
-include: _default_yaml
-task: global_mmlu_it
--- a/lm_eval/tasks/global_mmlu/default/global_mmlu_ja.yaml
+++ b/lm_eval/tasks/global_mmlu/default/global_mmlu_ja.yaml
-# Generated by _generate_configs.py
-dataset_name: ja
-include: _default_yaml
-task: global_mmlu_ja
--- a/lm_eval/tasks/global_mmlu/default/global_mmlu_ko.yaml
+++ b/lm_eval/tasks/global_mmlu/default/global_mmlu_ko.yaml
-# Generated by _generate_configs.py
-dataset_name: ko
-include: _default_yaml
-task: global_mmlu_ko
--- a/lm_eval/tasks/global_mmlu/default/global_mmlu_pt.yaml
+++ b/lm_eval/tasks/global_mmlu/default/global_mmlu_pt.yaml
-# Generated by _generate_configs.py
-dataset_name: pt
-include: _default_yaml
-task: global_mmlu_pt
--- a/lm_eval/tasks/global_mmlu/default/global_mmlu_sw.yaml
+++ b/lm_eval/tasks/global_mmlu/default/global_mmlu_sw.yaml
-# Generated by _generate_configs.py
-dataset_name: sw
-include: _default_yaml
-task: global_mmlu_sw
--- a/lm_eval/tasks/global_mmlu/default/global_mmlu_yo.yaml
+++ b/lm_eval/tasks/global_mmlu/default/global_mmlu_yo.yaml
-# Generated by _generate_configs.py
-dataset_name: yo
-include: _default_yaml
-task: global_mmlu_yo
--- a/lm_eval/tasks/global_mmlu/default/global_mmlu_zh.yaml
+++ b/lm_eval/tasks/global_mmlu/default/global_mmlu_zh.yaml
-# Generated by _generate_configs.py
-dataset_name: zh
-include: _default_yaml
-task: global_mmlu_zh
--- a/lm_eval/tasks/global_mmlu/default/hi/_global_mmlu_hi.yaml
+++ b/lm_eval/tasks/global_mmlu/default/hi/_global_mmlu_hi.yaml
+group: global_mmlu_hi
+task:
+  - global_mmlu_hi_business
+  - global_mmlu_hi_humanities
+  - global_mmlu_hi_medical
+  - global_mmlu_hi_other
+  - global_mmlu_hi_stem
+  - global_mmlu_hi_social_sciences
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/global_mmlu/default/hi/_hi_template_yaml
+++ b/lm_eval/tasks/global_mmlu/default/hi/_hi_template_yaml
+dataset_path: CohereForAI/Global-MMLU-Lite
+dataset_name: hi
+test_split: test
+fewshot_split: dev
+fewshot_config:
+  sampler: default
+output_type: multiple_choice
+doc_to_text: "{{question.strip()}}\nA. {{option_a}}\nB. {{option_b}}\nC. {{option_c}}\nD. {{option_d}}\nAnswer:"
+doc_to_choice: ["A", "B", "C", "D"]
+doc_to_target: answer
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/global_mmlu/default/hi/global_mmlu_hi_business.yaml
+++ b/lm_eval/tasks/global_mmlu/default/hi/global_mmlu_hi_business.yaml
+# Generated by _generate_configs.py
+include: _hi_template_yaml
+process_docs: !function utils.process_business
+task: global_mmlu_hi_business
--- a/lm_eval/tasks/global_mmlu/default/hi/global_mmlu_hi_humanities.yaml
+++ b/lm_eval/tasks/global_mmlu/default/hi/global_mmlu_hi_humanities.yaml
+# Generated by _generate_configs.py
+include: _hi_template_yaml
+process_docs: !function utils.process_humanities
+task: global_mmlu_hi_humanities
--- a/lm_eval/tasks/global_mmlu/default/hi/global_mmlu_hi_medical.yaml
+++ b/lm_eval/tasks/global_mmlu/default/hi/global_mmlu_hi_medical.yaml
+# Generated by _generate_configs.py
+include: _hi_template_yaml
+process_docs: !function utils.process_medical
+task: global_mmlu_hi_medical
--- a/lm_eval/tasks/global_mmlu/default/hi/global_mmlu_hi_other.yaml
+++ b/lm_eval/tasks/global_mmlu/default/hi/global_mmlu_hi_other.yaml
+# Generated by _generate_configs.py
+include: _hi_template_yaml
+process_docs: !function utils.process_other
+task: global_mmlu_hi_other
--- a/lm_eval/tasks/global_mmlu/default/hi/global_mmlu_hi_social_sciences.yaml
+++ b/lm_eval/tasks/global_mmlu/default/hi/global_mmlu_hi_social_sciences.yaml
+# Generated by _generate_configs.py
+include: _hi_template_yaml
+process_docs: !function utils.process_social_sciences
+task: global_mmlu_hi_social_sciences
--- a/lm_eval/tasks/global_mmlu/default/hi/global_mmlu_hi_stem.yaml
+++ b/lm_eval/tasks/global_mmlu/default/hi/global_mmlu_hi_stem.yaml
+# Generated by _generate_configs.py
+include: _hi_template_yaml
+process_docs: !function utils.process_stem
+task: global_mmlu_hi_stem
--- a/lm_eval/tasks/global_mmlu/default/hi/utils.py
+++ b/lm_eval/tasks/global_mmlu/default/hi/utils.py
+from functools import partial
+
+
+CATEGORIES = ["Business", "Humanities", "Medical", "Other", "STEM", "Social Sciences"]
+
+
+def process_docs(dataset, category):
+    return dataset.filter(lambda x: x["subject_category"] == category)
+
+
+process_functions = {
+    f"process_{category.lower().replace(' ', '_')}": partial(
+        process_docs, category=category
+    )
+    for category in CATEGORIES
+}
+
+globals().update(process_functions)
--- a/lm_eval/tasks/global_mmlu/default/id/_global_mmlu_id.yaml
+++ b/lm_eval/tasks/global_mmlu/default/id/_global_mmlu_id.yaml
+group: global_mmlu_id
+task:
+  - global_mmlu_id_business
+  - global_mmlu_id_humanities
+  - global_mmlu_id_medical
+  - global_mmlu_id_other
+  - global_mmlu_id_stem
+  - global_mmlu_id_social_sciences
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 0.0