Merge branch 'main' into llama

4288b53e · Baber · 37eb9c9d · 94344a61 · 4288b53e · 4288b53e
Commit 4288b53e authored Jan 29, 2025 by Baber
20 changed files
--- a/lm_eval/tasks/global_mmlu/default/bn/global_mmlu_bn_social_sciences.yaml
+++ b/lm_eval/tasks/global_mmlu/default/bn/global_mmlu_bn_social_sciences.yaml
+# Generated by _generate_configs.py
+include: _bn_template_yaml
+process_docs: !function utils.process_social_sciences
+task: global_mmlu_bn_social_sciences
--- a/lm_eval/tasks/global_mmlu/default/bn/global_mmlu_bn_stem.yaml
+++ b/lm_eval/tasks/global_mmlu/default/bn/global_mmlu_bn_stem.yaml
+# Generated by _generate_configs.py
+include: _bn_template_yaml
+process_docs: !function utils.process_stem
+task: global_mmlu_bn_stem
--- a/lm_eval/tasks/global_mmlu/default/bn/utils.py
+++ b/lm_eval/tasks/global_mmlu/default/bn/utils.py
+from functools import partial
+CATEGORIES = ["Business", "Humanities", "Medical", "Other", "STEM", "Social Sciences"]
+def process_docs(dataset, category):
+    return dataset.filter(lambda x: x["subject_category"] == category)
+process_functions = {
+    f"process_{category.lower().replace(' ', '_')}": partial(
+        process_docs, category=category
+    )
+    for category in CATEGORIES
+}
+globals().update(process_functions)
--- a/lm_eval/tasks/global_mmlu/default/de/_de_template_yaml
+++ b/lm_eval/tasks/global_mmlu/default/de/_de_template_yaml
+dataset_path: CohereForAI/Global-MMLU-Lite
+dataset_name: de
+test_split: test
+fewshot_split: dev
+fewshot_config:
+  sampler: default
+output_type: multiple_choice
+doc_to_text: "{{question.strip()}}\nA. {{option_a}}\nB. {{option_b}}\nC. {{option_c}}\nD. {{option_d}}\nAnswer:"
+doc_to_choice: ["A", "B", "C", "D"]
+doc_to_target: answer
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/global_mmlu/default/de/_global_mmlu_de.yaml
+++ b/lm_eval/tasks/global_mmlu/default/de/_global_mmlu_de.yaml
+group: global_mmlu_de
+task:
+  - global_mmlu_de_business
+  - global_mmlu_de_humanities
+  - global_mmlu_de_medical
+  - global_mmlu_de_other
+  - global_mmlu_de_stem
+  - global_mmlu_de_social_sciences
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/global_mmlu/default/de/global_mmlu_de_business.yaml
+++ b/lm_eval/tasks/global_mmlu/default/de/global_mmlu_de_business.yaml
+# Generated by _generate_configs.py
+include: _de_template_yaml
+process_docs: !function utils.process_business
+task: global_mmlu_de_business
--- a/lm_eval/tasks/global_mmlu/default/de/global_mmlu_de_humanities.yaml
+++ b/lm_eval/tasks/global_mmlu/default/de/global_mmlu_de_humanities.yaml
+# Generated by _generate_configs.py
+include: _de_template_yaml
+process_docs: !function utils.process_humanities
+task: global_mmlu_de_humanities
--- a/lm_eval/tasks/global_mmlu/default/de/global_mmlu_de_medical.yaml
+++ b/lm_eval/tasks/global_mmlu/default/de/global_mmlu_de_medical.yaml
+# Generated by _generate_configs.py
+include: _de_template_yaml
+process_docs: !function utils.process_medical
+task: global_mmlu_de_medical
--- a/lm_eval/tasks/global_mmlu/default/de/global_mmlu_de_other.yaml
+++ b/lm_eval/tasks/global_mmlu/default/de/global_mmlu_de_other.yaml
+# Generated by _generate_configs.py
+include: _de_template_yaml
+process_docs: !function utils.process_other
+task: global_mmlu_de_other
--- a/lm_eval/tasks/global_mmlu/default/de/global_mmlu_de_social_sciences.yaml
+++ b/lm_eval/tasks/global_mmlu/default/de/global_mmlu_de_social_sciences.yaml
+# Generated by _generate_configs.py
+include: _de_template_yaml
+process_docs: !function utils.process_social_sciences
+task: global_mmlu_de_social_sciences
--- a/lm_eval/tasks/global_mmlu/default/de/global_mmlu_de_stem.yaml
+++ b/lm_eval/tasks/global_mmlu/default/de/global_mmlu_de_stem.yaml
+# Generated by _generate_configs.py
+include: _de_template_yaml
+process_docs: !function utils.process_stem
+task: global_mmlu_de_stem
--- a/lm_eval/tasks/global_mmlu/default/de/utils.py
+++ b/lm_eval/tasks/global_mmlu/default/de/utils.py
+from functools import partial
+CATEGORIES = ["Business", "Humanities", "Medical", "Other", "STEM", "Social Sciences"]
+def process_docs(dataset, category):
+    return dataset.filter(lambda x: x["subject_category"] == category)
+process_functions = {
+    f"process_{category.lower().replace(' ', '_')}": partial(
+        process_docs, category=category
+    )
+    for category in CATEGORIES
+}
+globals().update(process_functions)
--- a/lm_eval/tasks/global_mmlu/default/en/_en_template_yaml
+++ b/lm_eval/tasks/global_mmlu/default/en/_en_template_yaml
+dataset_path: CohereForAI/Global-MMLU-Lite
+dataset_name: en
+test_split: test
+fewshot_split: dev
+fewshot_config:
+  sampler: default
+output_type: multiple_choice
+doc_to_text: "{{question.strip()}}\nA. {{option_a}}\nB. {{option_b}}\nC. {{option_c}}\nD. {{option_d}}\nAnswer:"
+doc_to_choice: ["A", "B", "C", "D"]
+doc_to_target: answer
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/global_mmlu/default/en/_global_mmlu_en.yaml
+++ b/lm_eval/tasks/global_mmlu/default/en/_global_mmlu_en.yaml
+group: global_mmlu_en
+task:
+  - global_mmlu_en_business
+  - global_mmlu_en_humanities
+  - global_mmlu_en_medical
+  - global_mmlu_en_other
+  - global_mmlu_en_stem
+  - global_mmlu_en_social_sciences
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/global_mmlu/default/en/global_mmlu_en_business.yaml
+++ b/lm_eval/tasks/global_mmlu/default/en/global_mmlu_en_business.yaml
+# Generated by _generate_configs.py
+include: _en_template_yaml
+process_docs: !function utils.process_business
+task: global_mmlu_en_business
--- a/lm_eval/tasks/global_mmlu/default/en/global_mmlu_en_humanities.yaml
+++ b/lm_eval/tasks/global_mmlu/default/en/global_mmlu_en_humanities.yaml
+# Generated by _generate_configs.py
+include: _en_template_yaml
+process_docs: !function utils.process_humanities
+task: global_mmlu_en_humanities
--- a/lm_eval/tasks/global_mmlu/default/en/global_mmlu_en_medical.yaml
+++ b/lm_eval/tasks/global_mmlu/default/en/global_mmlu_en_medical.yaml
+# Generated by _generate_configs.py
+include: _en_template_yaml
+process_docs: !function utils.process_medical
+task: global_mmlu_en_medical
--- a/lm_eval/tasks/global_mmlu/default/en/global_mmlu_en_other.yaml
+++ b/lm_eval/tasks/global_mmlu/default/en/global_mmlu_en_other.yaml
+# Generated by _generate_configs.py
+include: _en_template_yaml
+process_docs: !function utils.process_other
+task: global_mmlu_en_other
--- a/lm_eval/tasks/global_mmlu/default/en/global_mmlu_en_social_sciences.yaml
+++ b/lm_eval/tasks/global_mmlu/default/en/global_mmlu_en_social_sciences.yaml
+# Generated by _generate_configs.py
+include: _en_template_yaml
+process_docs: !function utils.process_social_sciences
+task: global_mmlu_en_social_sciences
--- a/lm_eval/tasks/global_mmlu/default/en/global_mmlu_en_stem.yaml
+++ b/lm_eval/tasks/global_mmlu/default/en/global_mmlu_en_stem.yaml
+# Generated by _generate_configs.py
+include: _en_template_yaml
+process_docs: !function utils.process_stem
+task: global_mmlu_en_stem