Add INCLUDE tasks (#2769)

* Add INCLUDE tasks * pacify pre-commit --------- Co-authored-by: Baber <baber@hey.com>

Add INCLUDE tasks (#2769)
* Add INCLUDE tasks * pacify pre-commit --------- Co-authored-by: Baber <baber@hey.com>
6fbebb4b · Angelika Romanou · GitHub · bb4fa95e · 6fbebb4b · 6fbebb4b
Unverified Commit 6fbebb4b authored Mar 17, 2025 by Angelika Romanou Committed by GitHub Mar 18, 2025
20 changed files
--- a/lm_eval/tasks/include/default/Belarusian/include_base_44_belarusian_arts_humanities.yaml
+++ b/lm_eval/tasks/include/default/Belarusian/include_base_44_belarusian_arts_humanities.yaml
+include: _belarusian_template_yaml
+description: The following is multiple-choice question about Arts & Humanities.
+process_docs: !function 'utils.process_arts_humanities'
+task: include_base_44_belarusian_arts_humanities
--- a/lm_eval/tasks/include/default/Belarusian/include_base_44_belarusian_social_science.yaml
+++ b/lm_eval/tasks/include/default/Belarusian/include_base_44_belarusian_social_science.yaml
+include: _belarusian_template_yaml
+description: The following is multiple-choice question about Social Science.
+process_docs: !function 'utils.process_social_science'
+task: include_base_44_belarusian_social_science
--- a/lm_eval/tasks/include/default/Belarusian/include_base_44_belarusian_stem.yaml
+++ b/lm_eval/tasks/include/default/Belarusian/include_base_44_belarusian_stem.yaml
+include: _belarusian_template_yaml
+description: The following is multiple-choice question about STEM.
+process_docs: !function 'utils.process_stem'
+task: include_base_44_belarusian_stem
--- a/lm_eval/tasks/include/default/Belarusian/utils.py
+++ b/lm_eval/tasks/include/default/Belarusian/utils.py
+from functools import partial
+
+
+CATEGORIES = [
+    "Applied Science",
+    "Arts & Humanities",
+    "Business & Commerce",
+    "Driving License",
+    "General knowledge",
+    "Health oriented education",
+    "Marine License",
+    "Medical License",
+    "Professional certification",
+    "STEM",
+    "Social Science",
+]
+
+
+def process_docs(dataset, category):
+    return dataset.filter(lambda x: x["domain"] == category)
+
+
+process_functions = {
+    f"process_{category.lower().replace(' & ', '_').replace(' ', '_')}": partial(
+        process_docs, category=category
+    )
+    for category in CATEGORIES
+}
+
+globals().update(process_functions)
--- a/lm_eval/tasks/include/default/Bengali/_bengali_template_yaml
+++ b/lm_eval/tasks/include/default/Bengali/_bengali_template_yaml
+dataset_path: CohereForAI/include-base-44
+dataset_name: Bengali
+test_split: test
+output_type: multiple_choice
+doc_to_text: "{{question.strip()}}\nA. {{option_a}}\nB. {{option_b}}\nC. {{option_c}}\n
+  D. {{option_d}}\nAnswer:"
+doc_to_choice:
+  - A
+  - B
+  - C
+  - D
+doc_to_target: answer
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/include/default/Bengali/_include_base_44_bengali.yaml
+++ b/lm_eval/tasks/include/default/Bengali/_include_base_44_bengali.yaml
+group: include_base_44_bengali
+task:
+- include_base_44_bengali_arts_humanities
+- include_base_44_bengali_stem
+- include_base_44_bengali_general_knowledge
+- include_base_44_bengali_professional_certification
+aggregate_metric_list:
+- metric: acc
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/include/default/Bengali/include_base_44_bengali_arts_humanities.yaml
+++ b/lm_eval/tasks/include/default/Bengali/include_base_44_bengali_arts_humanities.yaml
+include: _bengali_template_yaml
+description: The following is multiple-choice question about Arts & Humanities.
+process_docs: !function 'utils.process_arts_humanities'
+task: include_base_44_bengali_arts_humanities
--- a/lm_eval/tasks/include/default/Bengali/include_base_44_bengali_general_knowledge.yaml
+++ b/lm_eval/tasks/include/default/Bengali/include_base_44_bengali_general_knowledge.yaml
+include: _bengali_template_yaml
+description: The following is multiple-choice question about General knowledge.
+process_docs: !function 'utils.process_general_knowledge'
+task: include_base_44_bengali_general_knowledge
--- a/lm_eval/tasks/include/default/Bengali/include_base_44_bengali_professional_certification.yaml
+++ b/lm_eval/tasks/include/default/Bengali/include_base_44_bengali_professional_certification.yaml
+include: _bengali_template_yaml
+description: The following is multiple-choice question about Professional certification.
+process_docs: !function 'utils.process_professional_certification'
+task: include_base_44_bengali_professional_certification
--- a/lm_eval/tasks/include/default/Bengali/include_base_44_bengali_stem.yaml
+++ b/lm_eval/tasks/include/default/Bengali/include_base_44_bengali_stem.yaml
+include: _bengali_template_yaml
+description: The following is multiple-choice question about STEM.
+process_docs: !function 'utils.process_stem'
+task: include_base_44_bengali_stem
--- a/lm_eval/tasks/include/default/Bengali/utils.py
+++ b/lm_eval/tasks/include/default/Bengali/utils.py
+from functools import partial
+
+
+CATEGORIES = [
+    "Applied Science",
+    "Arts & Humanities",
+    "Business & Commerce",
+    "Driving License",
+    "General knowledge",
+    "Health oriented education",
+    "Marine License",
+    "Medical License",
+    "Professional certification",
+    "STEM",
+    "Social Science",
+]
+
+
+def process_docs(dataset, category):
+    return dataset.filter(lambda x: x["domain"] == category)
+
+
+process_functions = {
+    f"process_{category.lower().replace(' & ', '_').replace(' ', '_')}": partial(
+        process_docs, category=category
+    )
+    for category in CATEGORIES
+}
+
+globals().update(process_functions)
--- a/lm_eval/tasks/include/default/Bulgarian/_bulgarian_template_yaml
+++ b/lm_eval/tasks/include/default/Bulgarian/_bulgarian_template_yaml
+dataset_path: CohereForAI/include-base-44
+dataset_name: Bulgarian
+test_split: test
+output_type: multiple_choice
+doc_to_text: "{{question.strip()}}\nA. {{option_a}}\nB. {{option_b}}\nC. {{option_c}}\n
+  D. {{option_d}}\nAnswer:"
+doc_to_choice:
+  - A
+  - B
+  - C
+  - D
+doc_to_target: answer
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/include/default/Bulgarian/_include_base_44_bulgarian.yaml
+++ b/lm_eval/tasks/include/default/Bulgarian/_include_base_44_bulgarian.yaml
+group: include_base_44_bulgarian
+task:
+- include_base_44_bulgarian_stem
+- include_base_44_bulgarian_arts_humanities
+- include_base_44_bulgarian_social_science
+aggregate_metric_list:
+- metric: acc
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/include/default/Bulgarian/include_base_44_bulgarian_arts_humanities.yaml
+++ b/lm_eval/tasks/include/default/Bulgarian/include_base_44_bulgarian_arts_humanities.yaml
+include: _bulgarian_template_yaml
+description: The following is multiple-choice question about Arts & Humanities.
+process_docs: !function 'utils.process_arts_humanities'
+task: include_base_44_bulgarian_arts_humanities
--- a/lm_eval/tasks/include/default/Bulgarian/include_base_44_bulgarian_social_science.yaml
+++ b/lm_eval/tasks/include/default/Bulgarian/include_base_44_bulgarian_social_science.yaml
+include: _bulgarian_template_yaml
+description: The following is multiple-choice question about Social Science.
+process_docs: !function 'utils.process_social_science'
+task: include_base_44_bulgarian_social_science
--- a/lm_eval/tasks/include/default/Bulgarian/include_base_44_bulgarian_stem.yaml
+++ b/lm_eval/tasks/include/default/Bulgarian/include_base_44_bulgarian_stem.yaml
+include: _bulgarian_template_yaml
+description: The following is multiple-choice question about STEM.
+process_docs: !function 'utils.process_stem'
+task: include_base_44_bulgarian_stem
--- a/lm_eval/tasks/include/default/Bulgarian/utils.py
+++ b/lm_eval/tasks/include/default/Bulgarian/utils.py
+from functools import partial
+
+
+CATEGORIES = [
+    "Applied Science",
+    "Arts & Humanities",
+    "Business & Commerce",
+    "Driving License",
+    "General knowledge",
+    "Health oriented education",
+    "Marine License",
+    "Medical License",
+    "Professional certification",
+    "STEM",
+    "Social Science",
+]
+
+
+def process_docs(dataset, category):
+    return dataset.filter(lambda x: x["domain"] == category)
+
+
+process_functions = {
+    f"process_{category.lower().replace(' & ', '_').replace(' ', '_')}": partial(
+        process_docs, category=category
+    )
+    for category in CATEGORIES
+}
+
+globals().update(process_functions)
--- a/lm_eval/tasks/include/default/Chinese/_chinese_template_yaml
+++ b/lm_eval/tasks/include/default/Chinese/_chinese_template_yaml
+dataset_path: CohereForAI/include-base-44
+dataset_name: Chinese
+test_split: test
+output_type: multiple_choice
+doc_to_text: "{{question.strip()}}\nA. {{option_a}}\nB. {{option_b}}\nC. {{option_c}}\n
+  D. {{option_d}}\nAnswer:"
+doc_to_choice:
+  - A
+  - B
+  - C
+  - D
+doc_to_target: answer
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/include/default/Chinese/_include_base_44_chinese.yaml
+++ b/lm_eval/tasks/include/default/Chinese/_include_base_44_chinese.yaml
+group: include_base_44_chinese
+task:
+- include_base_44_chinese_applied_science
+- include_base_44_chinese_health_oriented_education
+- include_base_44_chinese_arts_humanities
+- include_base_44_chinese_stem
+- include_base_44_chinese_business_commerce
+- include_base_44_chinese_professional_certification
+- include_base_44_chinese_driving_license
+- include_base_44_chinese_social_science
+aggregate_metric_list:
+- metric: acc
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/include/default/Chinese/include_base_44_chinese_applied_science.yaml
+++ b/lm_eval/tasks/include/default/Chinese/include_base_44_chinese_applied_science.yaml
+include: _chinese_template_yaml
+description: The following is multiple-choice question about Applied Science.
+process_docs: !function 'utils.process_applied_science'
+task: include_base_44_chinese_applied_science