Add INCLUDE tasks (#2769)

* Add INCLUDE tasks * pacify pre-commit --------- Co-authored-by: Baber <baber@hey.com>

Add INCLUDE tasks (#2769)
* Add INCLUDE tasks * pacify pre-commit --------- Co-authored-by: Baber <baber@hey.com>
6fbebb4b · Angelika Romanou · GitHub · bb4fa95e · 6fbebb4b · 6fbebb4b
Unverified Commit 6fbebb4b authored Mar 17, 2025 by Angelika Romanou Committed by GitHub Mar 18, 2025
20 changed files
--- a/lm_eval/tasks/include/few_shot_og/Persian/include_base_44_persian_social_science.yaml
+++ b/lm_eval/tasks/include/few_shot_og/Persian/include_base_44_persian_social_science.yaml
+include: _persian_few_shot_og_template_yaml
+description: در زیر سؤالات چند گزینه ای (همراه با پاسخ) در مورد Social Science آمده
+  است.
+process_docs: !function 'utils.process_social_science'
+task: include_base_44_persian_few_shot_og_social_science
--- a/lm_eval/tasks/include/few_shot_og/Persian/include_base_44_persian_stem.yaml
+++ b/lm_eval/tasks/include/few_shot_og/Persian/include_base_44_persian_stem.yaml
+include: _persian_few_shot_og_template_yaml
+description: در زیر سؤالات چند گزینه ای (همراه با پاسخ) در مورد STEM آمده است.
+process_docs: !function 'utils.process_stem'
+task: include_base_44_persian_few_shot_og_stem
--- a/lm_eval/tasks/include/few_shot_og/Persian/utils.py
+++ b/lm_eval/tasks/include/few_shot_og/Persian/utils.py
+from functools import partial
+
+
+CATEGORIES = [
+    "Applied Science",
+    "Arts & Humanities",
+    "Business & Commerce",
+    "Driving License",
+    "General knowledge",
+    "Health oriented education",
+    "Marine License",
+    "Medical License",
+    "Professional certification",
+    "STEM",
+    "Social Science",
+]
+
+
+def process_docs(dataset, category):
+    return dataset.filter(lambda x: x["domain"] == category)
+
+
+process_functions = {
+    f"process_{category.lower().replace(' & ', '_').replace(' ', '_')}": partial(
+        process_docs, category=category
+    )
+    for category in CATEGORIES
+}
+
+globals().update(process_functions)
--- a/lm_eval/tasks/include/few_shot_og/Polish/_include_base_44_polish.yaml
+++ b/lm_eval/tasks/include/few_shot_og/Polish/_include_base_44_polish.yaml
+group: include_base_44_polish
+task:
+- include_base_44_polish_few_shot_og_professional_certification
+- include_base_44_polish_few_shot_og_social_science
+- include_base_44_polish_few_shot_og_stem
+aggregate_metric_list:
+- metric: acc
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/include/few_shot_og/Polish/_polish_few_shot_og_template_yaml
+++ b/lm_eval/tasks/include/few_shot_og/Polish/_polish_few_shot_og_template_yaml
+dataset_path: CohereForAI/include-base-44
+dataset_name: Polish
+test_split: test
+output_type: multiple_choice
+doc_to_text: "{{question.strip()}}\nA. {{option_a}}\nB. {{option_b}}\nC. {{option_c}}\n
+  D. {{option_d}}\nAnswer:"
+doc_to_choice:
+  - A
+  - B
+  - C
+  - D
+doc_to_target: answer
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/include/few_shot_og/Polish/include_base_44_polish_professional_certification.yaml
+++ b/lm_eval/tasks/include/few_shot_og/Polish/include_base_44_polish_professional_certification.yaml
+include: _polish_few_shot_og_template_yaml
+description: Poniżej znajdują się pytania wielokrotnego wyboru (z odpowiedziami) na
+  temat Professional certification.
+process_docs: !function 'utils.process_professional_certification'
+task: include_base_44_polish_few_shot_og_professional_certification
--- a/lm_eval/tasks/include/few_shot_og/Polish/include_base_44_polish_social_science.yaml
+++ b/lm_eval/tasks/include/few_shot_og/Polish/include_base_44_polish_social_science.yaml
+include: _polish_few_shot_og_template_yaml
+description: Poniżej znajdują się pytania wielokrotnego wyboru (z odpowiedziami) na
+  temat Social Science.
+process_docs: !function 'utils.process_social_science'
+task: include_base_44_polish_few_shot_og_social_science
--- a/lm_eval/tasks/include/few_shot_og/Polish/include_base_44_polish_stem.yaml
+++ b/lm_eval/tasks/include/few_shot_og/Polish/include_base_44_polish_stem.yaml
+include: _polish_few_shot_og_template_yaml
+description: Poniżej znajdują się pytania wielokrotnego wyboru (z odpowiedziami) na
+  temat STEM.
+process_docs: !function 'utils.process_stem'
+task: include_base_44_polish_few_shot_og_stem
--- a/lm_eval/tasks/include/few_shot_og/Polish/utils.py
+++ b/lm_eval/tasks/include/few_shot_og/Polish/utils.py
+from functools import partial
+
+
+CATEGORIES = [
+    "Applied Science",
+    "Arts & Humanities",
+    "Business & Commerce",
+    "Driving License",
+    "General knowledge",
+    "Health oriented education",
+    "Marine License",
+    "Medical License",
+    "Professional certification",
+    "STEM",
+    "Social Science",
+]
+
+
+def process_docs(dataset, category):
+    return dataset.filter(lambda x: x["domain"] == category)
+
+
+process_functions = {
+    f"process_{category.lower().replace(' & ', '_').replace(' ', '_')}": partial(
+        process_docs, category=category
+    )
+    for category in CATEGORIES
+}
+
+globals().update(process_functions)
--- a/lm_eval/tasks/include/few_shot_og/Portuguese/_include_base_44_portuguese.yaml
+++ b/lm_eval/tasks/include/few_shot_og/Portuguese/_include_base_44_portuguese.yaml
+group: include_base_44_portuguese
+task:
+- include_base_44_portuguese_few_shot_og_stem
+- include_base_44_portuguese_few_shot_og_social_science
+- include_base_44_portuguese_few_shot_og_arts_humanities
+- include_base_44_portuguese_few_shot_og_health_oriented_education
+- include_base_44_portuguese_few_shot_og_business_commerce
+- include_base_44_portuguese_few_shot_og_applied_science
+aggregate_metric_list:
+- metric: acc
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/include/few_shot_og/Portuguese/_portuguese_few_shot_og_template_yaml
+++ b/lm_eval/tasks/include/few_shot_og/Portuguese/_portuguese_few_shot_og_template_yaml
+dataset_path: CohereForAI/include-base-44
+dataset_name: Portuguese
+test_split: test
+output_type: multiple_choice
+doc_to_text: "{{question.strip()}}\nA. {{option_a}}\nB. {{option_b}}\nC. {{option_c}}\n
+  D. {{option_d}}\nAnswer:"
+doc_to_choice:
+  - A
+  - B
+  - C
+  - D
+doc_to_target: answer
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/include/few_shot_og/Portuguese/include_base_44_portuguese_applied_science.yaml
+++ b/lm_eval/tasks/include/few_shot_og/Portuguese/include_base_44_portuguese_applied_science.yaml
+include: _portuguese_few_shot_og_template_yaml
+description: A seguir estão perguntas de múltipla escolha (com respostas) sobre Applied
+  Science.
+process_docs: !function 'utils.process_applied_science'
+task: include_base_44_portuguese_few_shot_og_applied_science
--- a/lm_eval/tasks/include/few_shot_og/Portuguese/include_base_44_portuguese_arts_humanities.yaml
+++ b/lm_eval/tasks/include/few_shot_og/Portuguese/include_base_44_portuguese_arts_humanities.yaml
+include: _portuguese_few_shot_og_template_yaml
+description: A seguir estão perguntas de múltipla escolha (com respostas) sobre Arts
+  & Humanities.
+process_docs: !function 'utils.process_arts_humanities'
+task: include_base_44_portuguese_few_shot_og_arts_humanities
--- a/lm_eval/tasks/include/few_shot_og/Portuguese/include_base_44_portuguese_business_commerce.yaml
+++ b/lm_eval/tasks/include/few_shot_og/Portuguese/include_base_44_portuguese_business_commerce.yaml
+include: _portuguese_few_shot_og_template_yaml
+description: A seguir estão perguntas de múltipla escolha (com respostas) sobre Business
+  & Commerce.
+process_docs: !function 'utils.process_business_commerce'
+task: include_base_44_portuguese_few_shot_og_business_commerce
--- a/lm_eval/tasks/include/few_shot_og/Portuguese/include_base_44_portuguese_health_oriented_education.yaml
+++ b/lm_eval/tasks/include/few_shot_og/Portuguese/include_base_44_portuguese_health_oriented_education.yaml
+include: _portuguese_few_shot_og_template_yaml
+description: A seguir estão perguntas de múltipla escolha (com respostas) sobre Health
+  oriented education.
+process_docs: !function 'utils.process_health_oriented_education'
+task: include_base_44_portuguese_few_shot_og_health_oriented_education
--- a/lm_eval/tasks/include/few_shot_og/Portuguese/include_base_44_portuguese_social_science.yaml
+++ b/lm_eval/tasks/include/few_shot_og/Portuguese/include_base_44_portuguese_social_science.yaml
+include: _portuguese_few_shot_og_template_yaml
+description: A seguir estão perguntas de múltipla escolha (com respostas) sobre Social
+  Science.
+process_docs: !function 'utils.process_social_science'
+task: include_base_44_portuguese_few_shot_og_social_science
--- a/lm_eval/tasks/include/few_shot_og/Portuguese/include_base_44_portuguese_stem.yaml
+++ b/lm_eval/tasks/include/few_shot_og/Portuguese/include_base_44_portuguese_stem.yaml
+include: _portuguese_few_shot_og_template_yaml
+description: A seguir estão perguntas de múltipla escolha (com respostas) sobre STEM.
+process_docs: !function 'utils.process_stem'
+task: include_base_44_portuguese_few_shot_og_stem
--- a/lm_eval/tasks/include/few_shot_og/Portuguese/utils.py
+++ b/lm_eval/tasks/include/few_shot_og/Portuguese/utils.py
+from functools import partial
+
+
+CATEGORIES = [
+    "Applied Science",
+    "Arts & Humanities",
+    "Business & Commerce",
+    "Driving License",
+    "General knowledge",
+    "Health oriented education",
+    "Marine License",
+    "Medical License",
+    "Professional certification",
+    "STEM",
+    "Social Science",
+]
+
+
+def process_docs(dataset, category):
+    return dataset.filter(lambda x: x["domain"] == category)
+
+
+process_functions = {
+    f"process_{category.lower().replace(' & ', '_').replace(' ', '_')}": partial(
+        process_docs, category=category
+    )
+    for category in CATEGORIES
+}
+
+globals().update(process_functions)
--- a/lm_eval/tasks/include/few_shot_og/Russian/_include_base_44_russian.yaml
+++ b/lm_eval/tasks/include/few_shot_og/Russian/_include_base_44_russian.yaml
+group: include_base_44_russian
+task:
+- include_base_44_russian_few_shot_og_stem
+- include_base_44_russian_few_shot_og_health_oriented_education
+- include_base_44_russian_few_shot_og_arts_humanities
+- include_base_44_russian_few_shot_og_driving_license
+- include_base_44_russian_few_shot_og_social_science
+- include_base_44_russian_few_shot_og_business_commerce
+- include_base_44_russian_few_shot_og_marine_license
+- include_base_44_russian_few_shot_og_applied_science
+aggregate_metric_list:
+- metric: acc
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/include/few_shot_og/Russian/_russian_few_shot_og_template_yaml
+++ b/lm_eval/tasks/include/few_shot_og/Russian/_russian_few_shot_og_template_yaml
+dataset_path: CohereForAI/include-base-44
+dataset_name: Russian
+test_split: test
+output_type: multiple_choice
+doc_to_text: "{{question.strip()}}\nA. {{option_a}}\nB. {{option_b}}\nC. {{option_c}}\n
+  D. {{option_d}}\nAnswer:"
+doc_to_choice:
+  - A
+  - B
+  - C
+  - D
+doc_to_target: answer
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 0.0