Merge branch 'EleutherAI:main' into main

da211969 · Jess · GitHub · 1b97e487 · 801322e0 · da211969
Unverified Commit da211969 authored Jun 28, 2024 by Jess Committed by GitHub Jun 28, 2024
20 changed files
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_primary_general_knowledge.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_primary_general_knowledge.yaml
+"dataset_name": "Primary General Knowledge"
+"group": "arabicmmlu_other"
+"group_alias": "other"
+"include": "_default_template_yaml"
+"task": "arabicmmlu_primary_general_knowledge"
+"task_alias": "Primary General Knowledge"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_primary_geography.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_primary_geography.yaml
+"dataset_name": "Primary Geography"
+"group": "arabicmmlu_social_science"
+"group_alias": "social science"
+"include": "_default_template_yaml"
+"task": "arabicmmlu_primary_geography"
+"task_alias": "Primary Geography"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_primary_history.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_primary_history.yaml
+"dataset_name": "Primary History"
+"group": "arabicmmlu_humanities"
+"group_alias": "humanities"
+"include": "_default_template_yaml"
+"task": "arabicmmlu_primary_history"
+"task_alias": "Primary History"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_primary_islamic_studies.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_primary_islamic_studies.yaml
+"dataset_name": "Primary Islamic Studies"
+"group": "arabicmmlu_humanities"
+"group_alias": "humanities"
+"include": "_default_template_yaml"
+"task": "arabicmmlu_primary_islamic_studies"
+"task_alias": "Primary Islamic Studies"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_primary_math.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_primary_math.yaml
+"dataset_name": "Primary Math"
+"group": "arabicmmlu_stem"
+"group_alias": "stem"
+"include": "_default_template_yaml"
+"task": "arabicmmlu_primary_math"
+"task_alias": "Primary Math"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_primary_natural_science.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_primary_natural_science.yaml
+"dataset_name": "Primary Natural Science"
+"group": "arabicmmlu_stem"
+"group_alias": "stem"
+"include": "_default_template_yaml"
+"task": "arabicmmlu_primary_natural_science"
+"task_alias": "Primary Natural Science"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_primary_social_science.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_primary_social_science.yaml
+"dataset_name": "Primary Social Science"
+"group": "arabicmmlu_social_science"
+"group_alias": "social science"
+"include": "_default_template_yaml"
+"task": "arabicmmlu_primary_social_science"
+"task_alias": "Primary Social Science"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_prof_law.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_prof_law.yaml
+"dataset_name": "Prof Law"
+"group": "arabicmmlu_humanities"
+"group_alias": "humanities"
+"include": "_default_template_yaml"
+"task": "arabicmmlu_prof_law"
+"task_alias": "Prof Law"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_univ_accounting.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_univ_accounting.yaml
+"dataset_name": "Univ Accounting"
+"group": "arabicmmlu_social_science"
+"group_alias": "social science"
+"include": "_default_template_yaml"
+"task": "arabicmmlu_univ_accounting"
+"task_alias": "Univ Accounting"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_univ_computer_science.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_univ_computer_science.yaml
+"dataset_name": "Univ Computer Science"
+"group": "arabicmmlu_stem"
+"group_alias": "stem"
+"include": "_default_template_yaml"
+"task": "arabicmmlu_univ_computer_science"
+"task_alias": "Univ Computer Science"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_univ_economics.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_univ_economics.yaml
+"dataset_name": "Univ Economics"
+"group": "arabicmmlu_social_science"
+"group_alias": "social science"
+"include": "_default_template_yaml"
+"task": "arabicmmlu_univ_economics"
+"task_alias": "Univ Economics"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_univ_management.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_univ_management.yaml
+"dataset_name": "Univ Management"
+"group": "arabicmmlu_other"
+"group_alias": "other"
+"include": "_default_template_yaml"
+"task": "arabicmmlu_univ_management"
+"task_alias": "Univ Management"
--- a/lm_eval/tasks/arabicmmlu/arabicmmlu_univ_political_science.yaml
+++ b/lm_eval/tasks/arabicmmlu/arabicmmlu_univ_political_science.yaml
+"dataset_name": "Univ Political Science"
+"group": "arabicmmlu_social_science"
+"group_alias": "social science"
+"include": "_default_template_yaml"
+"task": "arabicmmlu_univ_political_science"
+"task_alias": "Univ Political Science"
--- a/lm_eval/tasks/arabicmmlu/utils.py
+++ b/lm_eval/tasks/arabicmmlu/utils.py
+PROMPT = "This is a {}. Select the correct answer!\n\nQuestion: {}\n{}\n\nAnswer:"
+level_en = {
+    "Primary": "primary school",
+    "Middle": "middle school",
+    "High": "high school",
+    "Univ": "university",
+    "Prof": "professional",
+}
+alpa = ["A.", "B.", "C.", "D.", "E."]
+def doc_to_text(doc):
+    """
+    Refactoring `prepare_data_en` to fit with the lm harness framework.
+    https://github.com/mbzuai-nlp/ArabicMMLU/blob/main/util_prompt.py
+    """
+    level = "" if not doc["Level"] else " for " + level_en[doc["Level"]]
+    country = "" if not doc["Country"] else " in " + doc["Country"]
+    main_meta_data = f"{doc['Subject']} question{level}{country}"
+    question = (
+        doc["Question"]
+        if doc["Context"] == ""
+        else f"{doc['Context']}\n\n{doc['Question']}"
+    )
+    options = []
+    for i, opt in enumerate(
+        ["Option 1", "Option 2", "Option 3", "Option 4", "Option 5"]
+    ):
+        if not doc[opt]:
+            break
+        options.append(f"{alpa[i]} {doc[opt]}")
+    doc_text = PROMPT.format(main_meta_data, question, "\n".join(options))
+    return doc_text
+def doc_to_choice(doc):
+    return [alpa[i][0] for i in range(5) if doc[f"Option {i+1}"]]
--- a/lm_eval/tasks/arc_mt/README.md
+++ b/lm_eval/tasks/arc_mt/README.md
+# arc mt
+arc mt is an implementation of tasks to support machine translated arc
+challenge evals, to improve eval support across a number of additional
+languages.
+The main page for the effort is
+[here](https://huggingface.co/datasets/LumiOpen/arc_challenge_mt) and we will
+include more data and analysis there.
+Initial datasets include a number of European languages, and we plan to expand
+more in the future.
--- a/lm_eval/tasks/arc_mt/arc_challenge_mt_da.yaml
+++ b/lm_eval/tasks/arc_mt/arc_challenge_mt_da.yaml
+include: arc_challenge_mt_fi.yaml
+task: arc_challenge_mt_da
+dataset_name: da
--- a/lm_eval/tasks/arc_mt/arc_challenge_mt_de.yaml
+++ b/lm_eval/tasks/arc_mt/arc_challenge_mt_de.yaml
+include: arc_challenge_mt_fi.yaml
+task: arc_challenge_mt_de
+dataset_name: de
--- a/lm_eval/tasks/arc_mt/arc_challenge_mt_el.yaml
+++ b/lm_eval/tasks/arc_mt/arc_challenge_mt_el.yaml
+include: arc_challenge_mt_fi.yaml
+task: arc_challenge_mt_el
+dataset_name: el
--- a/lm_eval/tasks/arc_mt/arc_challenge_mt_es.yaml
+++ b/lm_eval/tasks/arc_mt/arc_challenge_mt_es.yaml
+include: arc_challenge_mt_fi.yaml
+task: arc_challenge_mt_es
+dataset_name: es
--- a/lm_eval/tasks/arc_mt/arc_challenge_mt_fi.yaml
+++ b/lm_eval/tasks/arc_mt/arc_challenge_mt_fi.yaml
+group:
+  - arc_challenge_mt
+task: arc_challenge_mt_fi
+dataset_path: LumiOpen/arc_challenge_mt
+dataset_name: fi
+output_type: multiple_choice
+training_split: train
+validation_split: validation
+test_split: test
+doc_to_text: "Question: {{question}}\nAnswer:"
+doc_to_target: "{{choices.label.index(answerKey)}}"
+doc_to_choice: "{{choices.text}}"
+should_decontaminate: true
+doc_to_decontamination_query: "Question: {{question}}\nAnswer:"
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+  - metric: acc_norm
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 1.0