added transate test

452d2024 · Israel Abebe Azime · 901ad392 · 452d2024 · 452d2024 · 452d2024
Commit 452d2024 authored May 10, 2024 by Israel Abebe Azime
20 changed files
--- a/lm_eval/tasks/afrimmlu/afrimmlu_swa.yaml
+++ b/lm_eval/tasks/afrimmlu/afrimmlu_swa.yaml
+dataset_name: swa
+include: afrimmlu_common_yaml
+task: afrimmlu_swa
\ No newline at end of file
--- a/lm_eval/tasks/afrimmlu_translate/README.md
+++ b/lm_eval/tasks/afrimmlu_translate/README.md
+# MathQA
+
+### Paper
+
+MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms
+https://arxiv.org/pdf/1905.13319.pdf
+
+MathQA is a large-scale dataset of 37k English multiple-choice math word problems
+covering multiple math domain categories by modeling operation programs corresponding
+to word problems in the AQuA dataset (Ling et al., 2017).
+
+Homepage: https://math-qa.github.io/math-QA/
+
+
+### Citation
+
+```
+@misc{amini2019mathqa,
+    title={MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms},
+    author={Aida Amini and Saadia Gabriel and Peter Lin and Rik Koncel-Kedziorski and Yejin Choi and Hannaneh Hajishirzi},
+    year={2019},
+    eprint={1905.13319},
+    archivePrefix={arXiv},
+    primaryClass={cs.CL}
+}
+```
+
+### Groups and Tasks
+
+#### Groups
+
+* `math_word_problems`
+
+#### Tasks
+
+* `mathqa`: The MathQA dataset, as a multiple choice dataset where the answer choices are not in context.
+
+### Checklist
+
+For adding novel benchmarks/datasets to the library:
+* [x] Is the task an existing benchmark in the literature?
+  * [x] Have you referenced the original paper that introduced the task?
+  * [ ] If yes, does the original paper provide a reference implementation? If so, have you checked against the reference implementation and documented how to run such a test?
+    * The MathQA dataset predates transformer-based prompted LLMs. We should, however, return to this task to ensure equivalence to the non-CoT version of mathQA used in the Chain-of-Thought paper.
+
+If other tasks on this dataset are already supported:
+* [x] Is the "Main" variant of this task clearly denoted?
+* [x] Have you provided a short sentence in a README on what each new variant adds / evaluates?
+* [x] Have you noted which, if any, published evaluation setups are matched by this variant?
+  * [x] Checked for equivalence with v0.3.0 LM Evaluation Harness
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_amh_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_amh_translate.yaml
+dataset_name: amh
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_amh_translate
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_common_translate_yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_common_translate_yaml
+group:
+  - mmlu
+  - afrimmlu_translate
+task: null
+dataset_path: masakhane/afrimmlu-translate-test
+dataset_name: null
+output_type: multiple_choice
+test_split: test
+doc_to_text: !function utils.doc_to_text 
+doc_to_target: "{{['A', 'B', 'C', 'D'].index(answer)}}"
+doc_to_choice: !function utils.doc_to_choice
+should_decontaminate: true
+doc_to_decontamination_query: "Question: {{question}}\nAnswer:"
+metric_list:
+  - metric: f1 
+    aggregation: !function utils.weighted_f1_score 
+    # aggregation: mean
+    average: weighted 
+    hf_evaluate: true 
+    higher_is_better: True 
+    ignore_case: true
+    ignore_punctuation: true
+    regexes_to_ignore:
+      - ","
+      - "\\$"
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+    ignore_case: true
+    ignore_punctuation: true
+    regexes_to_ignore:
+      - ","
+      - "\\$"
+metadata:
+  version: 1.0
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_eng_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_eng_translate.yaml
+dataset_name: eng
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_eng_translate
+
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_ewe_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_ewe_translate.yaml
+dataset_name: ewe
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_ewe_translate
+
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_fra_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_fra_translate.yaml
+dataset_name: fra
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_fra_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_hau_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_hau_translate.yaml
+dataset_name: hau
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_hau_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_ibo_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_ibo_translate.yaml
+dataset_name: ibo
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_ibo_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_kin_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_kin_translate.yaml
+dataset_name: kin
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_kin_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_lin_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_lin_translate.yaml
+dataset_name: lin
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_lin_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_lug_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_lug_translate.yaml
+dataset_name: lug
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_lug_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_orm_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_orm_translate.yaml
+dataset_name: orm
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_orm_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_sna_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_sna_translate.yaml
+dataset_name: sna
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_sna_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_sot_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_sot_translate.yaml
+dataset_name: sot
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_sot_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_twi_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_twi_translate.yaml
+dataset_name: twi
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_twi_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_wol_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_wol_translate.yaml
+dataset_name: wol
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_wol_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_xho_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_xho_translate.yaml
+dataset_name: xho
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_xho_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_yor_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_yor_translate.yaml
+dataset_name: yor
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_yor_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrimmlu_translate/afrimmlu_zul_translate.yaml
+++ b/lm_eval/tasks/afrimmlu_translate/afrimmlu_zul_translate.yaml
+dataset_name: zul
+include: afrimmlu_common_translate_yaml
+task: afrimmlu_zul_translate
\ No newline at end of file