Merge branch 'master' into researcher2

e0cfeb90 · Jonathan Tow · GitHub · f9b81151 · 6caa0afd · e0cfeb90
Unverified Commit e0cfeb90 authored Apr 10, 2022 by Jonathan Tow Committed by GitHub Apr 10, 2022
20 changed files
--- a/lm_eval/tasks/logiqa.py
+++ b/lm_eval/tasks/logiqa.py
--- a/lm_eval/tasks/mathqa.py
+++ b/lm_eval/tasks/mathqa.py
+"""
+MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms
+https://arxiv.org/pdf/1905.13319.pdf
+MathQA is a large-scale dataset of 37k English multiple-choice math word problems
+covering multiple math domain categories by modeling operation programs corresponding
+to word problems in the AQuA dataset (Ling et al., 2017).
+Homepage: https://math-qa.github.io/math-QA/
+"""
 import re
 from lm_eval.base import MultipleChoiceTask
-from . common import HFTask
-class MathQA(HFTask, MultipleChoiceTask):
+_CITATION = """
+@misc{amini2019mathqa,
+    title={MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms}, 
+    author={Aida Amini and Saadia Gabriel and Peter Lin and Rik Koncel-Kedziorski and Yejin Choi and Hannaneh Hajishirzi},
+    year={2019},
+    eprint={1905.13319},
+    archivePrefix={arXiv},
+    primaryClass={cs.CL}
+}
+"""
+class MathQA(MultipleChoiceTask):
    VERSION = 0
    DATASET_PATH = "math_qa"
    DATASET_NAME = None
@@ -17,13 +38,23 @@ class MathQA(HFTask, MultipleChoiceTask):
    def has_test_docs(self):
        return True
-    def _convert_standard(self, doc):
+    def training_docs(self):
+        if self._training_docs is None:
+            self._training_docs = list(map(self._process_doc, self.dataset["train"]))
+        return self._training_docs
+    def validation_docs(self):
+        return map(self._process_doc, self.dataset["validation"])
+    def test_docs(self):
+        return map(self._process_doc, self.dataset["test"])
+    def _process_doc(self, doc):
        answer_idx = ['a', 'b', 'c', 'd', 'e'].index(doc['correct'])
        choices = [c[4:].rstrip(" ,") for c in re.findall(r"[abcd] \) .*?, |e \) .*?$", doc['options'])]
        out_doc = {
-            "query": "Question: " + doc['Problem'] +"\nAnswer:",
+            "query": "Question: " + doc['Problem'] + "\nAnswer:",
            "choices": choices,
            "gold": answer_idx,
        }

--- a/lm_eval/tasks/mc_taco.py
+++ b/lm_eval/tasks/mc_taco.py
--- a/lm_eval/tasks/mutual.py
+++ b/lm_eval/tasks/mutual.py
--- a/lm_eval/tasks/naturalqs.py
+++ b/lm_eval/tasks/naturalqs.py
--- a/lm_eval/tasks/openbookqa.py
+++ b/lm_eval/tasks/openbookqa.py
--- a/lm_eval/tasks/pile.py
+++ b/lm_eval/tasks/pile.py
--- a/lm_eval/tasks/piqa.py
+++ b/lm_eval/tasks/piqa.py
--- a/lm_eval/tasks/prost.py
+++ b/lm_eval/tasks/prost.py
--- a/lm_eval/tasks/pubmedqa.py
+++ b/lm_eval/tasks/pubmedqa.py
--- a/lm_eval/tasks/qa4mre.py
+++ b/lm_eval/tasks/qa4mre.py
--- a/lm_eval/tasks/qasper.py
+++ b/lm_eval/tasks/qasper.py
--- a/lm_eval/tasks/quac.py
+++ b/lm_eval/tasks/quac.py
--- a/lm_eval/tasks/race.py
+++ b/lm_eval/tasks/race.py
--- a/lm_eval/tasks/sat.py
+++ b/lm_eval/tasks/sat.py
--- a/lm_eval/tasks/sciq.py
+++ b/lm_eval/tasks/sciq.py
--- a/lm_eval/tasks/squad.py
+++ b/lm_eval/tasks/squad.py
--- a/lm_eval/tasks/storycloze.py
+++ b/lm_eval/tasks/storycloze.py
--- a/lm_eval/tasks/superglue.py
+++ b/lm_eval/tasks/superglue.py
--- a/lm_eval/tasks/translation.py
+++ b/lm_eval/tasks/translation.py