Add task versioning

105fa974 · Leo Gao · f76e6367 · 105fa974 · 105fa974 · 105fa974
Commit 105fa974 authored Jun 04, 2021 by Leo Gao
18 changed files
--- a/lm_eval/tasks/piqa.py
+++ b/lm_eval/tasks/piqa.py
@@ -5,6 +5,7 @@ from . common import HFTask


 class PiQA(HFTask, MultipleChoiceTask):
+    VERSION = 0
    DATASET_PATH = "piqa"
    DATASET_NAME = None


--- a/lm_eval/tasks/pubmedqa.py
+++ b/lm_eval/tasks/pubmedqa.py
@@ -5,6 +5,7 @@ from ..metrics import mean


 class Pubmed_QA(HFTask):
+    VERSION = 0
    DATASET_PATH = "pubmed_qa"
    DATASET_NAME = "pqa_labeled"


--- a/lm_eval/tasks/qa4mre.py
+++ b/lm_eval/tasks/qa4mre.py
@@ -5,6 +5,7 @@ from lm_eval.base import MultipleChoiceTask


 class QA4MRE(MultipleChoiceTask):
+    VERSION = 0
    YEAR = None
    def download(self):
        year = self.YEAR

--- a/lm_eval/tasks/race.py
+++ b/lm_eval/tasks/race.py
@@ -15,6 +15,7 @@ class each:


 class RACE(HFTask):
+    VERSION = 0
    DATASET_PATH = "race"
    DATASET_NAME = "high"


--- a/lm_eval/tasks/sat.py
+++ b/lm_eval/tasks/sat.py
@@ -3,6 +3,7 @@ from lm_eval.base import MultipleChoiceTask


 class SATAnalogies(MultipleChoiceTask):    
+    VERSION = 0
    NEEDS_MANUAL_DL = True
    
    def __init__(self):

--- a/lm_eval/tasks/sciq.py
+++ b/lm_eval/tasks/sciq.py
@@ -6,6 +6,7 @@ from best_download import download_file


 class SciQ(MultipleChoiceTask):
+    VERSION = 0
    # Multiple languages and multiple years
    def download(self):
        if not os.path.exists('data/sciq'):

--- a/lm_eval/tasks/squad.py
+++ b/lm_eval/tasks/squad.py
@@ -18,6 +18,7 @@ def _squad_agg(key, items):


 class SQuAD2(HFTask):
+    VERSION = 0
    DATASET_PATH = "squad_v2"
    DATASET_NAME = None


--- a/lm_eval/tasks/storycloze.py
+++ b/lm_eval/tasks/storycloze.py
@@ -3,6 +3,7 @@ from lm_eval.base import Task


 class StoryCloze(Task):
+    VERSION = 0
    NEEDS_MANUAL_DL = True

    def download(self):

--- a/lm_eval/tasks/superglue.py
+++ b/lm_eval/tasks/superglue.py
@@ -13,6 +13,7 @@ from ..utils import general_detokenize


 class BoolQ(HFTask):
+    VERSION = 0
    DATASET_PATH = "super_glue"
    DATASET_NAME = "boolq"

@@ -64,6 +65,7 @@ class BoolQ(HFTask):


 class CommitmentBank(HFTask):
+    VERSION = 0
    DATASET_PATH = "super_glue"
    DATASET_NAME = "cb"

@@ -135,6 +137,7 @@ class CommitmentBank(HFTask):


 class Copa(HFTask):
+    VERSION = 0
    DATASET_PATH = "super_glue"
    DATASET_NAME = "copa"

@@ -199,6 +202,7 @@ class Copa(HFTask):


 class MultiRC(HFTask):
+    VERSION = 0
    DATASET_PATH = "super_glue"
    DATASET_NAME = "multirc"

@@ -253,6 +257,7 @@ class MultiRC(HFTask):


 class ReCoRD(HFTask):
+    VERSION = 0
    DATASET_PATH = "super_glue"
    DATASET_NAME = "record"

@@ -345,6 +350,7 @@ class ReCoRD(HFTask):


 class WordsInContext(HFTask):
+    VERSION = 0
    DATASET_PATH = "super_glue"
    DATASET_NAME = "wic"

@@ -400,6 +406,7 @@ class WordsInContext(HFTask):


 class SGWinogradSchemaChallenge(HFTask):
+    VERSION = 0
    # Note: This implementation differs from Fig G.32 because this is the SuperGLUE,
    #       binary version of the task.
    DATASET_PATH = "super_glue"

--- a/lm_eval/tasks/translation.py
+++ b/lm_eval/tasks/translation.py
@@ -36,6 +36,7 @@ def create_translation_task(dataset, language_pair):
    return TranslationTask

 class GeneralTranslationTask(Task):
+    VERSION = 0

    # e.g. ("wmt14", "fr-en")
    def __init__(self, sacrebleu_dataset, sacrebleu_language_pair=None):

--- a/lm_eval/tasks/triviaqa.py
+++ b/lm_eval/tasks/triviaqa.py
@@ -6,6 +6,7 @@ from ..utils import sh


 class TriviaQA(Task):
+    VERSION = 0
    def download(self):
        if not os.path.exists('data/triviaqa'):
            sh("""

--- a/lm_eval/tasks/unscramble.py
+++ b/lm_eval/tasks/unscramble.py
@@ -14,6 +14,7 @@ def extract_gzip(gz, to):


 class WordUnscrambleTask(Task):
+    VERSION = 0
    BASE_PATH = Path("data/unscramble")
    FILENAME = None
    CHECKSUM = None  # SHA256 Checksum.

--- a/lm_eval/tasks/webqs.py
+++ b/lm_eval/tasks/webqs.py
@@ -4,6 +4,7 @@ from ..metrics import mean


 class WebQs(HFTask):
+    VERSION = 0
    DATASET_PATH = "web_questions"
    DATASET_NAME = None


--- a/lm_eval/tasks/wikitext.py
+++ b/lm_eval/tasks/wikitext.py
@@ -2,6 +2,7 @@ from . common import HFTask


 class WikiText103(HFTask):
+    VERSION = 0
    NLP_PATH = "wikitext"
    NLP_NAME = "wikitext-103-raw-v1"

@@ -64,6 +65,7 @@ class WikiText103(HFTask):


 class WikiText2(HFTask):
+    VERSION = 0
    NLP_PATH = "wikitext"
    NLP_NAME = "wikitext-2-raw-v1"


--- a/lm_eval/tasks/winogrande.py
+++ b/lm_eval/tasks/winogrande.py
@@ -11,6 +11,7 @@ Reference: https://arxiv.org/abs/1806.02847


 class Winogrande(HFTask):
+    VERSION = 0
    DATASET_PATH = "winogrande"
    DATASET_NAME = "winogrande_xl"


--- a/lm_eval/tasks/wsc273.py
+++ b/lm_eval/tasks/wsc273.py
@@ -12,6 +12,7 @@ See: https://arxiv.org/abs/1806.02847


 class WinogradSchemaChallenge273(HFTask):
+    VERSION = 0
    DATASET_PATH = "winograd_wsc"
    DATASET_NAME = "wsc273"


--- a/main.py
+++ b/main.py
@@ -53,20 +53,35 @@ def main():
            f.write(dumped)

    # MAKE TABLE
-    from pytablewriter import MarkdownTableWriter
+    from pytablewriter import MarkdownTableWriter, LatexTableWriter

-    writer = MarkdownTableWriter()
-    writer.headers = ["Task", "Metric", "Value"]
+    md_writer = MarkdownTableWriter()
+    latex_writer = LatexTableWriter()
+    md_writer.headers = ["Task", "Version", "Metric", "Value", "", "Stderr"]
+    latex_writer.headers = ["Task", "Version", "Metric", "Value", "", "Stderr"]

    values = []

-    for k, dic in results.items():
+    for k, dic in results["results"].items():
+        version = results["versions"][k]
        for m, v in dic.items():
-            values.append([k, m, '%.4f' % v])
+            if m.endswith("_stderr"): continue
+
+            if m + "_stderr" in dic:
+                se = dic[m + "_stderr"]
+
+                values.append([k, version, m, '%.4f' % v, '±', '%.4f' % se])
+            else:
+                values.append([k, version, m, '%.4f' % v, '', ''])
            k = ""
-    writer.value_matrix = values
+            version = ""
+    md_writer.value_matrix = values
+    latex_writer.value_matrix = values
+
+    # todo: make latex table look good
+    # print(latex_writer.dumps())

-    print(writer.dumps())
+    print(md_writer.dumps())

 if __name__ == "__main__":
    main()
--- a/tests/test_tasks.py
+++ b/tests/test_tasks.py
@@ -22,6 +22,8 @@ def test_basic_interface(taskname, Task):

    for v in task.higher_is_better().values(): assert v in [True, False]

+    assert isinstance(task.VERSION, int)
+
    # test deterministic docs
    # (don't test train because it's slow)