Add task table

c0fbf9e8 · Leo Gao · 049dfa34 · c0fbf9e8 · c0fbf9e8 · c0fbf9e8
Commit c0fbf9e8 authored Feb 04, 2021 by Leo Gao
Showing with 70 additions and 5 deletions

README.md README.md +43 -0

lm_eval/tasks/lambada.py lm_eval/tasks/lambada.py +5 -5

scripts/make_table.py scripts/make_table.py +22 -0

scripts/write_out.py scripts/write_out.py +0 -0

No files found.
--- a/README.md
+++ b/README.md
@@ -10,6 +10,49 @@ The goal of this project is to build a set of tools for evaluating LMs on typica
 2. Removing task val/test data from LM training set
 3. Adding task training data to LM training set
+### Overview of Tasks
+|   Task Name   |Train|Val|Test|      Metrics       |
+|---------------|-----|---|----|--------------------|
+|cola           |✓    |✓  |✓   |mcc                 |
+|mnli           |✓    |✓  |✓   |acc                 |
+|mnli_mismatched|✓    |✓  |✓   |acc                 |
+|mrpc           |✓    |✓  |✓   |acc, f1             |
+|rte            |✓    |✓  |✓   |acc                 |
+|qnli           |✓    |✓  |✓   |acc                 |
+|qqp            |✓    |✓  |✓   |acc, f1             |
+|sst            |✓    |✓  |✓   |acc                 |
+|wnli           |✓    |✓  |✓   |acc                 |
+|boolq          |✓    |✓  |✓   |acc                 |
+|cb             |✓    |✓  |✓   |acc, f1             |
+|copa           |✓    |✓  |✓   |acc                 |
+|multirc        |✓    |✓  |✓   |acc                 |
+|wic            |✓    |✓  |✓   |acc                 |
+|wsc            |✓    |✓  |✓   |acc                 |
+|lambada        |     |✓  |    |perplexity, accuracy|
+|piqa           |✓    |✓  |    |acc                 |
+|arc_easy       |✓    |✓  |✓   |acc                 |
+|arc_challenge  |✓    |✓  |✓   |acc                 |
+|hellaswag      |✓    |✓  |✓   |acc                 |
+|race           |✓    |✓  |✓   |acc                 |
+|webqs          |✓    |   |✓   |acc                 |
+|wsc273         |     |   |✓   |acc                 |
+|winogrande     |✓    |✓  |✓   |acc                 |
+|anli_r1        |✓    |✓  |✓   |acc                 |
+|anli_r2        |✓    |✓  |✓   |acc                 |
+|anli_r3        |✓    |✓  |✓   |acc                 |
+|arithmetic_2da |     |✓  |    |acc                 |
+|arithmetic_2ds |     |✓  |    |acc                 |
+|arithmetic_3da |     |✓  |    |acc                 |
+|arithmetic_3ds |     |✓  |    |acc                 |
+|arithmetic_4da |     |✓  |    |acc                 |
+|arithmetic_4ds |     |✓  |    |acc                 |
+|arithmetic_5da |     |✓  |    |acc                 |
+|arithmetic_5ds |     |✓  |    |acc                 |
+|arithmetic_2dm |     |✓  |    |acc                 |
+|arithmetic_1dc |     |✓  |    |acc                 |
 ## Usage
 ### Evaluate a task

--- a/lm_eval/tasks/lambada.py
+++ b/lm_eval/tasks/lambada.py
@@ -18,22 +18,22 @@ class LAMBADA(Task):
        return False
    def has_validation_docs(self):
-        return False
+        return True
    def has_test_docs(self):
-        return True
+        return False
    def training_docs(self):
        pass
    def validation_docs(self):
-        pass
-    def test_docs(self):
        with open("data/lambada/lambada_test.jsonl") as fh:
            for line in fh:
                yield json.loads(line)
+    def test_docs(self):
+        pass
    def doc_to_text(self, doc):
        return doc['text'].rsplit(' ', 1)[0]

--- a/scripts/make_table.py
+++ b/scripts/make_table.py
+from lm_eval import tasks
+from pytablewriter import MarkdownTableWriter
+writer = MarkdownTableWriter()
+writer.headers = ["Task Name", "Train", "Val", "Test", "Metrics"]
+values = []
+def chk(tf):
+    if tf:
+        return '✓'
+    else:
+        return ' '
+for tname, Task in tasks.TASK_REGISTRY.items():
+    task = Task()
+    values.append([tname,chk(task.has_training_docs()),chk(task.has_validation_docs()),chk(task.has_test_docs()),', '.join(task.aggregation().keys())])
+writer.value_matrix = values
+print(writer.dumps())
\ No newline at end of file
--- a/write_out.py
+++ b/write_out.py