Merge pull request #176 from EleutherAI/per_char_agg

Do per character loss aggregation for multiple choice tasks

Merge pull request #176 from EleutherAI/per_char_agg
Do per character loss aggregation for multiple choice tasks
44f03593 · Leo Gao · GitHub · fd26ef16 · 1ebf41d3 · 44f03593
Unverified Commit 44f03593 authored Apr 10, 2021 by Leo Gao Committed by GitHub Apr 10, 2021
Hide whitespace changes
Inline Side-by-side

Showing with 31 additions and 26 deletions

lm_eval/base.py lm_eval/base.py +8 -3

lm_eval/tasks/piqa.py lm_eval/tasks/piqa.py +23 -23

No files found.
--- a/lm_eval/base.py
+++ b/lm_eval/base.py
@@ -226,19 +226,24 @@ class MultipleChoiceTask(Task):
        gold = doc["gold"]
        acc = 1. if np.argmax(results) == gold else 0.
+        completion_len = np.array([float(len(i)) for i in doc["choices"]])
+        acc_norm = 1. if np.argmax(results / completion_len) == gold else 0.
        return {
-            "acc": acc
+            "acc": acc,
+            "acc_norm": acc_norm,
        }
    def higher_is_better(self):
        return {
-            "acc": True
+            "acc": True,
+            "acc_norm": True,
        }
    def aggregation(self):
        return {
-            "acc": mean
+            "acc": mean,
+            "acc_norm": mean,
        }

--- a/lm_eval/tasks/piqa.py
+++ b/lm_eval/tasks/piqa.py
 import numpy as np
-from lm_eval.base import rf
+from lm_eval.base import MultipleChoiceTask, rf
 from ..metrics import mean
 from . common import HFTask
-class PiQA(HFTask):
+class PiQA(HFTask, MultipleChoiceTask):
    DATASET_PATH = "piqa"
    DATASET_NAME = None
@@ -21,29 +21,29 @@ class PiQA(HFTask):
        # TODO: figure out fewshot description
        return ""
-    def doc_to_text(self, doc):
+    def _convert_standard(self, doc):
-        return "Question: "+doc["goal"] + "\nAnswer:"
+        out_doc = {
+            "goal": doc["goal"],
+            "choices": [doc["sol1"], doc["sol2"]],
+            "gold": doc["label"],
+        }
+        return out_doc
-    def doc_to_target(self, doc):
+    def _load_docs(self, docs):
-        solutions = [doc["sol1"], doc["sol2"]]
+        for record in docs:
-        return " " + solutions[doc["label"]]
+            yield self._convert_standard(record)
-    def construct_requests(self, doc, ctx):
+    def training_docs(self):
-        ll_1, _ = rf.loglikelihood(ctx, " " + doc['sol1'])
+        docs = super().training_docs()
-        ll_2, _ = rf.loglikelihood(ctx, " " + doc['sol2'])
+        return self._load_docs(docs)
-        return ll_1, ll_2
-    def process_results(self, doc, results):
+    def validation_docs(self):
-        return {
+        docs = super().validation_docs()
-            'acc': np.argmax(results) == doc["label"]
+        return self._load_docs(docs)
-        }
-    def aggregation(self):
+    def test_docs(self):
-        return {
+        docs = super().test_docs()
-            'acc': mean
+        return self._load_docs(docs)
-        }
-    def higher_is_better(self):
+    def doc_to_text(self, doc):
-        return {
+        return "Question: " + doc["goal"] + "\nAnswer:"
-            'acc': True
-        }