Pretty sure questions need to be paragraph dependent also

d7e32489 · thomasw21 · 0bde7589 · d7e32489 · d7e32489
Commit d7e32489 authored Dec 29, 2021 by thomasw21
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 4 deletions

lm_eval/metrics.py lm_eval/metrics.py +4 -3

lm_eval/tasks/superglue.py lm_eval/tasks/superglue.py +1 -1

No files found.
--- a/lm_eval/metrics.py
+++ b/lm_eval/metrics.py
@@ -52,13 +52,14 @@ def acc_all(items):
    docs = list(zip(*items))[1]

    for doc, pred in zip(docs, preds):
+        paragraph_id = doc["idx"]["paragraph"]
        question_id = doc["idx"]["question"]
-        if question_id not in question_scoring_dict:
-            question_scoring_dict[question_id] = []
+        if (paragraph_id, question_id) not in question_scoring_dict:
+            question_scoring_dict[(paragraph_id, question_id)] = []

        gold_label = doc["label"] == 1
-        question_scoring_dict[question_id].append(gold_label == pred)

+        question_scoring_dict[(paragraph_id, question_id)].append(gold_label == pred)
    acc = np.mean([int(all(x)) for x in question_scoring_dict.values()])
    return acc


--- a/lm_eval/tasks/superglue.py
+++ b/lm_eval/tasks/superglue.py
@@ -202,7 +202,7 @@ class Copa(HFTask):


 class MultiRC(HFTask):
-    VERSION = 0
+    VERSION = 1
    DATASET_PATH = "super_glue"
    DATASET_NAME = "multirc"