Merge pull request #766 from EleutherAI/patch-crowspairs

[Refactor] Patch crowspairs higher_is_better

Merge pull request #766 from EleutherAI/patch-crowspairs
[Refactor] Patch crowspairs higher_is_better
054ed37f · Hailey Schoelkopf · GitHub · 4f27f0b9 · bede79c2 · 054ed37f
Unverified Commit 054ed37f authored Aug 13, 2023 by Hailey Schoelkopf Committed by GitHub Aug 13, 2023
Showing with 3 additions and 3 deletions

lm_eval/tasks/crows_pairs/crows_pairs_english.yaml lm_eval/tasks/crows_pairs/crows_pairs_english.yaml +2 -2

lm_eval/tasks/crows_pairs/utils.py lm_eval/tasks/crows_pairs/utils.py +1 -1

No files found.
--- a/lm_eval/tasks/crows_pairs/crows_pairs_english.yaml
+++ b/lm_eval/tasks/crows_pairs/crows_pairs_english.yaml
@@ -16,6 +16,6 @@ metric_list:
  - metric: likelihood_diff
    aggregation: mean
    higher_is_better: false
-  - metric: acc
+  - metric: pct_stereotype
    aggregation: mean
-    higher_is_better: true
+    higher_is_better: false
--- a/lm_eval/tasks/crows_pairs/utils.py
+++ b/lm_eval/tasks/crows_pairs/utils.py
@@ -13,7 +13,7 @@ def process_results(doc, results):
    # then treat this as predicting stereotyped sentence
    acc = 1.0 if likelihood1 > likelihood2 else 0.0
-    return {"likelihood_diff": diff, "acc": acc}
+    return {"likelihood_diff": diff, "pct_stereotype": acc}
 def doc_to_choice(doc):