do per character loss aggregation for multiple choice tasks (similar to OAI's...

do per character loss aggregation for multiple choice tasks (similar to OAI's per token aggregation)

do per character loss aggregation for multiple choice tasks (similar to OAI's...
do per character loss aggregation for multiple choice tasks (similar to OAI's per token aggregation)
fae5fe66 · Ben Wang · fd26ef16 · fae5fe66
Commit fae5fe66 authored Apr 11, 2021 by Ben Wang
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 1 deletion

lm_eval/base.py lm_eval/base.py +3 -1

No files found.
--- a/lm_eval/base.py
+++ b/lm_eval/base.py
@@ -225,7 +225,9 @@ class MultipleChoiceTask(Task):
    def process_results(self, doc, results):
        gold = doc["gold"]

-        acc = 1. if np.argmax(results) == gold else 0.
+        completion_len = np.array([float(len(i)) for i in doc["choices"]])
+
+        acc = 1. if np.argmax(results/completion_len) == gold else 0.

        return {
            "acc": acc