Merge pull request #27 from JessicaOjo/africamgsm

add manual accuracy scores

Merge pull request #27 from JessicaOjo/africamgsm
add manual accuracy scores
692510cc · Jess · GitHub · 8c8e9c54 · 474073af · 692510cc
Unverified Commit 692510cc authored May 23, 2024 by Jess Committed by GitHub May 23, 2024
4 changed files
--- a/lm_eval/tasks/afrixnli/manual/direct/afrixnli_manual_direct_yaml
+++ b/lm_eval/tasks/afrixnli/manual/direct/afrixnli_manual_direct_yaml
@@ -32,7 +32,7 @@ metric_list:
    ignore_case: true
    ignore_punctuation: true
  - metric: acc
-    aggregation: mean
+    aggregation: !function utils.manual_accuracy_score
    higher_is_better: true
    ignore_case: true
    ignore_punctuation: true

--- a/lm_eval/tasks/afrixnli/manual/direct/utils.py
+++ b/lm_eval/tasks/afrixnli/manual/direct/utils.py
-from sklearn.metrics import f1_score
+from sklearn.metrics import f1_score, accuracy_score


 def doc_to_text(doc):
@@ -30,3 +30,12 @@ def weighted_f1_score(items):
    preds = unzipped_list[1]
    fscore = f1_score(golds, preds, average="weighted")
    return fscore
+
+
+def manual_accuracy_score(items):
+    unzipped_list = list(zip(*items))
+    golds = unzipped_list[0]
+    preds = unzipped_list[1]
+
+    accuracy = accuracy_score(golds, preds)
+    return accuracy
--- a/lm_eval/tasks/afrixnli/manual/translate/afrixnli_manual_translate_yaml
+++ b/lm_eval/tasks/afrixnli/manual/translate/afrixnli_manual_translate_yaml
@@ -25,13 +25,13 @@ filter_list:
                "neutral": ['neutral']}
 metric_list:
  - metric: f1
-    aggregation: !function utils.weighted_f1_score
+    aggregation:
    average: weighted
    higher_is_better: True
    ignore_case: true
    ignore_punctuation: true
  - metric: acc
-    aggregation: mean
+    aggregation: !function utils.manual_accuracy_score
    higher_is_better: true
    ignore_case: true
    ignore_punctuation: true

--- a/lm_eval/tasks/afrixnli/manual/translate/utils.py
+++ b/lm_eval/tasks/afrixnli/manual/translate/utils.py
-from sklearn.metrics import f1_score
+from sklearn.metrics import f1_score, accuracy_score


 def doc_to_text(doc):
@@ -30,3 +30,12 @@ def weighted_f1_score(items):
    preds = unzipped_list[1]
    fscore = f1_score(golds, preds, average="weighted")
    return fscore
+
+
+def manual_accuracy_score(items):
+    unzipped_list = list(zip(*items))
+    golds = unzipped_list[0]
+    preds = unzipped_list[1]
+
+    accuracy = accuracy_score(golds, preds)
+    return accuracy