leaderboard - add subtask scores (#2867)

* add subtask scores * pacify pre-commit

leaderboard - add subtask scores (#2867)
* add subtask scores * pacify pre-commit
ac0bc1df · Baber Abbasi · GitHub · 6cc41d34 · ac0bc1df · ac0bc1df
Unverified Commit ac0bc1df authored Apr 02, 2025 by Baber Abbasi Committed by GitHub Apr 02, 2025
20 changed files
--- a/lm_eval/tasks/darija_bench/README.md
+++ b/lm_eval/tasks/darija_bench/README.md
--- a/lm_eval/tasks/darija_bench/darija_sentiment/README.md
+++ b/lm_eval/tasks/darija_bench/darija_sentiment/README.md
--- a/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_electrom.yaml
+++ b/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_electrom.yaml
--- a/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_mac.yaml
+++ b/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_mac.yaml
--- a/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_msac.yaml
+++ b/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_msac.yaml
--- a/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_msda.yaml
+++ b/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_msda.yaml
--- a/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_myc.yaml
+++ b/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_myc.yaml
--- a/lm_eval/tasks/darija_bench/darija_sentiment/utils.py
+++ b/lm_eval/tasks/darija_bench/darija_sentiment/utils.py
 from lm_eval.api.filter import Filter
 from lm_eval.api.registry import register_filter

-alpha = ['A', 'B', 'C']
+
+alpha = ["A", "B", "C"]
 out_dic = {"ايجابي": 1, "سلبي": 0, "ماكينش إحساس": 2}

+
 def doc_to_text(doc):
-    return doc["messages"][0]["content"].replace('-سلبي', 'A. سلبي').replace('-ايجابي', 'B. ايجابي').replace('-ماكينش إحساس', 'C. ماكينش إحساس\nThe answer should be strictly one letter of the following: A, B, C.')#.replace('شنو هو الإحساس ديال هاد الجملة؟', 'شنو هو الإحساس ديال هاد الجملة؟')
+    return (
+        doc["messages"][0]["content"]
+        .replace("-سلبي", "A. سلبي")
+        .replace("-ايجابي", "B. ايجابي")
+        .replace(
+            "-ماكينش إحساس",
+            "C. ماكينش إحساس\nThe answer should be strictly one letter of the following: A, B, C.",
+        )
+    )  # .replace('شنو هو الإحساس ديال هاد الجملة؟', 'شنو هو الإحساس ديال هاد الجملة؟')
+

 def doc_to_choice_3(doc):
    return alpha

+
 def doc_to_choice_2(doc):
    return alpha[:2]

+
 def doc_to_target(doc):
    return alpha[out_dic[doc["messages"][1]["content"]]]
-
--- a/lm_eval/tasks/darija_bench/darija_summarization/README.md
+++ b/lm_eval/tasks/darija_bench/darija_summarization/README.md
--- a/lm_eval/tasks/darija_bench/darija_summarization/utils.py
+++ b/lm_eval/tasks/darija_bench/darija_summarization/utils.py
-import evaluate
 import datasets
+import evaluate
+

 def strip(resps, docs):
    """
@@ -9,49 +10,71 @@ def strip(resps, docs):


 def doc_to_text(doc):
-    doc_text = doc["messages"][0]["content"].replace("لخص هاد المقطع", "لخص هاد المقطع في ٣٠ كلمة")
+    doc_text = doc["messages"][0]["content"].replace(
+        "لخص هاد المقطع", "لخص هاد المقطع في ٣٠ كلمة"
+    )
    return doc_text

+
 def doc_to_target(doc):
    return doc["messages"][1]["content"]

+
 def bert(items):
    return items

+
 def Average(lst):
    return sum(lst) / len(lst)

+
 def darijabert(items):
-    bert_model = 'SI2M-Lab/DarijaBERT'
+    bert_model = "SI2M-Lab/DarijaBERT"
    bert_score = evaluate.load("bertscore")
    predictions, references = zip(*items)
-    bert = bert_score.compute(predictions=predictions, references=references, model_type=bert_model, num_layers=12)
-    return Average(bert['f1'])
+    bert = bert_score.compute(
+        predictions=predictions,
+        references=references,
+        model_type=bert_model,
+        num_layers=12,
+    )
+    return Average(bert["f1"])
+

 def rouge1(items):
    return items
+
+
 def rougeL(items):
    return items
+
+
 def rouge2(items):
    return items
+
+
 def rougeLsum(items):
    return items

+
 def agg_rougelsum(items):
    rouge = evaluate.load("rouge")
    predictions, references = zip(*items)
    return rouge.compute(predictions=predictions, references=references)["rougeLsum"]

+
 def agg_rouge1(items):
    rouge = evaluate.load("rouge")
    predictions, references = zip(*items)
    return rouge.compute(predictions=predictions, references=references)["rouge1"]

+
 def agg_rouge2(items):
    rouge = evaluate.load("rouge")
    predictions, references = zip(*items)
    return rouge.compute(predictions=predictions, references=references)["rouge2"]

+
 def agg_rougel(items):
    rouge = evaluate.load("rouge")
    predictions, references = zip(*items)

--- a/lm_eval/tasks/darija_bench/darija_translation/README.md
+++ b/lm_eval/tasks/darija_bench/darija_translation/README.md
--- a/lm_eval/tasks/darija_bench/darija_translation/doda_common_yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/doda_common_yaml
--- a/lm_eval/tasks/darija_bench/darija_translation/doda_translation_dr_en.yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/doda_translation_dr_en.yaml
--- a/lm_eval/tasks/darija_bench/darija_translation/doda_translation_dr_fr.yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/doda_translation_dr_fr.yaml
--- a/lm_eval/tasks/darija_bench/darija_translation/doda_translation_dr_msa.yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/doda_translation_dr_msa.yaml
--- a/lm_eval/tasks/darija_bench/darija_translation/doda_translation_fr_dr.yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/doda_translation_fr_dr.yaml
--- a/lm_eval/tasks/darija_bench/darija_translation/doda_translation_msa_dr.yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/doda_translation_msa_dr.yaml
--- a/lm_eval/tasks/darija_bench/darija_translation/flores_common_yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/flores_common_yaml
--- a/lm_eval/tasks/darija_bench/darija_translation/flores_translation_dr_en.yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/flores_translation_dr_en.yaml
--- a/lm_eval/tasks/darija_bench/darija_translation/flores_translation_dr_fr.yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/flores_translation_dr_fr.yaml