leaderboard - add subtask scores (#2867)

* add subtask scores * pacify pre-commit

leaderboard - add subtask scores (#2867)
* add subtask scores * pacify pre-commit
ac0bc1df · Baber Abbasi · GitHub · 6cc41d34 · ac0bc1df · ac0bc1df
Unverified Commit ac0bc1df authored Apr 02, 2025 by Baber Abbasi Committed by GitHub Apr 02, 2025
20 changed files
--- a/lm_eval/tasks/darija_bench/README.md
+++ b/lm_eval/tasks/darija_bench/README.md
@@ -16,13 +16,13 @@ Homepage: [https://huggingface.co/datasets/MBZUAI-Paris/DarijaBench](https://hug
 ```
 @article{shang2024atlaschatadaptinglargelanguage,
-      title={Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect}, 
+      title={Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect},
      author={Guokan Shang and Hadi Abdine and Yousef Khoubrane and Amr Mohamed and Yassine Abbahaddou and Sofiane Ennadir and Imane Momayiz and Xuguang Ren and Eric Moulines and Preslav Nakov and Michalis Vazirgiannis and Eric Xing},
      year={2024},
      eprint={2409.17912},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
-      url={https://arxiv.org/abs/2409.17912}, 
+      url={https://arxiv.org/abs/2409.17912},
 }
 ```

--- a/lm_eval/tasks/darija_bench/darija_sentiment/README.md
+++ b/lm_eval/tasks/darija_bench/darija_sentiment/README.md
@@ -16,13 +16,13 @@ Homepage: [https://huggingface.co/datasets/MBZUAI-Paris/DarijaBench](https://hug
 ```
 @article{shang2024atlaschatadaptinglargelanguage,
-      title={Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect}, 
+      title={Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect},
      author={Guokan Shang and Hadi Abdine and Yousef Khoubrane and Amr Mohamed and Yassine Abbahaddou and Sofiane Ennadir and Imane Momayiz and Xuguang Ren and Eric Moulines and Preslav Nakov and Michalis Vazirgiannis and Eric Xing},
      year={2024},
      eprint={2409.17912},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
-      url={https://arxiv.org/abs/2409.17912}, 
+      url={https://arxiv.org/abs/2409.17912},
 }
 ```

--- a/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_electrom.yaml
+++ b/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_electrom.yaml
@@ -4,4 +4,4 @@ test_split: electro_maroc
 - "darija_sentiment_tasks"
 "task": "darija_sentiment_electrom"
 "task_alias": "Electro Maroc"
 doc_to_choice: !function utils.doc_to_choice_2
\ No newline at end of file
--- a/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_mac.yaml
+++ b/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_mac.yaml
@@ -4,4 +4,4 @@ test_split: mac
 - "darija_sentiment_tasks"
 "task": "darija_sentiment_mac"
 "task_alias": "MAC"
 doc_to_choice: !function utils.doc_to_choice_3
\ No newline at end of file
--- a/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_msac.yaml
+++ b/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_msac.yaml
@@ -4,4 +4,4 @@ test_split: msac
 - "darija_sentiment_tasks"
 "task": "darija_sentiment_msac"
 "task_alias": "MSAC"
 doc_to_choice: !function utils.doc_to_choice_2
\ No newline at end of file
--- a/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_msda.yaml
+++ b/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_msda.yaml
@@ -4,4 +4,4 @@ test_split: msda
 - "darija_sentiment_tasks"
 "task": "darija_sentiment_msda"
 "task_alias": "MSDA"
 doc_to_choice: !function utils.doc_to_choice_3
\ No newline at end of file
--- a/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_myc.yaml
+++ b/lm_eval/tasks/darija_bench/darija_sentiment/darija_sentiment_myc.yaml
@@ -4,4 +4,4 @@ test_split: myc
 - "darija_sentiment_tasks"
 "task": "darija_sentiment_myc"
 "task_alias": "MYC"
 doc_to_choice: !function utils.doc_to_choice_2
\ No newline at end of file
--- a/lm_eval/tasks/darija_bench/darija_sentiment/utils.py
+++ b/lm_eval/tasks/darija_bench/darija_sentiment/utils.py
 from lm_eval.api.filter import Filter
 from lm_eval.api.registry import register_filter
-alpha = ['A', 'B', 'C']
+alpha = ["A", "B", "C"]
 out_dic = {"ايجابي": 1, "سلبي": 0, "ماكينش إحساس": 2}
 def doc_to_text(doc):
-    return doc["messages"][0]["content"].replace('-سلبي', 'A. سلبي').replace('-ايجابي', 'B. ايجابي').replace('-ماكينش إحساس', 'C. ماكينش إحساس\nThe answer should be strictly one letter of the following: A, B, C.')#.replace('شنو هو الإحساس ديال هاد الجملة؟', 'شنو هو الإحساس ديال هاد الجملة؟')
+    return (
+        doc["messages"][0]["content"]
+        .replace("-سلبي", "A. سلبي")
+        .replace("-ايجابي", "B. ايجابي")
+        .replace(
+            "-ماكينش إحساس",
+            "C. ماكينش إحساس\nThe answer should be strictly one letter of the following: A, B, C.",
+        )
+    )  # .replace('شنو هو الإحساس ديال هاد الجملة؟', 'شنو هو الإحساس ديال هاد الجملة؟')
 def doc_to_choice_3(doc):
    return alpha
 def doc_to_choice_2(doc):
    return alpha[:2]
 def doc_to_target(doc):
    return alpha[out_dic[doc["messages"][1]["content"]]]
--- a/lm_eval/tasks/darija_bench/darija_summarization/README.md
+++ b/lm_eval/tasks/darija_bench/darija_summarization/README.md
@@ -16,13 +16,13 @@ Homepage: [https://huggingface.co/datasets/MBZUAI-Paris/DarijaBench](https://hug
 ```
 @article{shang2024atlaschatadaptinglargelanguage,
-      title={Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect}, 
+      title={Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect},
      author={Guokan Shang and Hadi Abdine and Yousef Khoubrane and Amr Mohamed and Yassine Abbahaddou and Sofiane Ennadir and Imane Momayiz and Xuguang Ren and Eric Moulines and Preslav Nakov and Michalis Vazirgiannis and Eric Xing},
      year={2024},
      eprint={2409.17912},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
-      url={https://arxiv.org/abs/2409.17912}, 
+      url={https://arxiv.org/abs/2409.17912},
 }
 ```

--- a/lm_eval/tasks/darija_bench/darija_summarization/utils.py
+++ b/lm_eval/tasks/darija_bench/darija_summarization/utils.py
-import evaluate
 import datasets
+import evaluate
 def strip(resps, docs):
    """
@@ -9,50 +10,72 @@ def strip(resps, docs):
 def doc_to_text(doc):
-    doc_text = doc["messages"][0]["content"].replace("لخص هاد المقطع", "لخص هاد المقطع في ٣٠ كلمة")
+    doc_text = doc["messages"][0]["content"].replace(
+        "لخص هاد المقطع", "لخص هاد المقطع في ٣٠ كلمة"
+    )
    return doc_text
 def doc_to_target(doc):
    return doc["messages"][1]["content"]
 def bert(items):
    return items
 def Average(lst):
-        return sum(lst) / len(lst)
+    return sum(lst) / len(lst)
 def darijabert(items):
-    bert_model = 'SI2M-Lab/DarijaBERT'
+    bert_model = "SI2M-Lab/DarijaBERT"
    bert_score = evaluate.load("bertscore")
    predictions, references = zip(*items)
-    bert = bert_score.compute(predictions=predictions, references=references, model_type=bert_model, num_layers=12)
+    bert = bert_score.compute(
-    return Average(bert['f1'])
+        predictions=predictions,
+        references=references,
+        model_type=bert_model,
+        num_layers=12,
+    )
+    return Average(bert["f1"])
 def rouge1(items):
    return items
 def rougeL(items):
    return items
 def rouge2(items):
    return items
 def rougeLsum(items):
    return items
 def agg_rougelsum(items):
    rouge = evaluate.load("rouge")
    predictions, references = zip(*items)
    return rouge.compute(predictions=predictions, references=references)["rougeLsum"]
 def agg_rouge1(items):
    rouge = evaluate.load("rouge")
    predictions, references = zip(*items)
    return rouge.compute(predictions=predictions, references=references)["rouge1"]
 def agg_rouge2(items):
    rouge = evaluate.load("rouge")
    predictions, references = zip(*items)
    return rouge.compute(predictions=predictions, references=references)["rouge2"]
 def agg_rougel(items):
    rouge = evaluate.load("rouge")
    predictions, references = zip(*items)
    return rouge.compute(predictions=predictions, references=references)["rougeL"]
\ No newline at end of file
--- a/lm_eval/tasks/darija_bench/darija_translation/README.md
+++ b/lm_eval/tasks/darija_bench/darija_translation/README.md
@@ -16,13 +16,13 @@ Homepage: [https://huggingface.co/datasets/MBZUAI-Paris/DarijaBench](https://hug
 ```
 @article{shang2024atlaschatadaptinglargelanguage,
-      title={Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect}, 
+      title={Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect},
      author={Guokan Shang and Hadi Abdine and Yousef Khoubrane and Amr Mohamed and Yassine Abbahaddou and Sofiane Ennadir and Imane Momayiz and Xuguang Ren and Eric Moulines and Preslav Nakov and Michalis Vazirgiannis and Eric Xing},
      year={2024},
      eprint={2409.17912},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
-      url={https://arxiv.org/abs/2409.17912}, 
+      url={https://arxiv.org/abs/2409.17912},
 }
 ```

--- a/lm_eval/tasks/darija_bench/darija_translation/doda_common_yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/doda_common_yaml
 test_split: doda
\ No newline at end of file
--- a/lm_eval/tasks/darija_bench/darija_translation/doda_translation_dr_en.yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/doda_translation_dr_en.yaml
@@ -9,4 +9,4 @@ include:
 metric_list:
  - metric: !function utils.bert
    aggregation: !function utils.bertbase
    higher_is_better: true
\ No newline at end of file
--- a/lm_eval/tasks/darija_bench/darija_translation/doda_translation_dr_fr.yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/doda_translation_dr_fr.yaml
@@ -9,4 +9,4 @@ include:
 metric_list:
  - metric: !function utils.bert
    aggregation: !function utils.camembert
    higher_is_better: true
\ No newline at end of file
--- a/lm_eval/tasks/darija_bench/darija_translation/doda_translation_dr_msa.yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/doda_translation_dr_msa.yaml
@@ -9,4 +9,4 @@ include:
 metric_list:
  - metric: !function utils.bert
    aggregation: !function utils.arabert
    higher_is_better: true
\ No newline at end of file
--- a/lm_eval/tasks/darija_bench/darija_translation/doda_translation_fr_dr.yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/doda_translation_fr_dr.yaml
@@ -9,4 +9,4 @@ include:
 metric_list:
  - metric: !function utils.bert
    aggregation: !function utils.darijabert
    higher_is_better: true
\ No newline at end of file
--- a/lm_eval/tasks/darija_bench/darija_translation/doda_translation_msa_dr.yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/doda_translation_msa_dr.yaml
@@ -9,4 +9,4 @@ include:
 metric_list:
  - metric: !function utils.bert
    aggregation: !function utils.darijabert
    higher_is_better: true
\ No newline at end of file
--- a/lm_eval/tasks/darija_bench/darija_translation/flores_common_yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/flores_common_yaml
 test_split: flores_plus
\ No newline at end of file
--- a/lm_eval/tasks/darija_bench/darija_translation/flores_translation_dr_en.yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/flores_translation_dr_en.yaml
@@ -9,4 +9,4 @@ include:
 metric_list:
  - metric: !function utils.bert
    aggregation: !function utils.bertbase
    higher_is_better: true
\ No newline at end of file
--- a/lm_eval/tasks/darija_bench/darija_translation/flores_translation_dr_fr.yaml
+++ b/lm_eval/tasks/darija_bench/darija_translation/flores_translation_dr_fr.yaml
@@ -9,4 +9,4 @@ include:
 metric_list:
  - metric: !function utils.bert
    aggregation: !function utils.camembert
    higher_is_better: true
\ No newline at end of file