Merge branch 'group-agg-rework' of...

Merge branch 'group-agg-rework' of https://github.com/EleutherAI/lm-evaluation-harness into multiprompt

Merge branch 'group-agg-rework' of...
Merge branch 'group-agg-rework' of https://github.com/EleutherAI/lm-evaluation-harness into multiprompt
88486e57 · lintangsutawika · 5971f2ca · ba73d131 · 88486e57 · 88486e57
Commit 88486e57 authored Jul 05, 2024 by lintangsutawika
20 changed files
--- a/lm_eval/tasks/french_bench/french_bench_fquadv2_genq.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_fquadv2_genq.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_gen
 description: "D'après l'information dans le contexte donné, quelle question a été posée pour obtenir la réponse donnée ?"

--- a/lm_eval/tasks/french_bench/french_bench_fquadv2_hasAns.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_fquadv2_hasAns.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_gen
 description: "D'après l'information dans le contexte donné, donne la réponse à la question en citant quelques mots du contexte. Si il est impossible de répondre avec les informations du contexte, répond 'Impossible'."

--- a/lm_eval/tasks/french_bench/french_bench_grammar.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_grammar.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_mc
 description: "Répond au mieux en complétant la question avec une des réponses proposées."

--- a/lm_eval/tasks/french_bench/french_bench_hellaswag.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_hellaswag.yaml
-group:
+tag:
  - french_bench
  - french_bench_mc
 task: french_bench_hellaswag

--- a/lm_eval/tasks/french_bench/french_bench_multifquad.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_multifquad.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_gen
 description: "D'après l'information dans le contexte donné, donne la réponse à la question en citant quelques extraits du contexte."

--- a/lm_eval/tasks/french_bench/french_bench_opus_perplexity.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_opus_perplexity.yaml
-group:
+tag:
  - french_bench_perplexity
 task: french_bench_opus_perplexity
 dataset_path: manu/opus100-en-fr

--- a/lm_eval/tasks/french_bench/french_bench_orangesum_abstract.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_orangesum_abstract.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_gen
 description: "Résume l'article en une phrase."

--- a/lm_eval/tasks/french_bench/french_bench_orangesum_title.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_orangesum_title.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_extra
 description: "Trouve le titre de l'article."

--- a/lm_eval/tasks/french_bench/french_bench_reading_comp.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_reading_comp.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_extra
 # description: "Répond au mieux en complétant la question avec une des réponses proposées."

--- a/lm_eval/tasks/french_bench/french_bench_topic_based_nli.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_topic_based_nli.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_extra
 description: "A propos du thème spécifié, l'avis client est il positif, négatif, ou neutre ?"

--- a/lm_eval/tasks/french_bench/french_bench_trivia.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_trivia.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_gen
 task: french_bench_trivia

--- a/lm_eval/tasks/french_bench/french_bench_vocab.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_vocab.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_mc
 # description: "Répond au mieux en complétant la question avec une des réponses proposées."

--- a/lm_eval/tasks/french_bench/french_bench_wikitext_fr.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_wikitext_fr.yaml
-group:
+tag:
  - french_bench_perplexity
 task: french_bench_wikitext_fr
 dataset_path: asi/wikitext_fr

--- a/lm_eval/tasks/french_bench/french_bench_xnli.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_xnli.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_extra
 description: "La prémisse et l'hypothèse sont elles en accord, neutres en elles, ou en contradiction ?"

--- a/lm_eval/tasks/glianorex/README.md
+++ b/lm_eval/tasks/glianorex/README.md
+# Glianorex
+The goal of this benchmark is to isolate the test answering capabilities from the content knowledge.
+### Paper
+Title: Multiple Choice Questions and Large Languages Models: A Case Study with Fictional Medical Data
+Abstract: https://arxiv.org/abs/2406.02394
+To test the relevance of MCQs to assess LLM performance without prior data exposure, we created a fictional medical benchmark and knowledge base on a non-existent gland, the Glianorex. Using GPT-4 we generated a comprehensive textbook on the Glianorex in both English and French, and created multiple-choice questions in both English and French.
+### Tasks
+All tasks are multiple choice questions with 4 options, only one correct option.
+- `glianorex`: Evaluates all tasks listed below.
+- `glianorex_en`: Evaluates the accuracy on 264 questions in English.
+- `glianorex_fr`: Evaluates the accuracy on 264 questions in French.
--- a/lm_eval/tasks/glianorex/glianorex.yaml
+++ b/lm_eval/tasks/glianorex/glianorex.yaml
+task: glianorex
+dataset_path: maximegmd/glianorex
+output_type: multiple_choice
+test_split: train
+doc_to_text: !function preprocess_glianorex.doc_to_text
+doc_to_target: !function preprocess_glianorex.doc_to_target
+doc_to_choice: [ 'A', 'B', 'C', 'D' ]
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+  - metric: acc_norm
+    aggregation: mean
+    higher_is_better: true
--- a/lm_eval/tasks/glianorex/glianorex_en.yaml
+++ b/lm_eval/tasks/glianorex/glianorex_en.yaml
+task: glianorex_en
+dataset_path: maximegmd/glianorex
+output_type: multiple_choice
+test_split: train
+doc_to_text: !function preprocess_glianorex.doc_to_text
+doc_to_target: !function preprocess_glianorex.doc_to_target
+process_docs: !function preprocess_glianorex.filter_english
+doc_to_choice: [ 'A', 'B', 'C', 'D' ]
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+  - metric: acc_norm
+    aggregation: mean
+    higher_is_better: true
--- a/lm_eval/tasks/glianorex/glianorex_fr.yaml
+++ b/lm_eval/tasks/glianorex/glianorex_fr.yaml
+task: glianorex_fr
+dataset_path: maximegmd/glianorex
+output_type: multiple_choice
+test_split: train
+doc_to_text: !function preprocess_glianorex.doc_to_text
+doc_to_target: !function preprocess_glianorex.doc_to_target
+process_docs: !function preprocess_glianorex.filter_french
+doc_to_choice: [ 'A', 'B', 'C', 'D' ]
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+  - metric: acc_norm
+    aggregation: mean
+    higher_is_better: true
--- a/lm_eval/tasks/glianorex/preprocess_glianorex.py
+++ b/lm_eval/tasks/glianorex/preprocess_glianorex.py
+import datasets
+def doc_to_text(doc) -> str:
+    option_choices = doc["options"]
+    answers = "".join((f"{k}. {v}\n") for k, v in option_choices.items())
+    return f"Question: {doc['question']}\n{answers}Answer:"
+def doc_to_target(doc) -> int:
+    return doc["answer_idx"]
+def filter_dataset(dataset: datasets.Dataset, lang: str) -> datasets.Dataset:
+    return dataset.filter(lambda example: example["language"].startswith(lang))
+def filter_french(dataset: datasets.Dataset) -> datasets.Dataset:
+    return filter_dataset(dataset, "fr")
+def filter_english(dataset: datasets.Dataset) -> datasets.Dataset:
+    return filter_dataset(dataset, "en")
--- a/lm_eval/tasks/glue/README.md
+++ b/lm_eval/tasks/glue/README.md
@@ -41,10 +41,14 @@ Homepage: https://gluebenchmark.com/
 }
 ```
-### Groups and Tasks
+### Groups, Tags, and Tasks
 #### Groups
+None.
+#### Tags
 * `glue`: Run all Glue subtasks.
 #### Tasks