add many explicit group configs

44a602ab · haileyschoelkopf · c9801daf · 44a602ab · 44a602ab · 44a602ab
Commit 44a602ab authored Jun 25, 2024 by haileyschoelkopf
20 changed files
--- a/lm_eval/tasks/csatqa/_csatqa.yaml
+++ b/lm_eval/tasks/csatqa/_csatqa.yaml
+group: csatqa
+task:
+  - csatqa_gr
+  - csatqa_li
+  - csatqa_rch
+  - csatqa_rcs
+  - csatqa_rcss
+  - csatqa_wr
+aggregate_metric_list:
+  - metric: acc
+    aggregation: mean
+    weight_by_size: true
+  - metric: acc_norm
+    aggregation: mean
+    weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/csatqa/_default_csatqa_yaml
+++ b/lm_eval/tasks/csatqa/_default_csatqa_yaml
-group: csatqa
 dataset_path: EleutherAI/csatqa
 test_split: test
 output_type: multiple_choice

--- a/lm_eval/tasks/fld/fld_default.yaml
+++ b/lm_eval/tasks/fld/fld_default.yaml
-group:
-  - fld
 task: fld_default
 dataset_path: hitachi-nlp/FLD.v2
 dataset_name: default

--- a/lm_eval/tasks/french_bench/README.md
+++ b/lm_eval/tasks/french_bench/README.md
@@ -20,9 +20,9 @@ This benchmark is constructed both from openly available datasets, as well as ne
 }
 ```
-### Groups and Tasks
+### Groups, Tags, and Tasks
-#### Groups
+#### Tags
 - `french_bench`: All tasks (non-perplexity based)
 - `french_bench_gen`: All official generative tasks

--- a/lm_eval/tasks/french_bench/french_bench_arc_challenge.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_arc_challenge.yaml
-group:
+tag:
  - french_bench
  - french_bench_mc
 task: french_bench_arc_challenge

--- a/lm_eval/tasks/french_bench/french_bench_boolqa.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_boolqa.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_extra
 description: "D'après l'information dans le contexte donné, quelle est la réponse à la question ?"

--- a/lm_eval/tasks/french_bench/french_bench_fquadv2.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_fquadv2.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_extra
 description: "D'après l'information dans le contexte donné, donne la réponse à la question en citant quelques mots du contexte. Si il est impossible de répondre avec les informations du contexte, répond 'Impossible'."

--- a/lm_eval/tasks/french_bench/french_bench_fquadv2_bool.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_fquadv2_bool.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_extra
 description: "D'après l'information présente dans le contexte, est il possible de répondre à la question ?"

--- a/lm_eval/tasks/french_bench/french_bench_fquadv2_genq.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_fquadv2_genq.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_gen
 description: "D'après l'information dans le contexte donné, quelle question a été posée pour obtenir la réponse donnée ?"

--- a/lm_eval/tasks/french_bench/french_bench_fquadv2_hasAns.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_fquadv2_hasAns.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_gen
 description: "D'après l'information dans le contexte donné, donne la réponse à la question en citant quelques mots du contexte. Si il est impossible de répondre avec les informations du contexte, répond 'Impossible'."

--- a/lm_eval/tasks/french_bench/french_bench_grammar.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_grammar.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_mc
 description: "Répond au mieux en complétant la question avec une des réponses proposées."

--- a/lm_eval/tasks/french_bench/french_bench_hellaswag.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_hellaswag.yaml
-group:
+tag:
  - french_bench
  - french_bench_mc
 task: french_bench_hellaswag

--- a/lm_eval/tasks/french_bench/french_bench_multifquad.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_multifquad.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_gen
 description: "D'après l'information dans le contexte donné, donne la réponse à la question en citant quelques extraits du contexte."

--- a/lm_eval/tasks/french_bench/french_bench_opus_perplexity.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_opus_perplexity.yaml
-group:
+tag:
  - french_bench_perplexity
 task: french_bench_opus_perplexity
 dataset_path: manu/opus100-en-fr

--- a/lm_eval/tasks/french_bench/french_bench_orangesum_abstract.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_orangesum_abstract.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_gen
 description: "Résume l'article en une phrase."

--- a/lm_eval/tasks/french_bench/french_bench_orangesum_title.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_orangesum_title.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_extra
 description: "Trouve le titre de l'article."

--- a/lm_eval/tasks/french_bench/french_bench_reading_comp.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_reading_comp.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_extra
 # description: "Répond au mieux en complétant la question avec une des réponses proposées."

--- a/lm_eval/tasks/french_bench/french_bench_topic_based_nli.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_topic_based_nli.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_extra
 description: "A propos du thème spécifié, l'avis client est il positif, négatif, ou neutre ?"

--- a/lm_eval/tasks/french_bench/french_bench_trivia.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_trivia.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_gen
 task: french_bench_trivia

--- a/lm_eval/tasks/french_bench/french_bench_vocab.yaml
+++ b/lm_eval/tasks/french_bench/french_bench_vocab.yaml
 include: "_default_template_yaml"
-group:
+tag:
  - french_bench
  - french_bench_mc
 # description: "Répond au mieux en complétant la question avec une des réponses proposées."