Merge branch 'group-agg-rework' of...

Merge branch 'group-agg-rework' of https://github.com/EleutherAI/lm-evaluation-harness into group-agg-rework

Merge branch 'group-agg-rework' of...
Merge branch 'group-agg-rework' of https://github.com/EleutherAI/lm-evaluation-harness into group-agg-rework
ba73d131 · lintangsutawika · 6e2dbe76 · 269b66e9 · ba73d131 · ba73d131
Commit ba73d131 authored Jul 04, 2024 by lintangsutawika
10 changed files
--- a/lm_eval/tasks/leaderboard/bbh_mc/_leaderboard_bbh.yaml
+++ b/lm_eval/tasks/leaderboard/bbh_mc/_leaderboard_bbh.yaml
+group: leaderboard_bbh
+task:
+  - leaderboard_bbh_boolean_expressions
+  - leaderboard_bbh_causal_judgement
+  - leaderboard_bbh_date_understanding
+  - leaderboard_bbh_disambiguation_qa
+  - leaderboard_bbh_formal_fallacies
+  - leaderboard_bbh_geometric_shapes
+  - leaderboard_bbh_hyperbaton
+  - leaderboard_bbh_logical_deduction_five_objects
+  - leaderboard_bbh_logical_deduction_seven_objects
+  - leaderboard_bbh_logical_deduction_three_objects
+  - leaderboard_bbh_movie_recommendation
+  - leaderboard_bbh_navigate
+  - leaderboard_bbh_object_counting
+  - leaderboard_bbh_penguins_in_a_table
+  - leaderboard_bbh_reasoning_about_colored_objects
+  - leaderboard_bbh_ruin_names
+  - leaderboard_bbh_salient_translation_error_detection
+  - leaderboard_bbh_snarks
+  - leaderboard_bbh_sports_understanding
+  - leaderboard_bbh_temporal_sequences
+  - leaderboard_bbh_tracking_shuffled_objects_five_objects
+  - leaderboard_bbh_tracking_shuffled_objects_seven_objects
+  - leaderboard_bbh_tracking_shuffled_objects_three_objects
+  - leaderboard_bbh_web_of_lies
--- a/lm_eval/tasks/leaderboard/gpqa/_leaderboard_gpqa.yaml
+++ b/lm_eval/tasks/leaderboard/gpqa/_leaderboard_gpqa.yaml
+group: leaderboard_gpqa
+task:
+  - leaderboard_gpqa_diamond
+  - leaderboard_gpqa_extended
+  - leaderboard_gpqa_main
--- a/lm_eval/tasks/leaderboard/gpqa/_template_yaml
+++ b/lm_eval/tasks/leaderboard/gpqa/_template_yaml
 dataset_path: Idavidrein/gpqa
-group: leaderboard_gpqa
 output_type: multiple_choice
 process_docs: !function utils.process_docs
 training_split: train

--- a/lm_eval/tasks/leaderboard/ifeval/_leaderboard_instruction_following.yaml
+++ b/lm_eval/tasks/leaderboard/ifeval/_leaderboard_instruction_following.yaml
+group: leaderboard_instruction_following
+task:
+  - leaderboard_ifeval
--- a/lm_eval/tasks/leaderboard/ifeval/ifeval.yaml
+++ b/lm_eval/tasks/leaderboard/ifeval/ifeval.yaml
 task: leaderboard_ifeval
-group: leaderboard_instruction_following
 dataset_path: wis-k/instruction-following-eval
 dataset_name: null
 output_type: generate_until

--- a/lm_eval/tasks/leaderboard/math/_leaderboard_math.yaml
+++ b/lm_eval/tasks/leaderboard/math/_leaderboard_math.yaml
+group: leaderboard_math_hard
+task:
+  - leaderboard_math_algebra_hard
+  - leaderboard_math_counting_and_prob_hard
+  - leaderboard_math_geometry_hard
+  - leaderboard_math_intermediate_algebra_hard
+  - leaderboard_math_num_theory_hard
+  - leaderboard_math_prealgebra_hard
+  - leaderboard_math_precalculus_hard
--- a/lm_eval/tasks/leaderboard/math/_template_yaml
+++ b/lm_eval/tasks/leaderboard/math/_template_yaml
-group:
-  - leaderboard_math_hard
 dataset_path: lighteval/MATH-Hard
 process_docs: !function utils.process_docs
 output_type: generate_until

--- a/lm_eval/tasks/leaderboard/musr/_musr.yaml
+++ b/lm_eval/tasks/leaderboard/musr/_musr.yaml
+group: leaderboard_musr
+task:
+  - leaderboard_musr_murder_mysteries
+  - leaderboard_musr_object_placements
+  - leaderboard_musr_team_allocation
--- a/lm_eval/tasks/leaderboard/musr/_template_yaml
+++ b/lm_eval/tasks/leaderboard/musr/_template_yaml
-group:
-  - leaderboard_musr
 dataset_path: TAUR-Lab/MuSR
 output_type: multiple_choice
 doc_to_text: !function utils.doc_to_text

--- a/lm_eval/tasks/paloma/_paloma_template
+++ b/lm_eval/tasks/paloma/_paloma_template
-group:
+tag:
  - paloma
 dataset_path: allenai/paloma
 output_type: loglikelihood_rolling