keep new line for task description (#2116)

* add keep trailing newline * apply ruff-format * add prompt unit test * increment the version of tasks that have description with whitespace * remove white spaces of leaderboard bbh * update MMLU expected versions in output * CI run does display the expected version=1 for mmlu subtasks, fix expected test output again --------- Co-authored-by: haileyschoelkopf <hailey@eleuther.ai>

keep new line for task description (#2116)
* add keep trailing newline * apply ruff-format * add prompt unit test * increment the version of tasks that have description with whitespace * remove white spaces of leaderboard bbh * update MMLU expected versions in output * CI run does display the expected version=1 for mmlu subtasks, fix expected test output again --------- Co-authored-by: haileyschoelkopf <hailey@eleuther.ai>
8ad598df · Jungwhan Kim · GitHub · 0571eeb1 · 8ad598df · 8ad598df
Unverified Commit 8ad598df authored Aug 10, 2024 by Jungwhan Kim Committed by GitHub Aug 09, 2024
20 changed files
--- a/lm_eval/tasks/aclue/_aclue.yaml
+++ b/lm_eval/tasks/aclue/_aclue.yaml
@@ -23,4 +23,4 @@ aggregate_metric_list:
    aggregation: mean
    weight_by_size: true
 metadata:
-  version: 0.0
+  version: 1.0
--- a/lm_eval/tasks/aclue/_default_template_yaml
+++ b/lm_eval/tasks/aclue/_default_template_yaml
@@ -15,4 +15,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  version: 0.0
+  version: 1.0
--- a/lm_eval/tasks/aexams/_aexams.yaml
+++ b/lm_eval/tasks/aexams/_aexams.yaml
@@ -13,4 +13,4 @@ aggregate_metric_list:
    aggregation: mean
    weight_by_size: true
 metadata:
-  version: 0.0
+  version: 1.0
--- a/lm_eval/tasks/aexams/_default_template_yaml
+++ b/lm_eval/tasks/aexams/_default_template_yaml
@@ -15,4 +15,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  version: 0.0
+  version: 1.0
--- a/lm_eval/tasks/bbh/cot_fewshot/_bbh.yaml
+++ b/lm_eval/tasks/bbh/cot_fewshot/_bbh.yaml
@@ -33,4 +33,4 @@ aggregate_metric_list:
    weight_by_size: true
    filter_list: get-answer
 metadata:
-  version: 2.0
+  version: 3.0
--- a/lm_eval/tasks/bbh/cot_fewshot/_bbh_cot_fewshot.yaml
+++ b/lm_eval/tasks/bbh/cot_fewshot/_bbh_cot_fewshot.yaml
@@ -33,4 +33,4 @@ aggregate_metric_list:
    weight_by_size: true
    filter_list: get-answer
 metadata:
-  version: 2.0
+  version: 3.0
--- a/lm_eval/tasks/bbh/cot_fewshot/_cot_fewshot_template_yaml
+++ b/lm_eval/tasks/bbh/cot_fewshot/_cot_fewshot_template_yaml
@@ -24,4 +24,4 @@ filter_list:
      - function: "take_first"
 num_fewshot: 3
 metadata:
-  version: 2.0
+  version: 3.0
--- a/lm_eval/tasks/bbh/cot_zeroshot/_bbh_cot_zeroshot.yaml
+++ b/lm_eval/tasks/bbh/cot_zeroshot/_bbh_cot_zeroshot.yaml
@@ -33,4 +33,4 @@ aggregate_metric_list:
    weight_by_size: true
    filter_list: flexible-extract
 metadata:
-  version: 2.0
+  version: 3.0
--- a/lm_eval/tasks/bbh/cot_zeroshot/_cot_zeroshot_template_yaml
+++ b/lm_eval/tasks/bbh/cot_zeroshot/_cot_zeroshot_template_yaml
@@ -23,4 +23,4 @@ generation_kwargs:
  temperature: 0.0
 num_fewshot: 0
 metadata:
-  version: 2.0
+  version: 3.0
--- a/lm_eval/tasks/bbh/fewshot/_bbh_fewshot.yaml
+++ b/lm_eval/tasks/bbh/fewshot/_bbh_fewshot.yaml
@@ -32,4 +32,4 @@ aggregate_metric_list:
    aggregation: mean
    weight_by_size: true
 metadata:
-  version: 2.0
+  version: 3.0
--- a/lm_eval/tasks/bbh/fewshot/_fewshot_template_yaml
+++ b/lm_eval/tasks/bbh/fewshot/_fewshot_template_yaml
@@ -17,4 +17,4 @@ generation_kwargs:
  temperature: 0.0
 num_fewshot: 3
 metadata:
-  version: 1.0
+  version: 2.0
--- a/lm_eval/tasks/bbh/zeroshot/_bbh_zeroshot.yaml
+++ b/lm_eval/tasks/bbh/zeroshot/_bbh_zeroshot.yaml
@@ -33,4 +33,4 @@ aggregate_metric_list:
    weight_by_size: true
    filter_list: flexible-extract
 metadata:
-  version: 2.0
+  version: 3.0
--- a/lm_eval/tasks/bbh/zeroshot/_zeroshot_template_yaml
+++ b/lm_eval/tasks/bbh/zeroshot/_zeroshot_template_yaml
@@ -23,4 +23,4 @@ generation_kwargs:
  temperature: 0.0
 num_fewshot: 0
 metadata:
-  version: 2.0
+  version: 3.0
--- a/lm_eval/tasks/ceval/_ceval-valid.yaml
+++ b/lm_eval/tasks/ceval/_ceval-valid.yaml
@@ -7,7 +7,7 @@ aggregate_metric_list:
  weight_by_size: true
 group: ceval-valid
 metadata:
-  version: 1.0
+  version: 2.0
 task:
  - ceval-valid_computer_network
  - ceval-valid_operating_system

--- a/lm_eval/tasks/ceval/_default_ceval_yaml
+++ b/lm_eval/tasks/ceval/_default_ceval_yaml
@@ -15,4 +15,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  version: 1.0
+  version: 2.0
--- a/lm_eval/tasks/cmmlu/_cmmlu.yaml
+++ b/lm_eval/tasks/cmmlu/_cmmlu.yaml
@@ -75,4 +75,4 @@ aggregate_metric_list:
    metric: acc_norm
    weight_by_size: true
 metadata:
-  version: 0.0
+  version: 1.0
--- a/lm_eval/tasks/cmmlu/_default_template_yaml
+++ b/lm_eval/tasks/cmmlu/_default_template_yaml
@@ -15,4 +15,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  version: 0.0
+  version: 1.0
--- a/lm_eval/tasks/gpqa/cot_n_shot/_gpqa_cot_n_shot_yaml
+++ b/lm_eval/tasks/gpqa/cot_n_shot/_gpqa_cot_n_shot_yaml
@@ -35,4 +35,4 @@ metric_list:
    ignore_case: true
    ignore_punctuation: true
 metadata:
-  version: 1.0
+  version: 2.0
--- a/lm_eval/tasks/gpqa/generative/_gpqa_generative_n_shot_yaml
+++ b/lm_eval/tasks/gpqa/generative/_gpqa_generative_n_shot_yaml
@@ -36,4 +36,4 @@ metric_list:
    ignore_case: true
    ignore_punctuation: true
 metadata:
-  version: 1.0
+  version: 2.0
--- a/lm_eval/tasks/gpqa/n_shot/_gpqa_n_shot_yaml
+++ b/lm_eval/tasks/gpqa/n_shot/_gpqa_n_shot_yaml
@@ -18,4 +18,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  version: 1.0
+  version: 2.0