Correctly Print Task Versioning (#1173)

* change version field formatting in metadata * mention versioning in new task guide * add instructions for changelog * run linters

Correctly Print Task Versioning (#1173)
* change version field formatting in metadata * mention versioning in new task guide * add instructions for changelog * run linters
9cd79897 · Hailey Schoelkopf · GitHub · a0cfe3f6 · 9cd79897 · 9cd79897
Unverified Commit 9cd79897 authored Dec 21, 2023 by Hailey Schoelkopf Committed by GitHub Dec 21, 2023
20 changed files
--- a/lm_eval/tasks/hellaswag/hellaswag.yaml
+++ b/lm_eval/tasks/hellaswag/hellaswag.yaml
@@ -19,4 +19,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/hendrycks_ethics/commonsense.yaml
+++ b/lm_eval/tasks/hendrycks_ethics/commonsense.yaml
@@ -12,4 +12,4 @@ doc_to_choice: ['no', 'yes']
 metric_list:
  - metric: acc
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/hendrycks_ethics/deontology.yaml
+++ b/lm_eval/tasks/hendrycks_ethics/deontology.yaml
@@ -5,5 +5,5 @@ doc_to_text: "Question: Would most people believe this reasonable or unreasonabl
 doc_to_target: label
 doc_to_choice: ['unreasonable', 'reasonable']
 metadata:
-  - version: 1.0
+  version: 1.0
 # TODO: implement exact-match metric for this subset
--- a/lm_eval/tasks/hendrycks_ethics/justice.yaml
+++ b/lm_eval/tasks/hendrycks_ethics/justice.yaml
@@ -6,4 +6,4 @@ dataset_name: justice
 doc_to_text: "Question: Would most people believe this reasonable or unreasonable to say? \"{{scenario}}\"\nAnswer:"
 # TODO: impl. exact match for this and deontology
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/hendrycks_ethics/utilitarianism.yaml
+++ b/lm_eval/tasks/hendrycks_ethics/utilitarianism.yaml
@@ -9,4 +9,4 @@ doc_to_choice: ['no', 'yes']
 metric_list:
  - metric: acc
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/hendrycks_ethics/utilitarianism_original_yaml
+++ b/lm_eval/tasks/hendrycks_ethics/utilitarianism_original_yaml
@@ -13,4 +13,4 @@
 #   - metric: acc
 # TODO: we want this to be implemented as a winograd_schema task type, actually
 # metadata:
-#   - version: 1.0
+#   version: 1.0
--- a/lm_eval/tasks/hendrycks_ethics/virtue.yaml
+++ b/lm_eval/tasks/hendrycks_ethics/virtue.yaml
@@ -7,4 +7,4 @@ doc_to_text: "Sentence: {{scenario}}\nQuestion: Does the character in this sente
 doc_to_target: label
 doc_to_choice: ['no', 'yes']
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/ifeval/ifeval.yaml
+++ b/lm_eval/tasks/ifeval/ifeval.yaml
@@ -26,4 +26,4 @@ metric_list:
    aggregation: !function utils.agg_inst_level_acc
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/lambada/lambada_openai.yaml
+++ b/lm_eval/tasks/lambada/lambada_openai.yaml
@@ -17,4 +17,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/lambada/lambada_standard.yaml
+++ b/lm_eval/tasks/lambada/lambada_standard.yaml
@@ -18,4 +18,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/lambada_cloze/lambada_openai_cloze.yaml
+++ b/lm_eval/tasks/lambada_cloze/lambada_openai_cloze.yaml
@@ -17,4 +17,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/lambada_cloze/lambada_standard_cloze.yaml
+++ b/lm_eval/tasks/lambada_cloze/lambada_standard_cloze.yaml
@@ -18,4 +18,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/lambada_multilingual/lambada_mt_en.yaml
+++ b/lm_eval/tasks/lambada_multilingual/lambada_mt_en.yaml
@@ -17,4 +17,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/logiqa/logiqa.yaml
+++ b/lm_eval/tasks/logiqa/logiqa.yaml
@@ -18,4 +18,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/logiqa2/logieval.yaml
+++ b/lm_eval/tasks/logiqa2/logieval.yaml
@@ -24,4 +24,4 @@ filter_list:
        regex_pattern: "^\\s*([A-D])"
      - function: "take_first"
 metadata:
-  - version: 0.0
+  version: 0.0
--- a/lm_eval/tasks/logiqa2/logiqa2.yaml
+++ b/lm_eval/tasks/logiqa2/logiqa2.yaml
@@ -18,4 +18,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 0.0
+  version: 0.0
--- a/lm_eval/tasks/mathqa/mathqa.yaml
+++ b/lm_eval/tasks/mathqa/mathqa.yaml
@@ -19,4 +19,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/mc_taco/default.yaml
+++ b/lm_eval/tasks/mc_taco/default.yaml
@@ -12,4 +12,4 @@ metric_list:
  - metric: acc
  - metric: f1
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/mgsm/direct/direct_yaml
+++ b/lm_eval/tasks/mgsm/direct/direct_yaml
@@ -26,4 +26,4 @@ metric_list:
    ignore_case: true
    ignore_punctuation: true
 metadata:
-  - version: 0.0
+  version: 0.0
--- a/lm_eval/tasks/mgsm/en_cot/cot_yaml
+++ b/lm_eval/tasks/mgsm/en_cot/cot_yaml
@@ -28,4 +28,4 @@ filter_list:
        regex_pattern: "The answer is (\\-?[0-9\\.\\,]+)"
      - function: "take_first"
 metadata:
-  - version: 0.0
+  version: 0.0