Merge remote-tracking branch 'origin/big-refactor' into big-refactor_dp

a0787a9f · baberabb · 6359f083 · dc5b3d5d · a0787a9f · a0787a9f
Commit a0787a9f authored Nov 29, 2023 by baberabb
20 changed files
--- a/lm_eval/tasks/blimp/wh_questions_subject_gap_long_distance.yaml
+++ b/lm_eval/tasks/blimp/wh_questions_subject_gap_long_distance.yaml
 # Generated by utils.py
 dataset_name: wh_questions_subject_gap_long_distance
-include: template_yaml
+include: _template_yaml
 task: blimp_wh_questions_subject_gap_long_distance
--- a/lm_eval/tasks/blimp/wh_vs_that_no_gap.yaml
+++ b/lm_eval/tasks/blimp/wh_vs_that_no_gap.yaml
 # Generated by utils.py
 dataset_name: wh_vs_that_no_gap
-include: template_yaml
+include: _template_yaml
 task: blimp_wh_vs_that_no_gap
--- a/lm_eval/tasks/blimp/wh_vs_that_no_gap_long_distance.yaml
+++ b/lm_eval/tasks/blimp/wh_vs_that_no_gap_long_distance.yaml
 # Generated by utils.py
 dataset_name: wh_vs_that_no_gap_long_distance
-include: template_yaml
+include: _template_yaml
 task: blimp_wh_vs_that_no_gap_long_distance
--- a/lm_eval/tasks/blimp/wh_vs_that_with_gap.yaml
+++ b/lm_eval/tasks/blimp/wh_vs_that_with_gap.yaml
 # Generated by utils.py
 dataset_name: wh_vs_that_with_gap
-include: template_yaml
+include: _template_yaml
 task: blimp_wh_vs_that_with_gap
--- a/lm_eval/tasks/blimp/wh_vs_that_with_gap_long_distance.yaml
+++ b/lm_eval/tasks/blimp/wh_vs_that_with_gap_long_distance.yaml
 # Generated by utils.py
 dataset_name: wh_vs_that_with_gap_long_distance
-include: template_yaml
+include: _template_yaml
 task: blimp_wh_vs_that_with_gap_long_distance
--- a/lm_eval/tasks/ceval/_default_ceval_yaml
+++ b/lm_eval/tasks/ceval/_default_ceval_yaml
@@ -16,4 +16,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  version: "1.0"
+  - version: 1.0
--- a/lm_eval/tasks/cmmlu/_default_template_yaml
+++ b/lm_eval/tasks/cmmlu/_default_template_yaml
@@ -15,3 +15,5 @@ metric_list:
  - metric: acc_norm
    aggregation: mean
    higher_is_better: true
+metadata:
+  - version: 0.0
--- a/lm_eval/tasks/code_x_glue/code-text/go.yaml
+++ b/lm_eval/tasks/code_x_glue/code-text/go.yaml
@@ -17,3 +17,5 @@ metric_list:
  - metric: !function bleu.smoothed_bleu_4
    aggregation: mean
    higher_is_better: True
+metadata:
+  - version: 0.0
--- a/lm_eval/tasks/code_x_glue/code-text/java.yaml
+++ b/lm_eval/tasks/code_x_glue/code-text/java.yaml
@@ -17,3 +17,5 @@ metric_list:
  - metric: !function bleu.smoothed_bleu_4
    aggregation: mean
    higher_is_better: True
+metadata:
+  - version: 0.0
--- a/lm_eval/tasks/code_x_glue/code-text/javascript.yaml
+++ b/lm_eval/tasks/code_x_glue/code-text/javascript.yaml
@@ -17,3 +17,5 @@ metric_list:
  - metric: !function bleu.smoothed_bleu_4
    aggregation: mean
    higher_is_better: True
+metadata:
+  - version: 0.0
--- a/lm_eval/tasks/code_x_glue/code-text/php.yaml
+++ b/lm_eval/tasks/code_x_glue/code-text/php.yaml
@@ -17,3 +17,5 @@ metric_list:
  - metric: !function bleu.smoothed_bleu_4
    aggregation: mean
    higher_is_better: True
+metadata:
+  - version: 0.0
--- a/lm_eval/tasks/code_x_glue/code-text/python.yaml
+++ b/lm_eval/tasks/code_x_glue/code-text/python.yaml
@@ -17,3 +17,5 @@ metric_list:
  - metric: !function bleu.smoothed_bleu_4
    aggregation: mean
    higher_is_better: True
+metadata:
+  - version: 0.0
--- a/lm_eval/tasks/code_x_glue/code-text/ruby.yaml
+++ b/lm_eval/tasks/code_x_glue/code-text/ruby.yaml
@@ -17,3 +17,5 @@ metric_list:
  - metric: !function bleu.smoothed_bleu_4
    aggregation: mean
    higher_is_better: True
+metadata:
+  - version: 2.0
--- a/lm_eval/tasks/coqa/default.yaml
+++ b/lm_eval/tasks/coqa/default.yaml
@@ -18,3 +18,5 @@ metric_list:
  - metric: f1
    aggregation: mean
    higher_is_better: true
+metadata:
+  - version: 2.0
--- a/lm_eval/tasks/crows_pairs/crows_pairs_english.yaml
+++ b/lm_eval/tasks/crows_pairs/crows_pairs_english.yaml
@@ -19,3 +19,5 @@ metric_list:
  - metric: pct_stereotype
    aggregation: mean
    higher_is_better: false
+metadata:
+  - version: 1.0
--- a/lm_eval/tasks/csatqa/_default_csatqa_yaml
+++ b/lm_eval/tasks/csatqa/_default_csatqa_yaml
@@ -13,3 +13,5 @@ metric_list:
  - metric: acc_norm
    aggregation: mean
    higher_is_better: true
+metadata:
+  - version: 0.0
--- a/lm_eval/tasks/drop/default.yaml
+++ b/lm_eval/tasks/drop/default.yaml
@@ -20,3 +20,5 @@ metric_list:
  - metric: f1
    aggregation: mean
    higher_is_better: true
+metadata:
+  - version: 2.0
--- a/lm_eval/tasks/glue/cola/default.yaml
+++ b/lm_eval/tasks/glue/cola/default.yaml
@@ -12,3 +12,5 @@ should_decontaminate: true
 doc_to_decontamination_query: sentence
 metric_list:
  - metric: mcc
+metadata:
+  - version: 1.0
--- a/lm_eval/tasks/glue/mnli/default.yaml
+++ b/lm_eval/tasks/glue/mnli/default.yaml
@@ -10,3 +10,5 @@ doc_to_target: label
 doc_to_choice: ["True", "Neither", "False"]
 metric_list:
  - metric: acc
+metadata:
+  - version: 1.0
--- a/lm_eval/tasks/glue/mrpc/default.yaml
+++ b/lm_eval/tasks/glue/mrpc/default.yaml
@@ -11,3 +11,5 @@ doc_to_choice: ["no", "yes"]
 metric_list:
  - metric: acc
  - metric: f1
+metadata:
+  - version: 1.0