Merge remote-tracking branch 'origin/big-refactor' into calibration

e1ae8a2f · Herbie Bradley · 50e99bd7 · 30936bc7 · e1ae8a2f · e1ae8a2f
Commit e1ae8a2f authored Nov 26, 2023 by Herbie Bradley
20 changed files
--- a/lm_eval/tasks/bigbench/generate_until/cryobiology_spanish.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/cryobiology_spanish.yaml
+# Generated by utils.py
+dataset_name: cryobiology_spanish_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_cryobiology_spanish_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/cryptonite.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/cryptonite.yaml
+# Generated by utils.py
+dataset_name: cryptonite_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_cryptonite_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/cs_algorithms.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/cs_algorithms.yaml
+# Generated by utils.py
+dataset_name: cs_algorithms_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_cs_algorithms_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/dark_humor_detection.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/dark_humor_detection.yaml
+# Generated by utils.py
+dataset_name: dark_humor_detection_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_dark_humor_detection_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/date_understanding.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/date_understanding.yaml
+# Generated by utils.py
+dataset_name: date_understanding_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_date_understanding_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/disambiguation_qa.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/disambiguation_qa.yaml
+# Generated by utils.py
+dataset_name: disambiguation_qa_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_disambiguation_qa_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/discourse_marker_prediction.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/discourse_marker_prediction.yaml
+# Generated by utils.py
+dataset_name: discourse_marker_prediction_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_discourse_marker_prediction_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/disfl_qa.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/disfl_qa.yaml
+# Generated by utils.py
+dataset_name: disfl_qa_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_disfl_qa_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/dyck_languages.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/dyck_languages.yaml
+# Generated by utils.py
+dataset_name: dyck_languages_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_dyck_languages_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/elementary_math_qa.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/elementary_math_qa.yaml
+# Generated by utils.py
+dataset_name: elementary_math_qa_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_elementary_math_qa_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/emoji_movie.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/emoji_movie.yaml
+# Generated by utils.py
+dataset_name: emoji_movie_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_emoji_movie_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/emojis_emotion_prediction.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/emojis_emotion_prediction.yaml
+# Generated by utils.py
+dataset_name: emojis_emotion_prediction_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_emojis_emotion_prediction_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/empirical_judgments.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/empirical_judgments.yaml
+# Generated by utils.py
+dataset_name: empirical_judgments_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_empirical_judgments_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/english_proverbs.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/english_proverbs.yaml
+# Generated by utils.py
+dataset_name: english_proverbs_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_english_proverbs_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/english_russian_proverbs.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/english_russian_proverbs.yaml
+# Generated by utils.py
+dataset_name: english_russian_proverbs_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_english_russian_proverbs_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/entailed_polarity.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/entailed_polarity.yaml
+# Generated by utils.py
+dataset_name: entailed_polarity_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_entailed_polarity_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/entailed_polarity_hindi.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/entailed_polarity_hindi.yaml
+# Generated by utils.py
+dataset_name: entailed_polarity_hindi_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_entailed_polarity_hindi_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/epistemic_reasoning.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/epistemic_reasoning.yaml
+# Generated by utils.py
+dataset_name: epistemic_reasoning_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_epistemic_reasoning_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/evaluating_information_essentiality.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/evaluating_information_essentiality.yaml
+# Generated by utils.py
+dataset_name: evaluating_information_essentiality_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_evaluating_information_essentiality_generate_until
--- a/lm_eval/tasks/bigbench/generate_until/fact_checker.yaml
+++ b/lm_eval/tasks/bigbench/generate_until/fact_checker.yaml
+# Generated by utils.py
+dataset_name: fact_checker_zero_shot
+include: ../generate_until_template_yaml
+task: bigbench_fact_checker_generate_until