Merge branch 'big-refactor' into verbosity-rework

574e565a · Lintang Sutawika · GitHub · 73f3029c · b7a4ea06 · 574e565a
Unverified Commit 574e565a authored Nov 10, 2023 by Lintang Sutawika Committed by GitHub Nov 10, 2023
20 changed files
--- a/lm_eval/tasks/mmlu/flan_n_shot/mmlu_log_security_studies.yaml
+++ b/lm_eval/tasks/mmlu/flan_n_shot/mmlu_log_security_studies.yaml
 "dataset_name": "security_studies"
-"description": "The following are multiple choice questions (with answers) about security studies.\n\n"
+"description": "The following are multiple choice questions (with answers) about security\
+  \ studies.\n\n"
+"group": "mmlu_flan_n_shot_generative_social_sciences"
 "include": "_mmlu_flan_loglikelihood_template_yaml"
-"task": "mmlu_flan_n_shot_loglikelihood_security_studies"
+"task": "mmlu_flan_n_shot_generative_security_studies"
--- a/lm_eval/tasks/mmlu/flan_n_shot/mmlu_log_sociology.yaml
+++ b/lm_eval/tasks/mmlu/flan_n_shot/mmlu_log_sociology.yaml
 "dataset_name": "sociology"
-"description": "The following are multiple choice questions (with answers) about sociology.\n\n"
+"description": "The following are multiple choice questions (with answers) about sociology.\n\
+  \n"
+"group": "mmlu_flan_n_shot_generative_social_sciences"
 "include": "_mmlu_flan_loglikelihood_template_yaml"
-"task": "mmlu_flan_n_shot_loglikelihood_sociology"
+"task": "mmlu_flan_n_shot_generative_sociology"
--- a/lm_eval/tasks/mmlu/flan_n_shot/mmlu_log_us_foreign_policy.yaml
+++ b/lm_eval/tasks/mmlu/flan_n_shot/mmlu_log_us_foreign_policy.yaml
 "dataset_name": "us_foreign_policy"
-"description": "The following are multiple choice questions (with answers) about us foreign policy.\n\n"
+"description": "The following are multiple choice questions (with answers) about us\
+  \ foreign policy.\n\n"
+"group": "mmlu_flan_n_shot_generative_social_sciences"
 "include": "_mmlu_flan_loglikelihood_template_yaml"
-"task": "mmlu_flan_n_shot_loglikelihood_us_foreign_policy"
+"task": "mmlu_flan_n_shot_generative_us_foreign_policy"
--- a/lm_eval/tasks/mmlu/flan_n_shot/mmlu_log_virology.yaml
+++ b/lm_eval/tasks/mmlu/flan_n_shot/mmlu_log_virology.yaml
 "dataset_name": "virology"
-"description": "The following are multiple choice questions (with answers) about virology.\n\n"
+"description": "The following are multiple choice questions (with answers) about virology.\n\
+  \n"
+"group": "mmlu_flan_n_shot_generative_other"
 "include": "_mmlu_flan_loglikelihood_template_yaml"
-"task": "mmlu_flan_n_shot_loglikelihood_virology"
+"task": "mmlu_flan_n_shot_generative_virology"
--- a/lm_eval/tasks/mmlu/flan_n_shot/mmlu_log_world_religions.yaml
+++ b/lm_eval/tasks/mmlu/flan_n_shot/mmlu_log_world_religions.yaml
 "dataset_name": "world_religions"
-"description": "The following are multiple choice questions (with answers) about world religions.\n\n"
+"description": "The following are multiple choice questions (with answers) about world\
+  \ religions.\n\n"
+"group": "mmlu_flan_n_shot_generative_humanities"
 "include": "_mmlu_flan_loglikelihood_template_yaml"
-"task": "mmlu_flan_n_shot_loglikelihood_world_religions"
+"task": "mmlu_flan_n_shot_generative_world_religions"
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/_generate_configs.py
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/_generate_configs.py
+import yaml
+import inspect
+import datasets
+
+from tqdm import tqdm
+
+
+def main() -> None:
+
+    dataset_path = "EleutherAI/advanced_ai_risk"
+    for task in tqdm(datasets.get_dataset_infos(dataset_path).keys()):
+        file_name = f"{task}.yaml"
+        try:
+            with open(f"{file_name}", "w") as f:
+                f.write("# Generated by _generate_configs.py\n")
+                yaml.dump(
+                    {
+                        "include": "_template_yaml",
+                        "task": f"{dataset_path.split('/')[-1]}_{task}",
+                        "dataset_name": task,
+                    },
+                    f,
+                )
+        except FileExistsError:
+            pass
+
+
+if __name__ == "__main__":
+    main()
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/_template_yaml
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/_template_yaml
+group: advanced_ai_risk
+dataset_path: EleutherAI/advanced_ai_risk
+output_type: multiple_choice
+validation_split: validation
+target_delimiter: ""
+doc_to_text: "Human: {question}\n\nAssistant:"
+doc_to_target: 0
+doc_to_choice: "{{[answer_matching_behavior, answer_not_matching_behavior]}}"
+should_decontaminate: true
+doc_to_decontamination_query: "{{sentence_good}} {{sentence_bad}}"
+metric_list:
+  - metric: acc
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-coordinate-itself.yaml
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-coordinate-itself.yaml
+# Generated by _generate_configs.py
+dataset_name: fewshot-coordinate-itself
+include: _template_yaml
+task: advanced_ai_risk_fewshot-coordinate-itself
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-coordinate-other-ais.yaml
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-coordinate-other-ais.yaml
+# Generated by _generate_configs.py
+dataset_name: fewshot-coordinate-other-ais
+include: _template_yaml
+task: advanced_ai_risk_fewshot-coordinate-other-ais
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-coordinate-other-versions.yaml
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-coordinate-other-versions.yaml
+# Generated by _generate_configs.py
+dataset_name: fewshot-coordinate-other-versions
+include: _template_yaml
+task: advanced_ai_risk_fewshot-coordinate-other-versions
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-corrigible-less-HHH.yaml
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-corrigible-less-HHH.yaml
+# Generated by _generate_configs.py
+dataset_name: fewshot-corrigible-less-HHH
+include: _template_yaml
+task: advanced_ai_risk_fewshot-corrigible-less-HHH
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-corrigible-more-HHH.yaml
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-corrigible-more-HHH.yaml
+# Generated by _generate_configs.py
+dataset_name: fewshot-corrigible-more-HHH
+include: _template_yaml
+task: advanced_ai_risk_fewshot-corrigible-more-HHH
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-corrigible-neutral-HHH.yaml
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-corrigible-neutral-HHH.yaml
+# Generated by _generate_configs.py
+dataset_name: fewshot-corrigible-neutral-HHH
+include: _template_yaml
+task: advanced_ai_risk_fewshot-corrigible-neutral-HHH
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-myopic-reward.yaml
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-myopic-reward.yaml
+# Generated by _generate_configs.py
+dataset_name: fewshot-myopic-reward
+include: _template_yaml
+task: advanced_ai_risk_fewshot-myopic-reward
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-one-box-tendency.yaml
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-one-box-tendency.yaml
+# Generated by _generate_configs.py
+dataset_name: fewshot-one-box-tendency
+include: _template_yaml
+task: advanced_ai_risk_fewshot-one-box-tendency
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-power-seeking-inclination.yaml
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-power-seeking-inclination.yaml
+# Generated by _generate_configs.py
+dataset_name: fewshot-power-seeking-inclination
+include: _template_yaml
+task: advanced_ai_risk_fewshot-power-seeking-inclination
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-self-awareness-general-ai.yaml
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-self-awareness-general-ai.yaml
+# Generated by _generate_configs.py
+dataset_name: fewshot-self-awareness-general-ai
+include: _template_yaml
+task: advanced_ai_risk_fewshot-self-awareness-general-ai
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-self-awareness-good-text-model.yaml
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-self-awareness-good-text-model.yaml
+# Generated by _generate_configs.py
+dataset_name: fewshot-self-awareness-good-text-model
+include: _template_yaml
+task: advanced_ai_risk_fewshot-self-awareness-good-text-model
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-self-awareness-text-model.yaml
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-self-awareness-text-model.yaml
+# Generated by _generate_configs.py
+dataset_name: fewshot-self-awareness-text-model
+include: _template_yaml
+task: advanced_ai_risk_fewshot-self-awareness-text-model
--- a/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-self-awareness-training-architecture.yaml
+++ b/lm_eval/tasks/model_written_evals/advanced_ai_risk/fewshot-self-awareness-training-architecture.yaml
+# Generated by _generate_configs.py
+dataset_name: fewshot-self-awareness-training-architecture
+include: _template_yaml
+task: advanced_ai_risk_fewshot-self-awareness-training-architecture