Merge branch 'main' of https://github.com/EleutherAI/lm-evaluation-harness into mela

741a6a69 · lintangsutawika · 494a4515 · b536f067 · 741a6a69 · 741a6a69
Commit 741a6a69 authored Aug 20, 2024 by lintangsutawika
20 changed files
--- a/lm_eval/tasks/inverse_scaling/inverse_scaling_sig_figs.yaml
+++ b/lm_eval/tasks/inverse_scaling/inverse_scaling_sig_figs.yaml
+include: _inverse_scaling_mc_yaml
+task: inverse_scaling_sig_figs
+dataset_path: Albertmade/sig-figs
--- a/lm_eval/tasks/inverse_scaling/inverse_scaling_winobias_antistereotype.yaml
+++ b/lm_eval/tasks/inverse_scaling/inverse_scaling_winobias_antistereotype.yaml
+group:
+  - inverse_scaling_mc
+task: inverse_scaling_winobias_antistereotype
+dataset_path: mathemakitten/winobias_antistereotype_test_v5
+output_type: multiple_choice
+test_split: test
+doc_to_text: text
+doc_to_choice: classes
+doc_to_target: target
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+  - metric: acc_norm
+    aggregation: mean
+    higher_is_better: true
+dataset_kwargs:
+  trust_remote_code: true
+metadata:
+  version: 0
--- a/lm_eval/tasks/kmmlu/cot_hard/_cot_kmmlu_yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/_cot_kmmlu_yaml
-group:
+tag:
    - kmmlu
    - kmmlu_hard_cot
 dataset_path: HAERAE-HUB/KMMLU-HARD

--- a/lm_eval/tasks/kmmlu/direct/_direct_kmmlu_yaml
+++ b/lm_eval/tasks/kmmlu/direct/_direct_kmmlu_yaml
-group:
+tag:
    - kmmlu
    - kmmlu_direct
 dataset_path: HAERAE-HUB/KMMLU

--- a/lm_eval/tasks/kmmlu/direct_hard/_direct_hard_kmmlu_yaml
+++ b/lm_eval/tasks/kmmlu/direct_hard/_direct_hard_kmmlu_yaml
-group:
+tag:
    - kmmlu
    - kmmlu_hard_direct
 dataset_path: HAERAE-HUB/KMMLU-HARD

--- a/lm_eval/tasks/kmmlu/hard/_hard_kmmlu_yaml
+++ b/lm_eval/tasks/kmmlu/hard/_hard_kmmlu_yaml
-group:
+tag:
    - kmmlu
    - kmmlu_hard
 dataset_path: HAERAE-HUB/KMMLU-HARD

--- a/lm_eval/tasks/kobest/kobest_boolq.yaml
+++ b/lm_eval/tasks/kobest/kobest_boolq.yaml
-group:
+tag:
  - kobest
 task: kobest_boolq
 dataset_path: skt/kobest_v1

--- a/lm_eval/tasks/kobest/kobest_copa.yaml
+++ b/lm_eval/tasks/kobest/kobest_copa.yaml
-group:
+tag:
  - kobest
 task: kobest_copa
 dataset_path: skt/kobest_v1

--- a/lm_eval/tasks/kobest/kobest_hellaswag.yaml
+++ b/lm_eval/tasks/kobest/kobest_hellaswag.yaml
-group:
+tag:
  - kobest
 task: kobest_hellaswag
 dataset_path: skt/kobest_v1

--- a/lm_eval/tasks/kobest/kobest_sentineg.yaml
+++ b/lm_eval/tasks/kobest/kobest_sentineg.yaml
-group:
+tag:
  - kobest
 task: kobest_sentineg
 dataset_path: skt/kobest_v1

--- a/lm_eval/tasks/kobest/kobest_wic.yaml
+++ b/lm_eval/tasks/kobest/kobest_wic.yaml
-group:
+tag:
  - kobest
 task: kobest_wic
 dataset_path: skt/kobest_v1

--- a/lm_eval/tasks/kobest/utils.py
+++ b/lm_eval/tasks/kobest/utils.py
 from datasets import Dataset
-from sklearn.metrics import f1_score


 def copa_doc_to_text(doc: dict) -> str:
@@ -41,6 +40,8 @@ def hellaswag_process_doc(doc: Dataset) -> Dataset:


 def macro_f1_score(items):
+    from sklearn.metrics import f1_score
+
    unzipped_list = list(zip(*items))
    golds = unzipped_list[0]
    preds = unzipped_list[1]

--- a/lm_eval/tasks/kormedmcqa/_kormedmcqa.yaml
+++ b/lm_eval/tasks/kormedmcqa/_kormedmcqa.yaml
+group: kormedmcqa
+task:
+  - kormedmcqa_doctor
+  - kormedmcqa_nurse
+  - kormedmcqa_pharm
+aggregate_metric_list:
+  - metric: exact_match
+    aggregation: mean
+    weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/kormedmcqa/kormedmcqa_doctor.yaml
+++ b/lm_eval/tasks/kormedmcqa/kormedmcqa_doctor.yaml
-group: kormedmcqa
 task : kormedmcqa_doctor
 dataset_path : sean0042/KorMedMCQA
 dataset_name : doctor

--- a/lm_eval/tasks/kormedmcqa/kormedmcqa_nurse.yaml
+++ b/lm_eval/tasks/kormedmcqa/kormedmcqa_nurse.yaml
-group: kormedmcqa
 task : kormedmcqa_nurse
 dataset_path : sean0042/KorMedMCQA
 dataset_name : nurse

--- a/lm_eval/tasks/kormedmcqa/kormedmcqa_pharm.yaml
+++ b/lm_eval/tasks/kormedmcqa/kormedmcqa_pharm.yaml
-group: kormedmcqa
 task : kormedmcqa_pharm
 dataset_path : sean0042/KorMedMCQA
 dataset_name : pharm

--- a/lm_eval/tasks/lambada/lambada_openai.yaml
+++ b/lm_eval/tasks/lambada/lambada_openai.yaml
-group:
+tag:
  - lambada
 task: lambada_openai
 dataset_path: EleutherAI/lambada_openai

--- a/lm_eval/tasks/lambada/lambada_standard.yaml
+++ b/lm_eval/tasks/lambada/lambada_standard.yaml
-group:
+tag:
  - lambada
 task: lambada_standard
 dataset_path: lambada

--- a/lm_eval/tasks/lambada_cloze/lambada_openai_cloze.yaml
+++ b/lm_eval/tasks/lambada_cloze/lambada_openai_cloze.yaml
-group:
+tag:
  - lambada_cloze
 task: lambada_openai_cloze_yaml
 dataset_path: EleutherAI/lambada_openai

--- a/lm_eval/tasks/lambada_cloze/lambada_standard_cloze.yaml
+++ b/lm_eval/tasks/lambada_cloze/lambada_standard_cloze.yaml
-group:
+tag:
  - lambada_cloze
 task: lambada_standard_cloze_yaml
 dataset_path: lambada