resolved merge conflict

e58b8182 · lintangsutawika · d213a533 · 0571eeb1 · e58b8182 · e58b8182
Commit e58b8182 authored Aug 08, 2024 by lintangsutawika
20 changed files
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_fra.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_fra.yaml
 dataset_name: fra
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_fra
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_hau.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_hau.yaml
 dataset_name: hau
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_hau
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_ibo.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_ibo.yaml
 dataset_name: ibo
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_ibo
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_kin.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_kin.yaml
 dataset_name: kin
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_kin
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_lin.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_lin.yaml
 dataset_name: lin
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_lin
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_lug.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_lug.yaml
 dataset_name: lug
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_lug
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_orm.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_orm.yaml
 dataset_name: orm
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_orm
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_sna.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_sna.yaml
 dataset_name: sna
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_sna
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_sot.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_sot.yaml
 dataset_name: sot
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_sot
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_swa.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_swa.yaml
 dataset_name: swa
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_swa
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_twi.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_twi.yaml
 dataset_name: twi
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_twi
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_wol.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_wol.yaml
 dataset_name: wol
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_wol
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_xho.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_xho.yaml
 dataset_name: xho
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_xho
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_yor.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_yor.yaml
 dataset_name: yor
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_yor
--- a/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_zul.yaml
+++ b/lm_eval/tasks/afrimmlu/translate/afrimmlu_translate_zul.yaml
 dataset_name: zul
+<<<<<<< HEAD
 include: _translate_yaml
+=======
+include: afrimmlu_common_translate_yaml
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
 task: afrimmlu_translate_zul
--- a/lm_eval/tasks/afrimmlu/translate/utils.py
+++ b/lm_eval/tasks/afrimmlu/translate/utils.py
-from sklearn.metrics import f1_score
+from lm_eval.utils import weighted_f1_score


 def doc_to_choice(doc):
@@ -30,6 +30,7 @@ def doc_to_text(doc):
        choice4=choices[3],
    )
    return text
+<<<<<<< HEAD


 def weighted_f1_score(items):
@@ -38,3 +39,5 @@ def weighted_f1_score(items):
    preds = unzipped_list[1]
    fscore = f1_score(golds, preds, average="weighted")
    return fscore
+=======
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
--- a/lm_eval/tasks/afrimmlu/utils.py
+++ b/lm_eval/tasks/afrimmlu/utils.py
-from sklearn.metrics import f1_score
+from lm_eval.utils import weighted_f1_score


 def doc_to_choice(doc):
@@ -30,6 +30,7 @@ def doc_to_text(doc):
        choice4=choices[3],
    )
    return text
+<<<<<<< HEAD


 def weighted_f1_score(items):
@@ -38,3 +39,5 @@ def weighted_f1_score(items):
    preds = unzipped_list[1]
    fscore = f1_score(golds, preds, average="weighted")
    return fscore
+=======
+>>>>>>> 0571eeb14d4e48aac51956a726c62cd8b382b3d8
--- a/lm_eval/tasks/afrixnli/_afrixnli.yaml
+++ b/lm_eval/tasks/afrixnli/_afrixnli.yaml
+group: afrixnli
+group_alias: AfriXNLI
+task:
+  - group: afrixnli_direct
+    group_alias: Prompt in African Languages
+    task:
+      - afrixnli_native_direct
+  - afrixnli_native_direct_eng_only
+  - group: afrixnli_lai_prompt_translate
+    group_alias: Translate-Test
+    task:
+      - afrixnli_lai_prompt_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrixnli/_afrixnli_ablations.yaml
+++ b/lm_eval/tasks/afrixnli/_afrixnli_ablations.yaml
+group: afrixnli
+group_alias: AfriXNLI
+task:
+  - group: afrixnli_direct
+    group_alias: Prompt in African Languages
+    task:
+      - afrixnli_native_direct
+  - afrixnli_native_direct_eng_only
+  - group: afrixnli_translate
+    group_alias: Translate-Test
+    task:
+      - afrixnli_translate
\ No newline at end of file
--- a/lm_eval/tasks/afrixnli/anli_prompt/en-direct/utils.py
+++ b/lm_eval/tasks/afrixnli/anli_prompt/en-direct/utils.py
-from sklearn.metrics import f1_score
+from lm_eval.utils import weighted_f1_score


 def doc_to_target(doc):
    replacements = {0: "True", 1: "Neither", 2: "False"}
    return replacements[doc["label"]]
-
-
-def weighted_f1_score(items):
-    unzipped_list = list(zip(*items))
-    golds = unzipped_list[0]
-    preds = unzipped_list[1]
-    fscore = f1_score(golds, preds, average="weighted")
-    return fscore