revert xnli to multiple choice

a85f3876 · JessicaOjo · 474073af · a85f3876 · a85f3876
Commit a85f3876 authored May 23, 2024 by JessicaOjo
2 changed files
--- a/lm_eval/tasks/afrixnli/manual/direct/afrixnli_manual_direct_yaml
+++ b/lm_eval/tasks/afrixnli/manual/direct/afrixnli_manual_direct_yaml
@@ -4,7 +4,7 @@ group:
    - afrixnli-manual
 dataset_path: masakhane/afrixnli
 dataset_name: null
-output_type: generate_until
+output_type: multiple_choice
 validation_split: validation
 test_split: test
 fewshot_split: validation
@@ -16,14 +16,6 @@ doc_to_choice:
  - "contradiction"
 should_decontaminate: true
 doc_to_decontamination_query: premise
-filter_list:
-  - name: "verbalizer_extract"
-    filter:
-      - function: verbalizer
-        verbalizer_dict: {
-                "entailment": ['encouragement', 'entitlement', 'entails', 'entailed', 'entailment'],
-                "contradiction": ['contradictory', 'contradicts', 'contradiction'],
-                "neutral": ['neutral']}
 metric_list:
  - metric: f1
    aggregation: !function utils.weighted_f1_score
@@ -32,7 +24,7 @@ metric_list:
    ignore_case: true
    ignore_punctuation: true
  - metric: acc
-    aggregation: !function utils.manual_accuracy_score
+    aggregation: mean
    higher_is_better: true
    ignore_case: true
    ignore_punctuation: true

--- a/lm_eval/tasks/afrixnli/manual/translate/afrixnli_manual_translate_yaml
+++ b/lm_eval/tasks/afrixnli/manual/translate/afrixnli_manual_translate_yaml
@@ -5,7 +5,7 @@ group:
    - afrixnli-translate-test
 dataset_path: masakhane/afrixnli-translate-test
 dataset_name: null
-output_type: generate_until
+output_type: multiple_choice
 test_split: test
 doc_to_text: !function utils.doc_to_text
 doc_to_target: !function utils.doc_to_target
@@ -15,23 +15,15 @@ doc_to_choice:
  - "contradiction"
 should_decontaminate: true
 doc_to_decontamination_query: premise
-filter_list:
-  - name: "verbalizer_extract"
-    filter:
-      - function: verbalizer
-        verbalizer_dict: {
-                "entailment": ['encouragement', 'entitlement', 'entails', 'entailed', 'entailment'],
-                "contradiction": ['contradictory', 'contradicts', 'contradiction'],
-                "neutral": ['neutral']}
 metric_list:
  - metric: f1
-    aggregation:
+    aggregation: !function utils.weighted_f1_score
    average: weighted
    higher_is_better: True
    ignore_case: true
    ignore_punctuation: true
  - metric: acc
-    aggregation: !function utils.manual_accuracy_score
+    aggregation: mean
    higher_is_better: true
    ignore_case: true
    ignore_punctuation: true