solved merge conflict

0d1ef037 · lintangsutawika · aa44be3f · ada4a31d · 0d1ef037 · 0d1ef037
Commit 0d1ef037 authored Jan 17, 2024 by lintangsutawika
20 changed files
--- a/lm_eval/tasks/okapi/hellaswag_multilingual/hellaswag_sr.yaml
+++ b/lm_eval/tasks/okapi/hellaswag_multilingual/hellaswag_sr.yaml
+include: _hellaswag_yaml
+task: hellaswag_sr
+dataset_path: alexandrainst/m_hellaswag
+dataset_name: sr
+training_split: null
+validation_split: val
--- a/lm_eval/tasks/okapi/hellaswag_multilingual/hellaswag_sv.yaml
+++ b/lm_eval/tasks/okapi/hellaswag_multilingual/hellaswag_sv.yaml
+include: _hellaswag_yaml
+task: hellaswag_sv
+dataset_path: alexandrainst/m_hellaswag
+dataset_name: sv
+training_split: null
+validation_split: val
--- a/lm_eval/tasks/okapi/hellaswag_multilingual/hellaswag_ta.yaml
+++ b/lm_eval/tasks/okapi/hellaswag_multilingual/hellaswag_ta.yaml
+include: _hellaswag_yaml
+task: hellaswag_ta
+dataset_path: alexandrainst/m_hellaswag
+dataset_name: ta
+training_split: null
+validation_split: val
--- a/lm_eval/tasks/okapi/hellaswag_multilingual/hellaswag_te.yaml
+++ b/lm_eval/tasks/okapi/hellaswag_multilingual/hellaswag_te.yaml
+include: _hellaswag_yaml
+task: hellaswag_te
+dataset_path: alexandrainst/m_hellaswag
+dataset_name: te
+training_split: null
+validation_split: val
--- a/lm_eval/tasks/okapi/hellaswag_multilingual/hellaswag_uk.yaml
+++ b/lm_eval/tasks/okapi/hellaswag_multilingual/hellaswag_uk.yaml
+include: _hellaswag_yaml
+task: hellaswag_uk
+dataset_path: alexandrainst/m_hellaswag
+dataset_name: uk
+training_split: null
+validation_split: val
--- a/lm_eval/tasks/okapi/hellaswag_multilingual/hellaswag_vi.yaml
+++ b/lm_eval/tasks/okapi/hellaswag_multilingual/hellaswag_vi.yaml
+include: _hellaswag_yaml
+task: hellaswag_vi
+dataset_path: alexandrainst/m_hellaswag
+dataset_name: vi
+training_split: null
+validation_split: val
--- a/lm_eval/tasks/okapi/hellaswag_multilingual/utils.py
+++ b/lm_eval/tasks/okapi/hellaswag_multilingual/utils.py
+import datasets
+import re
+
+
+def preprocess(text):
+    text = text.strip()
+    # NOTE: Brackets are artifacts of the WikiHow dataset portion of HellaSwag.
+    text = text.replace(" [title]", ". ")
+    text = re.sub("\\[.*?\\]", "", text)
+    text = text.replace("  ", " ")
+    return text
+
+
+def process_docs(dataset: datasets.Dataset) -> datasets.Dataset:
+    def _process_doc(doc):
+        ctx = doc["ctx_a"] + " " + doc["ctx_b"].capitalize()
+        out_doc = {
+            "query": preprocess(doc["activity_label"] + ": " + ctx),
+            "choices": [preprocess(ending) for ending in doc["endings"]],
+            "gold": int(doc["label"]),
+        }
+        return out_doc
+
+    return dataset.map(_process_doc)
--- a/lm_eval/tasks/openbookqa/openbookqa.yaml
+++ b/lm_eval/tasks/openbookqa/openbookqa.yaml
@@ -18,4 +18,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/paws-x/_generate_config.py
+++ b/lm_eval/tasks/paws-x/_generate_config.py
 import argparse
-from typing import Dict, List

 import yaml


--- a/lm_eval/tasks/paws-x/pawsx_template_yaml
+++ b/lm_eval/tasks/paws-x/pawsx_template_yaml
@@ -17,4 +17,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 0.0
+  version: 0.0
--- a/lm_eval/tasks/pile/pile_arxiv.yaml
+++ b/lm_eval/tasks/pile/pile_arxiv.yaml
@@ -20,4 +20,4 @@ metric_list:
    aggregation: bits_per_byte
    higher_is_better: false
 metadata:
-  - version: 2.0
+  version: 2.0
--- a/lm_eval/tasks/piqa/piqa.yaml
+++ b/lm_eval/tasks/piqa/piqa.yaml
@@ -18,4 +18,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/polemo2/polemo2_in.yaml
+++ b/lm_eval/tasks/polemo2/polemo2_in.yaml
@@ -42,4 +42,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 0.0
+  version: 1.0
--- a/lm_eval/tasks/prost/corypaik_prost.yaml
+++ b/lm_eval/tasks/prost/corypaik_prost.yaml
@@ -16,4 +16,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/pubmedqa/preprocess_pubmedqa.py
+++ b/lm_eval/tasks/pubmedqa/preprocess_pubmedqa.py
 def doc_to_text(doc) -> str:
    ctxs = "\n".join(doc["CONTEXTS"])
    return "Abstract: {}\nQuestion: {}\nAnswer:".format(
-        ctxs, doc["QUESTION"], doc["final_decision"]
+        ctxs,
+        doc["QUESTION"],
    )
--- a/lm_eval/tasks/pubmedqa/pubmedqa.yaml
+++ b/lm_eval/tasks/pubmedqa/pubmedqa.yaml
@@ -13,4 +13,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/qa4mre/qa4mre_2011.yaml
+++ b/lm_eval/tasks/qa4mre/qa4mre_2011.yaml
@@ -19,4 +19,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/qasper/bool.yaml
+++ b/lm_eval/tasks/qasper/bool.yaml
@@ -11,4 +11,4 @@ doc_to_choice: ["no", "yes"]
 metric_list:
  - metric: f1
 metadata:
-  - version: 1.0
+  version: 1.0
--- a/lm_eval/tasks/qasper/freeform.yaml
+++ b/lm_eval/tasks/qasper/freeform.yaml
@@ -15,4 +15,4 @@ metric_list:
    aggregation: mean
    higher_is_better: true
 metadata:
-  - version: 1.0
+  version: 2.0
--- a/lm_eval/tasks/qasper/utils.py
+++ b/lm_eval/tasks/qasper/utils.py
@@ -3,7 +3,6 @@ from functools import partial


 def process_docs(dataset, set_answer_type="bool"):
-
    FEATURES = ["title", "abstract", "question", "answer", "answer_type"]

    def _categorise_answer(answer_blob):