Merge branch 'main' into tasklist

# Conflicts: # pyproject.toml

Merge branch 'main' into tasklist
# Conflicts: # pyproject.toml
b58e5556 · Baber · 6e1866f5 · 4f8195f1 · b58e5556 · b58e5556
Commit b58e5556 authored Jul 27, 2025 by Baber
20 changed files
--- a/lm_eval/tasks/multiblimp/multiblimp_tpn.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_tpn.yaml
+include: _template_yaml
+dataset_name: tpn
+task: multiblimp_tpn
--- a/lm_eval/tasks/multiblimp/multiblimp_ttc.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_ttc.yaml
+include: _template_yaml
+dataset_name: ttc
+task: multiblimp_ttc
--- a/lm_eval/tasks/multiblimp/multiblimp_tur.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_tur.yaml
+include: _template_yaml
+dataset_name: tur
+task: multiblimp_tur
--- a/lm_eval/tasks/multiblimp/multiblimp_uig.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_uig.yaml
+include: _template_yaml
+dataset_name: uig
+task: multiblimp_uig
--- a/lm_eval/tasks/multiblimp/multiblimp_ukr.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_ukr.yaml
+include: _template_yaml
+dataset_name: ukr
+task: multiblimp_ukr
--- a/lm_eval/tasks/multiblimp/multiblimp_urb.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_urb.yaml
+include: _template_yaml
+dataset_name: urb
+task: multiblimp_urb
--- a/lm_eval/tasks/multiblimp/multiblimp_urd.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_urd.yaml
+include: _template_yaml
+dataset_name: urd
+task: multiblimp_urd
--- a/lm_eval/tasks/multiblimp/multiblimp_uzb.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_uzb.yaml
+include: _template_yaml
+dataset_name: uzb
+task: multiblimp_uzb
--- a/lm_eval/tasks/multiblimp/multiblimp_vep.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_vep.yaml
+include: _template_yaml
+dataset_name: vep
+task: multiblimp_vep
--- a/lm_eval/tasks/multiblimp/multiblimp_wbp.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_wbp.yaml
+include: _template_yaml
+dataset_name: wbp
+task: multiblimp_wbp
--- a/lm_eval/tasks/multiblimp/multiblimp_wol.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_wol.yaml
+include: _template_yaml
+dataset_name: wol
+task: multiblimp_wol
--- a/lm_eval/tasks/multiblimp/multiblimp_xcl.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_xcl.yaml
+include: _template_yaml
+dataset_name: xcl
+task: multiblimp_xcl
--- a/lm_eval/tasks/multiblimp/multiblimp_xnr.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_xnr.yaml
+include: _template_yaml
+dataset_name: xnr
+task: multiblimp_xnr
--- a/lm_eval/tasks/multiblimp/multiblimp_xpg.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_xpg.yaml
+include: _template_yaml
+dataset_name: xpg
+task: multiblimp_xpg
--- a/lm_eval/tasks/multiblimp/multiblimp_yrl.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_yrl.yaml
+include: _template_yaml
+dataset_name: yrl
+task: multiblimp_yrl
--- a/lm_eval/tasks/mutual/mutual.yaml
+++ b/lm_eval/tasks/mutual/mutual.yaml
@@ -23,5 +23,3 @@ metric_list:
    higher_is_better: true
 metadata:
  version: 2.0
-dataset_kwargs:
-  trust_remote_code: true
--- a/lm_eval/tasks/noreval/tatoeba/_tatoeba_yaml
+++ b/lm_eval/tasks/noreval/tatoeba/_tatoeba_yaml
@@ -2,8 +2,6 @@ dataset_path: Helsinki-NLP/tatoeba_mt
 training_split: validation
 test_split: test
 output_type: generate_until
-dataset_kwargs:
-  trust_remote_code: true
 metric_list:
  - metric: bleu
    higher_is_better: true

--- a/lm_eval/tasks/olaph/utils.py
+++ b/lm_eval/tasks/olaph/utils.py
@@ -12,7 +12,9 @@ try:

 except (ModuleNotFoundError, ImportError):
    raise ModuleNotFoundError(
-        "Please install evaluation metrics via pip install evaluate and pip install bert-score",
+        "Please install evaluation metrics via pip install evaluate bert-score "
+        "rouge_score>=0.1.2 nltk absl-py "
+        "git+https://github.com/google-research/bleurt.git"
    )
 except Exception as e:
    raise RuntimeError(

--- a/lm_eval/tasks/piqa/piqa.yaml
+++ b/lm_eval/tasks/piqa/piqa.yaml
@@ -19,5 +19,3 @@ metric_list:
    higher_is_better: true
 metadata:
  version: 1.0
-dataset_kwargs:
-  trust_remote_code: true
--- a/lm_eval/tasks/portuguese_bench/flores_pt/_flores_common_yaml
+++ b/lm_eval/tasks/portuguese_bench/flores_pt/_flores_common_yaml
@@ -23,5 +23,3 @@ metric_list:
    higher_is_better: true
 metadata:
  version: 1.0
-dataset_kwargs:
-  trust_remote_code: true