Merge branch 'rm_multiple_target' into metrics

# Conflicts: # lm_eval/api/filter.py # lm_eval/api/metrics.py # lm_eval/api/task.py # lm_eval/filters/extraction.py

Merge branch 'rm_multiple_target' into metrics
# Conflicts: # lm_eval/api/filter.py # lm_eval/api/metrics.py # lm_eval/api/task.py # lm_eval/filters/extraction.py
3e3a0d8f · Baber · 2b4cdd41 · 00a77ebd · 3e3a0d8f · 3e3a0d8f
Commit 3e3a0d8f authored Jul 21, 2025 by Baber
13 changed files
--- a/lm_eval/tasks/multiblimp/multiblimp_uzb.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_uzb.yaml
+include: _template_yaml
+dataset_name: uzb
+task: multiblimp_uzb
--- a/lm_eval/tasks/multiblimp/multiblimp_vep.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_vep.yaml
+include: _template_yaml
+dataset_name: vep
+task: multiblimp_vep
--- a/lm_eval/tasks/multiblimp/multiblimp_wbp.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_wbp.yaml
+include: _template_yaml
+dataset_name: wbp
+task: multiblimp_wbp
--- a/lm_eval/tasks/multiblimp/multiblimp_wol.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_wol.yaml
+include: _template_yaml
+dataset_name: wol
+task: multiblimp_wol
--- a/lm_eval/tasks/multiblimp/multiblimp_xcl.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_xcl.yaml
+include: _template_yaml
+dataset_name: xcl
+task: multiblimp_xcl
--- a/lm_eval/tasks/multiblimp/multiblimp_xnr.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_xnr.yaml
+include: _template_yaml
+dataset_name: xnr
+task: multiblimp_xnr
--- a/lm_eval/tasks/multiblimp/multiblimp_xpg.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_xpg.yaml
+include: _template_yaml
+dataset_name: xpg
+task: multiblimp_xpg
--- a/lm_eval/tasks/multiblimp/multiblimp_yrl.yaml
+++ b/lm_eval/tasks/multiblimp/multiblimp_yrl.yaml
+include: _template_yaml
+dataset_name: yrl
+task: multiblimp_yrl
--- a/lm_eval/tasks/nq_open/README.md
+++ b/lm_eval/tasks/nq_open/README.md
@@ -24,3 +24,6 @@ journal	= {Transactions of the Association of Computational Linguistics}}
 ### Tasks
 * `nq_open`
+### Changelog
+* 2025-07-21: Added `multi_target` to `exact_match`. Scores should not change.
--- a/lm_eval/tasks/nq_open/nq_open.yaml
+++ b/lm_eval/tasks/nq_open/nq_open.yaml
 task: nq_open
-dataset_path: nq_open
+dataset_path: google-research-datasets/nq_open
 output_type: generate_until
 training_split: train
 validation_split: validation
 description: "Answer these questions:\n\n"
 doc_to_text: "Q: {{question}}?\nA:"
-doc_to_target: "{{answer}}" # TODO: should be multi-target
+doc_to_target: "{{answer}}"
 fewshot_delimiter: "\n"
 generation_kwargs:
  until:
@@ -28,5 +28,6 @@ metric_list:
    ignore_punctuation: true
    regexes_to_ignore:
    - "\\b(?:The |the |An |A |The |a |an )"
+    multi_target: true
 metadata:
  version: 4.0
--- a/lm_eval/tasks/triviaqa/README.md
+++ b/lm_eval/tasks/triviaqa/README.md
@@ -49,3 +49,6 @@ If other tasks on this dataset are already supported:
 * [ ] Is the "Main" variant of this task clearly denoted?
 * [ ] Have you provided a short sentence in a README on what each new variant adds / evaluates?
 * [ ] Have you noted which, if any, published evaluation setups are matched by this variant?
+### Changelog
+* 2025-07-21: Added `multi_target` to `exact_match`. Scores should not change.
--- a/lm_eval/tasks/triviaqa/default.yaml
+++ b/lm_eval/tasks/triviaqa/default.yaml
 task: triviaqa
-dataset_path: trivia_qa
+dataset_path: mandarjoshi/trivia_qa
 dataset_name: rc.nocontext
 output_type: generate_until
 training_split: train
@@ -27,5 +27,6 @@ metric_list:
    higher_is_better: true
    ignore_case: true
    ignore_punctuation: true
+    multi_target: true
 metadata:
  version: 3.0
--- a/tests/test_unitxt_tasks.py
+++ b/tests/test_unitxt_tasks.py
@@ -7,6 +7,11 @@ from lm_eval.api.task import ConfigurableTask
 from tests.test_tasks import BaseTasks, task_class
+@pytest.fixture()
+def limit() -> int:
+    return 10
 @pytest.mark.parametrize(
    "task_class",
    task_class(