Remove unused `doc_to_choice` and fix superglue whitespaces

57b86c47 · Baber · e0021a06 · 57b86c47 · 57b86c47 · 57b86c47
Commit 57b86c47 authored Jul 22, 2025 by Baber
9 changed files
--- a/lm_eval/tasks/super_glue/README.md
+++ b/lm_eval/tasks/super_glue/README.md
@@ -79,3 +79,6 @@ If other tasks on this dataset are already supported:
 * [ ] Is the "Main" variant of this task clearly denoted?
 * [ ] Have you provided a short sentence in a README on what each new variant adds / evaluates?
 * [ ] Have you noted which, if any, published evaluation setups are matched by this variant?
+### Changelog
+- 2025-07-22: `record` and `multirc`: set target_delimiter to "" and trim doc_to_text respectively.
--- a/lm_eval/tasks/super_glue/boolq/seq2seq.yaml
+++ b/lm_eval/tasks/super_glue/boolq/seq2seq.yaml
@@ -8,7 +8,6 @@ training_split: train
 validation_split: validation
 doc_to_text: "{{passage}}\nQuestion: {{question}}?\nAnswer:"
 doc_to_target: "{{ [' no', ' yes'][label|int] }}"
-doc_to_choice: [" no", " yes"]
 target_delimiter: ""
 generation_kwargs:
  until:

--- a/lm_eval/tasks/super_glue/boolq/t5-prompt.yaml
+++ b/lm_eval/tasks/super_glue/boolq/t5-prompt.yaml
@@ -8,7 +8,6 @@ validation_split: validation
 output_type: generate_until
 doc_to_text: "boolq passage: {{passage}} question: {{question}}"
 doc_to_target: "{{['False', 'True'][label|int]}}"
-doc_to_choice: ["False", "True"]
 generation_kwargs:
  until:
    - "</s>"

--- a/lm_eval/tasks/super_glue/cb/t5-prompt.yaml
+++ b/lm_eval/tasks/super_glue/cb/t5-prompt.yaml
@@ -8,7 +8,6 @@ validation_split: validation
 output_type: generate_until
 doc_to_text: "cb hypothesis: {{hypothesis}} premise: {{premise}}"
 doc_to_target: "{{ ['entailment', 'contradiction', 'neutral'][label|int] }}"
-doc_to_choice: ["entailment", "contradiction", "neutral"]
 generation_kwargs:
  until:
    - "</s>"

--- a/lm_eval/tasks/super_glue/copa/t5-prompt.yaml
+++ b/lm_eval/tasks/super_glue/copa/t5-prompt.yaml
@@ -8,7 +8,6 @@ validation_split: validation
 output_type: generate_until
 doc_to_text: "copa choice1: {{choice1}} choice2: {{choice2}} premise: {{premise}} question: {{question}}"
 doc_to_target: "{{ [choice1, choice2][label|int] }}"
-doc_to_choice: ["choice1", "choice2"]
 generation_kwargs:
  until:
    - "</s>"

--- a/lm_eval/tasks/super_glue/multirc/t5-prompt.yaml
+++ b/lm_eval/tasks/super_glue/multirc/t5-prompt.yaml
@@ -6,9 +6,8 @@ dataset_name: multirc
 training_split: train
 validation_split: validation
 output_type: generate_until
-doc_to_text: "multirc question: {{question}} answer: {{answer}} paragraph: {{paragraph}}"
+doc_to_text: "multirc question: {{question}} answer: {{answer}} paragraph: {{paragraph}}|trim"
 doc_to_target: "{% set group_id = idx.question|string %}{{[group_id+'_False', group_id+'_True'][label]}}"
-doc_to_choice: "{% set group_id = idx.question|string %}{{[group_id+'_False', group_id+'_True']}}"
 generation_kwargs:
  until:
    - "</s>"

--- a/lm_eval/tasks/super_glue/record/default.yaml
+++ b/lm_eval/tasks/super_glue/record/default.yaml
@@ -11,6 +11,7 @@ doc_to_target: !function util.doc_to_target
 doc_to_choice: !function util.doc_to_choice
 process_docs: !function util.process_docs
 process_results: !function util.process_results
+target_delimiter: ""
 metric_list:
  - metric: f1
    aggregation: mean

--- a/lm_eval/tasks/super_glue/rte/t5-prompt.yaml
+++ b/lm_eval/tasks/super_glue/rte/t5-prompt.yaml
@@ -7,8 +7,7 @@ training_split: train
 validation_split: validation
 output_type: generate_until
 doc_to_text: "rte hypothesis: {{hypothesis}} premise: {{premise}}"
-doc_to_target: "{{ [entailment, not_entailment][label|int] }}"
+doc_to_target: "{{ ['entailment', 'not_entailment'][label|int] }}"
-doc_to_choice: ["entailment", "not_entailment"]
 generation_kwargs:
  until:
    - "</s>"

--- a/lm_eval/tasks/super_glue/wic/t5-prompt.yaml
+++ b/lm_eval/tasks/super_glue/wic/t5-prompt.yaml
@@ -8,7 +8,6 @@ validation_split: validation
 output_type: generate_until
 doc_to_text: "wic sentence1: {{sentence1}} sentence2: {{sentence2}} word: {{word}}"
 doc_to_target: "{{ ['False', 'True'][label|int] }}"
-doc_to_choice: ["False", "True"]
 generation_kwargs:
  until:
    - "</s>"