remove doc_to_choice from `boolq-seq2seq`

90d44580 · Baber · 3fd12675 · 90d44580 · 90d44580 · 90d44580
Commit 90d44580 authored Jul 22, 2025 by Baber
17 changed files
--- a/lm_eval/tasks/super_glue/boolq/default.yaml
+++ b/lm_eval/tasks/super_glue/boolq/default.yaml
 tag:
  - super-glue-lm-eval-v1
 task: boolq
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: boolq
 output_type: multiple_choice
 training_split: train

--- a/lm_eval/tasks/super_glue/boolq/seq2seq.yaml
+++ b/lm_eval/tasks/super_glue/boolq/seq2seq.yaml
 tag:
  - super-glue-lm-eval-v1-seq2seq
 task: "boolq-seq2seq"
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: boolq
 output_type: generate_until
 training_split: train
 validation_split: validation
 doc_to_text: "{{passage}}\nQuestion: {{question}}?\nAnswer:"
-doc_to_target: label
-doc_to_choice: [' no', ' yes']
+doc_to_target: "{{ [' no', ' yes'][label|int] }}"
+doc_to_choice: [" no", " yes"]
 target_delimiter: ""
 generation_kwargs:
  until:

--- a/lm_eval/tasks/super_glue/boolq/t5-prompt.yaml
+++ b/lm_eval/tasks/super_glue/boolq/t5-prompt.yaml
 tag:
  - super-glue-t5-prompt
 task: super_glue-boolq-t5-prompt
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: boolq
 training_split: train
 validation_split: validation
 output_type: generate_until
 doc_to_text: "boolq passage: {{passage}} question: {{question}}"
-doc_to_target: label
-doc_to_choice: ['False', 'True']
+doc_to_target: "{{['False', 'True'][label|int]}}"
+doc_to_choice: ["False", "True"]
 generation_kwargs:
  until:
    - "</s>"

--- a/lm_eval/tasks/super_glue/cb/default.yaml
+++ b/lm_eval/tasks/super_glue/cb/default.yaml
 tag:
  - super-glue-lm-eval-v1
 task: cb
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: cb
 output_type: multiple_choice
 training_split: train
 validation_split: validation
 doc_to_text: "{{premise}}\nQuestion: {{hypothesis}}. True, False, or Neither?\nAnswer:"
 doc_to_target: label
-doc_to_choice: ['True', 'False', 'Neither']
+doc_to_choice: ["True", "False", "Neither"]
 metric_list:
  - metric: acc
  - metric: f1

--- a/lm_eval/tasks/super_glue/cb/t5-prompt.yaml
+++ b/lm_eval/tasks/super_glue/cb/t5-prompt.yaml
 tag:
  - super-glue-t5-prompt
 task: super_glue-cb-t5-prompt
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: cb
 training_split: train
 validation_split: validation
 output_type: generate_until
 doc_to_text: "cb hypothesis: {{hypothesis}} premise: {{premise}}"
-doc_to_target: label
-doc_to_choice: ['entailment', 'contradiction', 'neutral']
+doc_to_target: "{{ ['entailment', 'contradiction', 'neutral'][label|int] }}"
+doc_to_choice: ["entailment", "contradiction", "neutral"]
 generation_kwargs:
  until:
    - "</s>"

--- a/lm_eval/tasks/super_glue/copa/default.yaml
+++ b/lm_eval/tasks/super_glue/copa/default.yaml
 tag:
  - super-glue-lm-eval-v1
 task: copa
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: copa
 output_type: multiple_choice
 training_split: train

--- a/lm_eval/tasks/super_glue/copa/t5-prompt.yaml
+++ b/lm_eval/tasks/super_glue/copa/t5-prompt.yaml
 tag:
  - super-glue-t5-prompt
 task: super_glue-copa-t5-prompt
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: copa
 training_split: train
 validation_split: validation
 output_type: generate_until
 doc_to_text: "copa choice1: {{choice1}} choice2: {{choice2}} premise: {{premise}} question: {{question}}"
-doc_to_target: label
-doc_to_choice: ['choice1', 'choice2']
+doc_to_target: "{{ [choice1, choice2][label|int] }}"
+doc_to_choice: ["choice1", "choice2"]
 generation_kwargs:
  until:
    - "</s>"

--- a/lm_eval/tasks/super_glue/multirc/default.yaml
+++ b/lm_eval/tasks/super_glue/multirc/default.yaml
 tag:
  - super-glue-lm-eval-v1
 task: multirc
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: multirc
 output_type: multiple_choice
 training_split: train

--- a/lm_eval/tasks/super_glue/multirc/t5-prompt.yaml
+++ b/lm_eval/tasks/super_glue/multirc/t5-prompt.yaml
 tag:
  - super-glue-t5-prompt
 task: super_glue-multirc-t5-prompt
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: multirc
 training_split: train
 validation_split: validation
 output_type: generate_until
 doc_to_text: "multirc question: {{question}} answer: {{answer}} paragraph: {{paragraph}}"
-doc_to_target: label
+doc_to_target: "{% set group_id = idx.question|string %}{{[group_id+'_False', group_id+'_True'][label]}}"
 doc_to_choice: "{% set group_id = idx.question|string %}{{[group_id+'_False', group_id+'_True']}}"
 generation_kwargs:
  until:

--- a/lm_eval/tasks/super_glue/record/default.yaml
+++ b/lm_eval/tasks/super_glue/record/default.yaml
 tag:
  - super-glue-lm-eval-v1
 task: record
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: record
 output_type: multiple_choice
 training_split: train

--- a/lm_eval/tasks/super_glue/record/t5-prompt.yaml
+++ b/lm_eval/tasks/super_glue/record/t5-prompt.yaml
 tag:
  - super-glue-t5-prompt
 task: super_glue-record-t5-prompt
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: record
 validation_split: validation
 output_type: generate_until

--- a/lm_eval/tasks/super_glue/rte/default.yaml
+++ b/lm_eval/tasks/super_glue/rte/default.yaml
 tag:
  - super-glue-lm-eval-v1
 task: sglue_rte
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: rte
 output_type: multiple_choice
 training_split: train
 validation_split: validation
 doc_to_text: "{{premise}}\nQuestion: {{hypothesis}} True or False?\nAnswer:"
 doc_to_target: label
-doc_to_choice: ['True', 'False']
+doc_to_choice: ["True", "False"]
 metric_list:
  - metric: acc
 metadata:

--- a/lm_eval/tasks/super_glue/rte/t5-prompt.yaml
+++ b/lm_eval/tasks/super_glue/rte/t5-prompt.yaml
 tag:
  - super-glue-t5-prompt
 task: super_glue-rte-t5-prompt
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: rte
 training_split: train
 validation_split: validation
 output_type: generate_until
 doc_to_text: "rte hypothesis: {{hypothesis}} premise: {{premise}}"
-doc_to_target: label
-doc_to_choice: ['entailment', 'not_entailment']
+doc_to_target: "{{ [entailment, not_entailment][label|int] }}"
+doc_to_choice: ["entailment", "not_entailment"]
 generation_kwargs:
  until:
    - "</s>"

--- a/lm_eval/tasks/super_glue/wic/default.yaml
+++ b/lm_eval/tasks/super_glue/wic/default.yaml
 tag:
  - super-glue-lm-eval-v1
 task: "wic"
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: wic
 output_type: multiple_choice
 training_split: train
 validation_split: validation
 doc_to_text: "Sentence 1: {{sentence1}}\nSentence 2: {{sentence2}}\nQuestion: Is the word '{{sentence1[start1:end1]}}' used in the same way in the two sentences above?\nAnswer:"
 doc_to_target: label
-doc_to_choice: ['no', 'yes']
+doc_to_choice: ["no", "yes"]
 metric_list:
  - metric: acc
 metadata:

--- a/lm_eval/tasks/super_glue/wic/t5-prompt.yaml
+++ b/lm_eval/tasks/super_glue/wic/t5-prompt.yaml
 tag:
  - super-glue-t5-prompt
 task: super_glue-wic-t5-prompt
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: wic
 training_split: train
 validation_split: validation
 output_type: generate_until
 doc_to_text: "wic sentence1: {{sentence1}} sentence2: {{sentence2}} word: {{word}}"
-doc_to_target: label
-doc_to_choice: ['False', 'True']
+doc_to_target: "{{ ['False', 'True'][label|int] }}"
+doc_to_choice: ["False", "True"]
 generation_kwargs:
  until:
    - "</s>"

--- a/lm_eval/tasks/super_glue/wsc/default.yaml
+++ b/lm_eval/tasks/super_glue/wsc/default.yaml
 tag:
  - super-glue-lm-eval-v1
 task: wsc
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: wsc.fixed
 output_type: multiple_choice
 training_split: train
 validation_split: validation
 doc_to_text: !function preprocess_wsc.default_doc_to_text
 doc_to_target: label
-doc_to_choice: ['no', 'yes']
+doc_to_choice: ["no", "yes"]
 metric_list:
  - metric: acc
 metadata:

--- a/lm_eval/tasks/super_glue/wsc/t5-prompt.yaml
+++ b/lm_eval/tasks/super_glue/wsc/t5-prompt.yaml
 tag:
  - super-glue-t5-prompt
 task: super_glue-wsc-t5-prompt
-dataset_path: super_glue
+dataset_path: aps/super_glue
 dataset_name: wsc.fixed
 training_split: train
 validation_split: validation