Merge branch 'upstream' into 'mmlu-pro'

add tokenizer logs info (#1731) See merge request shijie.yu/lm-evaluation-harness!4

Merge branch 'upstream' into 'mmlu-pro'
add tokenizer logs info (#1731) See merge request shijie.yu/lm-evaluation-harness!4
c1e63555 · Yu Shi Jie · e361687c · 42dc2448 · c1e63555 · c1e63555
Commit c1e63555 authored Jul 24, 2024 by Yu Shi Jie
20 changed files
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_fra.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_fra.yaml
+# Generated by utils.py
+dataset_name: fra
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_fra
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_hau.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_hau.yaml
+# Generated by utils.py
+dataset_name: hau
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_hau
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_ibo.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_ibo.yaml
+# Generated by utils.py
+dataset_name: ibo
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_ibo
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_kin.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_kin.yaml
+# Generated by utils.py
+dataset_name: kin
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_kin
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_lin.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_lin.yaml
+# Generated by utils.py
+dataset_name: lin
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_lin
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_lug.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_lug.yaml
+# Generated by utils.py
+dataset_name: lug
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_lug
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_orm.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_orm.yaml
+# Generated by utils.py
+dataset_name: orm
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_orm
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_sna.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_sna.yaml
+# Generated by utils.py
+dataset_name: sna
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_sna
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_sot.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_sot.yaml
+# Generated by utils.py
+dataset_name: sot
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_sot
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_swa.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_swa.yaml
+# Generated by utils.py
+dataset_name: swa
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_swa
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_twi.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_twi.yaml
+# Generated by utils.py
+dataset_name: twi
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_twi
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_wol.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_wol.yaml
+# Generated by utils.py
+dataset_name: wol
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_wol
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_xho.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_xho.yaml
+# Generated by utils.py
+dataset_name: xho
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_xho
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_yor.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_yor.yaml
+# Generated by utils.py
+dataset_name: yor
+doc_to_target: '{% if answer is not none %}{{answer[16:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_yor
--- a/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_zul.yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/afrimgsm_en_cot_zul.yaml
+# Generated by utils.py
+dataset_name: zul
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: cot_yaml
+task: afrimgsm_en_cot_zul
--- a/lm_eval/tasks/afrimgsm/en_cot/cot_yaml
+++ b/lm_eval/tasks/afrimgsm/en_cot/cot_yaml
+# This file will be included in the generated language-specific task configs.
+# It doesn't have a yaml file extension as it is not meant to be imported directly by the harness.
+group:
+    - mgsm
+    - afrimgsm
+    - afrimgsm_en_cot
+dataset_path: masakhane/afrimgsm
+dataset_name: null  # Overridden by language-specific config.
+output_type: generate_until
+training_split: train
+test_split: test
+generation_kwargs:
+  until:
+    - "\n\n"
+    - "\n"
+  do_sample: false
+  temperature: 0.0
+target_delimiter: " "
+metric_list:
+  - metric: exact_match
+    aggregation: mean
+    higher_is_better: true
+    ignore_case: true
+    ignore_punctuation: true
+filter_list:
+  - name: "strict-match"
+    filter:
+      - function: "regex"
+        regex_pattern: "The answer is (\\-?[0-9\\.\\,]+)"
+      - function: "take_first"
+  - filter:
+    - function: regex
+      group_select: -1
+      regex_pattern: (-?[$0-9.,]{2,})|(-?[0-9]+)
+    - function: take_first
+    name: flexible-extract
+metadata:
+  version: 2.0
--- a/lm_eval/tasks/afrimgsm/gen_yaml.sh
+++ b/lm_eval/tasks/afrimgsm/gen_yaml.sh
+#!/bin/bash
+# python utils.py --overwrite --output-dir direct --mode direct
+# python utils.py --overwrite --output-dir direct_native --mode direct-native
+# python utils.py --overwrite --output-dir en_cot --mode en-cot
+# python utils.py --overwrite --output-dir native_cot --mode native-cot
+python utils.py --overwrite --output-dir translate_direct --mode translate-direct
--- a/lm_eval/tasks/afrimgsm/run.sh
+++ b/lm_eval/tasks/afrimgsm/run.sh
+lm_eval --model hf   \
+        --model_args pretrained="google/gemma-7b"  --tasks afrimgsm_en_cot_eng,mgsm_en_cot_en,afrimgsm_native_cot_eng,mgsm_native_cot_en,afrimgsm_direct_eng,mgsm_direct_en,afrimgsm_direct_native_eng  \
+        --device cuda:0     \
+        --batch_size 1  \
+        --verbosity DEBUG \
+        --limit 5
--- a/lm_eval/tasks/afrimgsm/translate/afrimgsm_translate_amh.yaml
+++ b/lm_eval/tasks/afrimgsm/translate/afrimgsm_translate_amh.yaml
+# Generated by utils.py
+dataset_name: amh
+doc_to_target: '{% if answer is not none %}{{answer[15:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nAnswer:"}}{% else %}{{"Question: "+question+"\nAnswer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: translate_direct_yaml
+task: afrimgsm_translate_direct_amh
--- a/lm_eval/tasks/afrimgsm/translate/afrimgsm_translate_eng.yaml
+++ b/lm_eval/tasks/afrimgsm/translate/afrimgsm_translate_eng.yaml
+# Generated by utils.py
+dataset_name: eng
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nAnswer:"}}{% else %}{{"Question: "+question+"\nAnswer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
+include: translate_direct_yaml
+task: afrimgsm_translate_direct_eng