Merge branch 'main' into weight_by_size

9822b06e · Lintang Sutawika · GitHub · 51f27158 · b177c82c · 9822b06e
Unverified Commit 9822b06e authored Mar 01, 2024 by Lintang Sutawika Committed by GitHub Mar 01, 2024
20 changed files
--- a/lm_eval/tasks/mgsm/direct/mgsm_direct_ru.yaml
+++ b/lm_eval/tasks/mgsm/direct/mgsm_direct_ru.yaml
 # Generated by utils.py
 dataset_name: ru
-doc_to_target: '{% if answer is not none %}{{answer[6+1]}}{% else %}{{answer_number|string}}{%
-  endif %}'
-doc_to_text: '{% if answer is not none %}{{question+"\nAnswer"}}{% else %}{{"Задача:
-  "+question+"\nAnswer"}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[18:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nAnswer:"}}{% else %}{{"Задача: "+question+"\nAnswer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Задача:'
+  - </s>
+  - <|im_end|>
 include: direct_yaml
 task: mgsm_direct_ru
--- a/lm_eval/tasks/mgsm/direct/mgsm_direct_sw.yaml
+++ b/lm_eval/tasks/mgsm/direct/mgsm_direct_sw.yaml
 # Generated by utils.py
 dataset_name: sw
-doc_to_target: '{% if answer is not none %}{{answer[6+1]}}{% else %}{{answer_number|string}}{%
-  endif %}'
-doc_to_text: '{% if answer is not none %}{{question+"\nAnswer"}}{% else %}{{"Swali:
-  "+question+"\nAnswer"}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[25:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nAnswer:"}}{% else %}{{"Swali: "+question+"\nAnswer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Swali:'
+  - </s>
+  - <|im_end|>
 include: direct_yaml
 task: mgsm_direct_sw
--- a/lm_eval/tasks/mgsm/direct/mgsm_direct_te.yaml
+++ b/lm_eval/tasks/mgsm/direct/mgsm_direct_te.yaml
 # Generated by utils.py
 dataset_name: te
-doc_to_target: '{% if answer is not none %}{{answer[6+1]}}{% else %}{{answer_number|string}}{%
-  endif %}'
-doc_to_text: '{% if answer is not none %}{{question+"\nAnswer"}}{% else %}{{"ప్రశ్న:
-  "+question+"\nAnswer"}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[19:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nAnswer:"}}{% else %}{{"ప్రశ్న: "+question+"\nAnswer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'ప్రశ్న:'
+  - </s>
+  - <|im_end|>
 include: direct_yaml
 task: mgsm_direct_te
--- a/lm_eval/tasks/mgsm/direct/mgsm_direct_th.yaml
+++ b/lm_eval/tasks/mgsm/direct/mgsm_direct_th.yaml
 # Generated by utils.py
 dataset_name: th
-doc_to_target: '{% if answer is not none %}{{answer[6+1]}}{% else %}{{answer_number|string}}{%
-  endif %}'
-doc_to_text: '{% if answer is not none %}{{question+"\nAnswer"}}{% else %}{{"โจทย์:
-  "+question+"\nAnswer"}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[18:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nAnswer:"}}{% else %}{{"โจทย์: "+question+"\nAnswer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'โจทย์:'
+  - </s>
+  - <|im_end|>
 include: direct_yaml
 task: mgsm_direct_th
--- a/lm_eval/tasks/mgsm/direct/mgsm_direct_zh.yaml
+++ b/lm_eval/tasks/mgsm/direct/mgsm_direct_zh.yaml
 # Generated by utils.py
 dataset_name: zh
-doc_to_target: '{% if answer is not none %}{{answer[6+1]}}{% else %}{{answer_number|string}}{%
-  endif %}'
-doc_to_text: '{% if answer is not none %}{{question+"\nAnswer"}}{% else %}{{"问题: "+question+"\nAnswer"}}{%
-  endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[6:]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_text: '{% if answer is not none %}{{question+"\nAnswer:"}}{% else %}{{"问题: "+question+"\nAnswer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - '问题:'
+  - </s>
+  - <|im_end|>
 include: direct_yaml
 task: mgsm_direct_zh
--- a/lm_eval/tasks/mgsm/en_cot/cot_yaml
+++ b/lm_eval/tasks/mgsm/en_cot/cot_yaml
@@ -7,7 +7,6 @@ dataset_name: null  # Overridden by language-specific config.
 output_type: generate_until
 training_split: train
 test_split: test
-target_delimiter: ""
 generation_kwargs:
  until:
    - "\n\n"
@@ -22,10 +21,16 @@ metric_list:
    ignore_case: true
    ignore_punctuation: true
 filter_list:
-  - name: "get-answer"
+  - name: "strict-match"
    filter:
      - function: "regex"
        regex_pattern: "The answer is (\\-?[0-9\\.\\,]+)"
      - function: "take_first"
+  - filter:
+    - function: regex
+      group_select: -1
+      regex_pattern: (-?[$0-9.,]{2,})|(-?[0-9]+)
+    - function: take_first
+    name: flexible-extract
 metadata:
-  version: 1.0
+  version: 2.0
--- a/lm_eval/tasks/mgsm/en_cot/mgsm_bn_en-cot.yaml
+++ b/lm_eval/tasks/mgsm/en_cot/mgsm_bn_en-cot.yaml
 # Generated by utils.py
 dataset_name: bn
-doc_to_target: '{% if answer is not none %}{{answer[20+1]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[17:]}}{% else %}{{answer_number|string}}{% endif %}'
 doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"প্রশ্ন: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'প্রশ্ন:'
+  - </s>
+  - <|im_end|>
 include: cot_yaml
-task: mgsm_bn_direct
+task: mgsm_en_cot_bn
--- a/lm_eval/tasks/mgsm/en_cot/mgsm_de_en-cot.yaml
+++ b/lm_eval/tasks/mgsm/en_cot/mgsm_de_en-cot.yaml
 # Generated by utils.py
 dataset_name: de
-doc_to_target: '{% if answer is not none %}{{answer[20+1]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[29:]}}{% else %}{{answer_number|string}}{% endif %}'
 doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Frage: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Frage:'
+  - </s>
+  - <|im_end|>
 include: cot_yaml
-task: mgsm_de_direct
+task: mgsm_en_cot_de
--- a/lm_eval/tasks/mgsm/en_cot/mgsm_en_en-cot.yaml
+++ b/lm_eval/tasks/mgsm/en_cot/mgsm_en_en-cot.yaml
 # Generated by utils.py
 dataset_name: en
-doc_to_target: '{% if answer is not none %}{{answer[20+1]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[21:]}}{% else %}{{answer_number|string}}{% endif %}'
 doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question:'
+  - </s>
+  - <|im_end|>
 include: cot_yaml
-task: mgsm_en_direct
+task: mgsm_en_cot_en
--- a/lm_eval/tasks/mgsm/en_cot/mgsm_es_en-cot.yaml
+++ b/lm_eval/tasks/mgsm/en_cot/mgsm_es_en-cot.yaml
 # Generated by utils.py
 dataset_name: es
-doc_to_target: '{% if answer is not none %}{{answer[20+1]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[23:]}}{% else %}{{answer_number|string}}{% endif %}'
 doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Pregunta: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Pregunta:'
+  - </s>
+  - <|im_end|>
 include: cot_yaml
-task: mgsm_es_direct
+task: mgsm_en_cot_es
--- a/lm_eval/tasks/mgsm/en_cot/mgsm_fr_en-cot.yaml
+++ b/lm_eval/tasks/mgsm/en_cot/mgsm_fr_en-cot.yaml
 # Generated by utils.py
 dataset_name: fr
-doc_to_target: '{% if answer is not none %}{{answer[20+1]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[26:]}}{% else %}{{answer_number|string}}{% endif %}'
 doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Question : "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Question :'
+  - </s>
+  - <|im_end|>
 include: cot_yaml
-task: mgsm_fr_direct
+task: mgsm_en_cot_fr
--- a/lm_eval/tasks/mgsm/en_cot/mgsm_ja_en-cot.yaml
+++ b/lm_eval/tasks/mgsm/en_cot/mgsm_ja_en-cot.yaml
 # Generated by utils.py
 dataset_name: ja
-doc_to_target: '{% if answer is not none %}{{answer[20+1]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[11:]}}{% else %}{{answer_number|string}}{% endif %}'
 doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"問題: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - '問題:'
+  - </s>
+  - <|im_end|>
 include: cot_yaml
-task: mgsm_ja_direct
+task: mgsm_en_cot_ja
--- a/lm_eval/tasks/mgsm/en_cot/mgsm_ru_en-cot.yaml
+++ b/lm_eval/tasks/mgsm/en_cot/mgsm_ru_en-cot.yaml
 # Generated by utils.py
 dataset_name: ru
-doc_to_target: '{% if answer is not none %}{{answer[20+1]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[18:]}}{% else %}{{answer_number|string}}{% endif %}'
 doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Задача: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Задача:'
+  - </s>
+  - <|im_end|>
 include: cot_yaml
-task: mgsm_ru_direct
+task: mgsm_en_cot_ru
--- a/lm_eval/tasks/mgsm/en_cot/mgsm_sw_en-cot.yaml
+++ b/lm_eval/tasks/mgsm/en_cot/mgsm_sw_en-cot.yaml
 # Generated by utils.py
 dataset_name: sw
-doc_to_target: '{% if answer is not none %}{{answer[20+1]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[25:]}}{% else %}{{answer_number|string}}{% endif %}'
 doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"Swali: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'Swali:'
+  - </s>
+  - <|im_end|>
 include: cot_yaml
-task: mgsm_sw_direct
+task: mgsm_en_cot_sw
--- a/lm_eval/tasks/mgsm/en_cot/mgsm_te_en-cot.yaml
+++ b/lm_eval/tasks/mgsm/en_cot/mgsm_te_en-cot.yaml
 # Generated by utils.py
 dataset_name: te
-doc_to_target: '{% if answer is not none %}{{answer[20+1]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[19:]}}{% else %}{{answer_number|string}}{% endif %}'
 doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"ప్రశ్న: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'ప్రశ్న:'
+  - </s>
+  - <|im_end|>
 include: cot_yaml
-task: mgsm_te_direct
+task: mgsm_en_cot_te
--- a/lm_eval/tasks/mgsm/en_cot/mgsm_th_en-cot.yaml
+++ b/lm_eval/tasks/mgsm/en_cot/mgsm_th_en-cot.yaml
 # Generated by utils.py
 dataset_name: th
-doc_to_target: '{% if answer is not none %}{{answer[20+1]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[18:]}}{% else %}{{answer_number|string}}{% endif %}'
 doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"โจทย์: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - 'โจทย์:'
+  - </s>
+  - <|im_end|>
 include: cot_yaml
-task: mgsm_th_direct
+task: mgsm_en_cot_th
--- a/lm_eval/tasks/mgsm/en_cot/mgsm_zh_en-cot.yaml
+++ b/lm_eval/tasks/mgsm/en_cot/mgsm_zh_en-cot.yaml
 # Generated by utils.py
 dataset_name: zh
-doc_to_target: '{% if answer is not none %}{{answer[20+1]}}{% else %}{{answer_number|string}}{% endif %}'
+doc_to_target: '{% if answer is not none %}{{answer[6:]}}{% else %}{{answer_number|string}}{% endif %}'
 doc_to_text: '{% if answer is not none %}{{question+"\nStep-by-Step Answer:"}}{% else %}{{"问题: "+question+"\nStep-by-Step Answer:"}}{% endif %}'
+generation_kwargs:
+  do_sample: false
+  until:
+  - '问题:'
+  - </s>
+  - <|im_end|>
 include: cot_yaml
-task: mgsm_zh_direct
+task: mgsm_en_cot_zh
--- a/lm_eval/tasks/mgsm/gen_yaml.sh
+++ b/lm_eval/tasks/mgsm/gen_yaml.sh
+#!/bin/bash
+
+python utils.py --overwrite --output-dir direct --mode direct
+python utils.py --overwrite --output-dir en_cot --mode en-cot
+python utils.py --overwrite --output-dir native_cot --mode native-cot
--- a/lm_eval/tasks/mgsm/native_cot/cot_yaml
+++ b/lm_eval/tasks/mgsm/native_cot/cot_yaml
@@ -7,7 +7,7 @@ dataset_name: null  # Overridden by language-specific config.
 output_type: generate_until
 training_split: train
 test_split: test
-target_delimiter: ""
+# target_delimiter: ""
 generation_kwargs:
  until:
    - "\n\n"
@@ -28,4 +28,4 @@ filter_list:
        regex_pattern: "The answer is (\\-?[0-9\\.\\,]+)"
      - function: "take_first"
 metadata:
-  version: 2.0
+  version: 3.0
--- a/lm_eval/tasks/mgsm/native_cot/mgsm_cot_native_bn.yaml
+++ b/lm_eval/tasks/mgsm/native_cot/mgsm_cot_native_bn.yaml
-# Generated by utils.py
-dataset_name: bn
-doc_to_target: '{% if answer is not none %}{{answer[16+1]}}{% else %}{{answer_number|string}}{%
-  endif %}'
-doc_to_text: '{% if answer is not none %}{{question+"\nধাপে ধাপে উত্তর:"}}{% else
-  %}{{"প্রশ্ন: "+question+"\nধাপে ধাপে উত্তর:"}}{% endif %}'
-include: cot_yaml
-task: mgsm_bn_native_cot