"doc/vscode:/vscode.git/clone" did not exist on "62868988072cbe66389916ce1e03fd15815ffc7d"
Commit e6b798f9 authored by Baber's avatar Baber
Browse files

Merge branch 'main' into metrics

# Conflicts:
#	.pre-commit-config.yaml
#	lm_eval/api/task.py
#	lm_eval/models/huggingface.py
#	lm_eval/models/vllm_causallms.py
#	pyproject.toml
parents 14a29ade 4f8195f1
group: libra_question_answering_and_multiple_choice
group_alias: Question Answering and Multiple Choice
task:
- matreshka_yes_no
- matreshka_names
- librusec_history
- ru_sci_abstract_retrieval
- ru_quality
group: libra_simple_information_retrieval
group_alias: Simple Information Retrieval
task:
- passkey
- passkey_with_librusec
dataset_path: ai-forever/LIBRA
custom_dataset: !function utils.filter_dataset_by_page_lengths
test_split: test
output_type: generate_until
doc_to_target: positive_outputs
process_results: !function utils.process_results
tag:
- libra
task: librusec_history
task_alias: LibrusecHistory
dataset_name: librusec_history
dataset_kwargs:
dataset_name: librusec_history
include: _template_yaml
doc_to_text: 'Тебе предоставляется длинный текст, в котором нужно найти ответ на вопрос.
{{context}}
Найди ответ в тексте на следующий вопрос.
Вопрос:{{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 32
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: librusec_mhqa
task_alias: LibrusecMHQA
dataset_name: librusec_mhqa
dataset_kwargs:
dataset_name: librusec_mhqa
include: _template_yaml
doc_to_text: 'Тебе предоставляется длинный текст, в котором нужно найти ответ на вопрос.
{{context}}
Найди ответ в тексте на следующий вопрос.
Вопрос:{{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 32
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: long_context_multiq
task_alias: LongContextMultiQ
dataset_name: long_context_multiq
dataset_kwargs:
dataset_name: long_context_multiq
include: _template_yaml
doc_to_text: 'Тебе предоставляется длинный текст, в котором нужно найти ответ на вопрос.
{{context}}
Найди ответ в тексте на следующий вопрос.
Вопрос:{{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 32
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: matreshka_names
task_alias: MatreshkaNames
dataset_name: matreshka_names
dataset_kwargs:
dataset_name: matreshka_names
include: _template_yaml
doc_to_text: 'Тебе предоставляются несколько диалогов. Запомни имена людей и темы,
на которые они говорили.
{{context}}
В ответе укажи только имя собеседника, который говорил на тему из следующего вопроса.
Вопрос:{{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 16
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: matreshka_yes_no
task_alias: MatreshkaYesNo
dataset_name: matreshka_yes_no
dataset_kwargs:
dataset_name: matreshka_yes_no
include: _template_yaml
doc_to_text: 'Тебе предоставляются несколько диалогов. Запомни названия тем, на которые
говорили собеседники.
{{context}}
В ответе тебе нужно указать только ''Да'', если такая тема была, и ''Нет'', если
такой темы не было в диалогах.
Вопрос:{{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 4
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: passkey
task_alias: Passkey
dataset_name: passkey
dataset_kwargs:
dataset_name: passkey
include: _template_yaml
doc_to_text: 'Тебе предоставляется длинный текст, в котором содержится ключ доступа.
Запомни только ключ доступа.
{{context}}
В ответе нужно указать только ключ доступа.
Вопрос:{{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 16
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: passkey_with_librusec
task_alias: PasskeyWithLibrusec
dataset_name: passkey_with_librusec
dataset_kwargs:
dataset_name: passkey_with_librusec
include: _template_yaml
doc_to_text: 'Тебе предоставляется длинный текст, в котором содержится ключ доступа.
Запомни только ключ доступа.
{{context}}
В ответе нужно указать только ключ доступа.
Вопрос:{{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 16
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: ru_2wikimultihopqa
task_alias: ru2WikiMultihopQA
dataset_name: ru_2wikimultihopqa
dataset_kwargs:
dataset_name: ru_2wikimultihopqa
include: _template_yaml
doc_to_text: 'Ответь на вопрос, основываясь на приведенных отрывках.
{{context}}
Ответь коротко на вопрос, основываясь на приведенных отрывках.
Вопрос:{{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 32
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: ru_babilong_qa1
task_alias: ruBABILongQA1
dataset_name: ru_babilong_qa1
dataset_kwargs:
dataset_name: ru_babilong_qa1
include: _template_yaml
doc_to_text: 'Я даю тебе контекст с фактами о местоположении разных людей. Тебе нужно
ответить на вопрос, основываясь только на информации, полученной из фактов. Если
человек находился в разных местах, используй последнее местоположение для ответа
на вопрос.
{{context}}
Ответь на вопрос как можно более кратко.
Вопрос: {{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 16
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: ru_babilong_qa2
task_alias: ruBABILongQA2
dataset_name: ru_babilong_qa2
dataset_kwargs:
dataset_name: ru_babilong_qa2
include: _template_yaml
doc_to_text: 'Я даю тебе контекст с фактами о местоположении и действиях разных людей.
Тебе нужно ответить на вопрос, основываясь только на фактической информации. Если
человек взял предмет в одном месте и отправился в другое место, этот предмет также
находится во втором месте. Если человек оставил предмет в первом месте и перешел
во второе место, предмет остается в первом месте.
{{context}}
Ответь на вопрос одним словом.
Вопрос: {{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 16
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: ru_babilong_qa3
task_alias: ruBABILongQA3
dataset_name: ru_babilong_qa3
dataset_kwargs:
dataset_name: ru_babilong_qa3
include: _template_yaml
doc_to_text: 'Я даю тебе контекст с фактами о местоположении и действиях разных людей.
Тебе нужно ответить на вопрос, основываясь только на фактической информации. Если
человек взял предмет в одном месте и отправился в другое место, этот предмет также
находится во втором месте. Если человек оставил предмет в первом метсе и перешел
во второе место, предмет остается в первом месте.
{{context}}
Ответь на вопрос как можно более кратко.
Вопрос: {{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 16
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: ru_babilong_qa4
task_alias: ruBABILongQA4
dataset_name: ru_babilong_qa4
dataset_kwargs:
dataset_name: ru_babilong_qa4
include: _template_yaml
doc_to_text: 'Я даю тебе контекст с фактами о местоположении и действиях разных людей.
Тебе нужно ответить на вопрос, основываясь только на фактической информации.
{{context}}
Ответь на вопрос как можно более кратко.
Вопрос: {{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 16
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: ru_babilong_qa5
task_alias: ruBABILongQA5
dataset_name: ru_babilong_qa5
dataset_kwargs:
dataset_name: ru_babilong_qa5
include: _template_yaml
doc_to_text: 'Я даю тебе контекст с фактами о местоположении и действиях разных людей.
Тебе нужно ответить на вопрос, основываясь только на фактической информации.
{{context}}
Ответь на вопрос как можно более кратко.
Вопрос: {{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 16
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: ru_gsm100
task_alias: ruGSM100
dataset_name: ru_gsm100
dataset_kwargs:
dataset_name: ru_gsm100
include: _template_yaml
doc_to_text: 'Ниже приведены п��имеры математических задач. Размышляй шаг за шагом
и дай ответ на вопрос.
{{context}}
Размышляй шаг за шагом и дай ответ вопрос.
Вопрос:{{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 32
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: ru_qasper
task_alias: ruQasper
dataset_name: ru_qasper
dataset_kwargs:
dataset_name: ru_qasper
include: _template_yaml
doc_to_text: 'Тебе предоставляется научная статья и вопрос.
{{context}}
Ответь на вопрос как можно более кратко, по возможности используя одну фразу или
предложение. Не приводи никаких объяснений.
Вопрос:{{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 256
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_f1
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: ru_quality
task_alias: ruQuALITY
dataset_name: ru_quality
dataset_kwargs:
dataset_name: ru_quality
include: _template_yaml
doc_to_text: 'Тебе предоставляется длинный текст, в котором нужно найти ответ на вопрос.
{{context}}
Тебе будут даны несколько вариантов ответов на вопрос по тексту, выбери только один
правильный.
Вопрос:{{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 128
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
tag:
- libra
task: ru_sci_abstract_retrieval
task_alias: ruSciAbstractRetrieval
dataset_name: ru_sci_abstract_retrieval
dataset_kwargs:
dataset_name: ru_sci_abstract_retrieval
include: _template_yaml
doc_to_text: 'Ниже приведены несколько параграфов. Определи какому параграфу соответствует
краткое описание.
{{context}}
Определи какому параграфу соответствует краткое описание. Ответ должен содержать
номер параграфа.
Вопрос:{{input}}
Ответ:'
generation_kwargs:
do_sample: false
temperature: 0.0
max_gen_toks: 32
metric_list:
- metric: libra_score
aggregation: !function utils.aggregate_results_em
higher_is_better: true
weight_by_size: true
metadata:
version: 0.0
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment