Merge branch 'main' into metrics

# Conflicts: # .pre-commit-config.yaml # lm_eval/api/task.py # lm_eval/models/huggingface.py # lm_eval/models/vllm_causallms.py # pyproject.toml

Merge branch 'main' into metrics
# Conflicts: # .pre-commit-config.yaml # lm_eval/api/task.py # lm_eval/models/huggingface.py # lm_eval/models/vllm_causallms.py # pyproject.toml
e6b798f9 · Baber · 14a29ade · 4f8195f1 · e6b798f9 · e6b798f9
Commit e6b798f9 authored Jul 25, 2025 by Baber
20 changed files
--- a/lm_eval/tasks/libra/_question_answering_and_multiple_choice.yaml
+++ b/lm_eval/tasks/libra/_question_answering_and_multiple_choice.yaml
+group: libra_question_answering_and_multiple_choice
+group_alias: Question Answering and Multiple Choice
+task:
+  - matreshka_yes_no
+  - matreshka_names
+  - librusec_history
+  - ru_sci_abstract_retrieval
+  - ru_quality
--- a/lm_eval/tasks/libra/_simple_information_retrieval.yaml
+++ b/lm_eval/tasks/libra/_simple_information_retrieval.yaml
+group: libra_simple_information_retrieval
+group_alias: Simple Information Retrieval
+task:
+  - passkey
+  - passkey_with_librusec
--- a/lm_eval/tasks/libra/_template_yaml
+++ b/lm_eval/tasks/libra/_template_yaml
+dataset_path: ai-forever/LIBRA
+custom_dataset: !function utils.filter_dataset_by_page_lengths
+test_split: test
+output_type: generate_until
+doc_to_target: positive_outputs
+process_results: !function utils.process_results
--- a/lm_eval/tasks/libra/librusec_history.yaml
+++ b/lm_eval/tasks/libra/librusec_history.yaml
+tag:
+- libra
+task: librusec_history
+task_alias: LibrusecHistory
+dataset_name: librusec_history
+dataset_kwargs:
+  dataset_name: librusec_history
+include: _template_yaml
+doc_to_text: 'Тебе предоставляется длинный текст, в котором нужно найти ответ на вопрос.
+  {{context}}
+  Найди ответ в тексте на следующий вопрос.
+  Вопрос:{{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 32
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/librusec_mhqa.yaml
+++ b/lm_eval/tasks/libra/librusec_mhqa.yaml
+tag:
+- libra
+task: librusec_mhqa
+task_alias: LibrusecMHQA
+dataset_name: librusec_mhqa
+dataset_kwargs:
+  dataset_name: librusec_mhqa
+include: _template_yaml
+doc_to_text: 'Тебе предоставляется длинный текст, в котором нужно найти ответ на вопрос.
+  {{context}}
+  Найди ответ в тексте на следующий вопрос.
+  Вопрос:{{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 32
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/long_context_multiq.yaml
+++ b/lm_eval/tasks/libra/long_context_multiq.yaml
+tag:
+- libra
+task: long_context_multiq
+task_alias: LongContextMultiQ
+dataset_name: long_context_multiq
+dataset_kwargs:
+  dataset_name: long_context_multiq
+include: _template_yaml
+doc_to_text: 'Тебе предоставляется длинный текст, в котором нужно найти ответ на вопрос.
+  {{context}}
+  Найди ответ в тексте на следующий вопрос.
+  Вопрос:{{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 32
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/matreshka_names.yaml
+++ b/lm_eval/tasks/libra/matreshka_names.yaml
+tag:
+- libra
+task: matreshka_names
+task_alias: MatreshkaNames
+dataset_name: matreshka_names
+dataset_kwargs:
+  dataset_name: matreshka_names
+include: _template_yaml
+doc_to_text: 'Тебе предоставляются несколько диалогов. Запомни имена людей и темы,
+  на которые они говорили.
+  {{context}}
+  В ответе укажи только имя собеседника, который говорил на тему из следующего вопроса.
+  Вопрос:{{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 16
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/matreshka_yes_no.yaml
+++ b/lm_eval/tasks/libra/matreshka_yes_no.yaml
+tag:
+- libra
+task: matreshka_yes_no
+task_alias: MatreshkaYesNo
+dataset_name: matreshka_yes_no
+dataset_kwargs:
+  dataset_name: matreshka_yes_no
+include: _template_yaml
+doc_to_text: 'Тебе предоставляются несколько диалогов. Запомни названия тем, на которые
+  говорили собеседники.
+  {{context}}
+  В ответе тебе нужно указать только ''Да'', если такая тема была, и ''Нет'', если
+  такой темы не было в диалогах.
+  Вопрос:{{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 4
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/passkey.yaml
+++ b/lm_eval/tasks/libra/passkey.yaml
+tag:
+- libra
+task: passkey
+task_alias: Passkey
+dataset_name: passkey
+dataset_kwargs:
+  dataset_name: passkey
+include: _template_yaml
+doc_to_text: 'Тебе предоставляется длинный текст, в котором содержится ключ доступа.
+  Запомни только ключ доступа.
+  {{context}}
+  В ответе нужно указать только ключ доступа.
+  Вопрос:{{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 16
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/passkey_with_librusec.yaml
+++ b/lm_eval/tasks/libra/passkey_with_librusec.yaml
+tag:
+- libra
+task: passkey_with_librusec
+task_alias: PasskeyWithLibrusec
+dataset_name: passkey_with_librusec
+dataset_kwargs:
+  dataset_name: passkey_with_librusec
+include: _template_yaml
+doc_to_text: 'Тебе предоставляется длинный текст, в котором содержится ключ доступа.
+  Запомни только ключ доступа.
+  {{context}}
+  В ответе нужно указать только ключ доступа.
+  Вопрос:{{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 16
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/ru_2wikimultihopqa.yaml
+++ b/lm_eval/tasks/libra/ru_2wikimultihopqa.yaml
+tag:
+- libra
+task: ru_2wikimultihopqa
+task_alias: ru2WikiMultihopQA
+dataset_name: ru_2wikimultihopqa
+dataset_kwargs:
+  dataset_name: ru_2wikimultihopqa
+include: _template_yaml
+doc_to_text: 'Ответь на вопрос, основываясь на приведенных отрывках.
+  {{context}}
+  Ответь коротко на вопрос, основываясь на приведенных отрывках.
+  Вопрос:{{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 32
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/ru_babilong_qa1.yaml
+++ b/lm_eval/tasks/libra/ru_babilong_qa1.yaml
+tag:
+- libra
+task: ru_babilong_qa1
+task_alias: ruBABILongQA1
+dataset_name: ru_babilong_qa1
+dataset_kwargs:
+  dataset_name: ru_babilong_qa1
+include: _template_yaml
+doc_to_text: 'Я даю тебе контекст с фактами о местоположении разных людей. Тебе нужно
+  ответить на вопрос, основываясь только на информации, полученной из фактов. Если
+  человек находился в разных местах, используй последнее местоположение для ответа
+  на вопрос.
+  {{context}}
+  Ответь на вопрос как можно более кратко.
+  Вопрос: {{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 16
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/ru_babilong_qa2.yaml
+++ b/lm_eval/tasks/libra/ru_babilong_qa2.yaml
+tag:
+- libra
+task: ru_babilong_qa2
+task_alias: ruBABILongQA2
+dataset_name: ru_babilong_qa2
+dataset_kwargs:
+  dataset_name: ru_babilong_qa2
+include: _template_yaml
+doc_to_text: 'Я даю тебе контекст с фактами о местоположении и действиях разных людей.
+  Тебе нужно ответить на вопрос, основываясь только на фактической информации. Если
+  человек взял предмет в одном месте и отправился в другое место, этот предмет также
+  находится во втором месте. Если человек оставил предмет в первом месте и перешел
+  во второе место, предмет остается в первом месте.
+  {{context}}
+  Ответь на вопрос одним словом.
+  Вопрос: {{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 16
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/ru_babilong_qa3.yaml
+++ b/lm_eval/tasks/libra/ru_babilong_qa3.yaml
+tag:
+- libra
+task: ru_babilong_qa3
+task_alias: ruBABILongQA3
+dataset_name: ru_babilong_qa3
+dataset_kwargs:
+  dataset_name: ru_babilong_qa3
+include: _template_yaml
+doc_to_text: 'Я даю тебе контекст с фактами о местоположении и действиях разных людей.
+  Тебе нужно ответить на вопрос, основываясь только на фактической информации. Если
+  человек взял предмет в одном месте и отправился в другое место, этот предмет также
+  находится во втором месте. Если человек оставил предмет в первом метсе и перешел
+  во второе место, предмет остается в первом месте.
+  {{context}}
+  Ответь на вопрос как можно более кратко.
+  Вопрос: {{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 16
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/ru_babilong_qa4.yaml
+++ b/lm_eval/tasks/libra/ru_babilong_qa4.yaml
+tag:
+- libra
+task: ru_babilong_qa4
+task_alias: ruBABILongQA4
+dataset_name: ru_babilong_qa4
+dataset_kwargs:
+  dataset_name: ru_babilong_qa4
+include: _template_yaml
+doc_to_text: 'Я даю тебе контекст с фактами о местоположении и действиях разных людей.
+  Тебе нужно ответить на вопрос, основываясь только на фактической информации.
+  {{context}}
+  Ответь на вопрос как можно более кратко.
+  Вопрос: {{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 16
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/ru_babilong_qa5.yaml
+++ b/lm_eval/tasks/libra/ru_babilong_qa5.yaml
+tag:
+- libra
+task: ru_babilong_qa5
+task_alias: ruBABILongQA5
+dataset_name: ru_babilong_qa5
+dataset_kwargs:
+  dataset_name: ru_babilong_qa5
+include: _template_yaml
+doc_to_text: 'Я даю тебе контекст с фактами о местоположении и действиях разных людей.
+  Тебе нужно ответить на вопрос, основываясь только на фактической информации.
+  {{context}}
+  Ответь на вопрос как можно более кратко.
+  Вопрос: {{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 16
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/ru_gsm100.yaml
+++ b/lm_eval/tasks/libra/ru_gsm100.yaml
+tag:
+- libra
+task: ru_gsm100
+task_alias: ruGSM100
+dataset_name: ru_gsm100
+dataset_kwargs:
+  dataset_name: ru_gsm100
+include: _template_yaml
+doc_to_text: 'Ниже приведены п��имеры математических задач. Размышляй шаг за шагом
+  и дай ответ на вопрос.
+  {{context}}
+  Размышляй шаг за шагом и дай ответ вопрос.
+  Вопрос:{{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 32
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/ru_qasper.yaml
+++ b/lm_eval/tasks/libra/ru_qasper.yaml
+tag:
+- libra
+task: ru_qasper
+task_alias: ruQasper
+dataset_name: ru_qasper
+dataset_kwargs:
+  dataset_name: ru_qasper
+include: _template_yaml
+doc_to_text: 'Тебе предоставляется научная статья и вопрос.
+  {{context}}
+  Ответь на вопрос как можно более кратко, по возможности используя одну фразу или
+  предложение. Не приводи никаких объяснений.
+  Вопрос:{{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 256
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_f1
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/ru_quality.yaml
+++ b/lm_eval/tasks/libra/ru_quality.yaml
+tag:
+- libra
+task: ru_quality
+task_alias: ruQuALITY
+dataset_name: ru_quality
+dataset_kwargs:
+  dataset_name: ru_quality
+include: _template_yaml
+doc_to_text: 'Тебе предоставляется длинный текст, в котором нужно найти ответ на вопрос.
+  {{context}}
+  Тебе будут даны несколько вариантов ответов на вопрос по тексту, выбери только один
+  правильный.
+  Вопрос:{{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 128
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/libra/ru_sci_abstract_retrieval.yaml
+++ b/lm_eval/tasks/libra/ru_sci_abstract_retrieval.yaml
+tag:
+- libra
+task: ru_sci_abstract_retrieval
+task_alias: ruSciAbstractRetrieval
+dataset_name: ru_sci_abstract_retrieval
+dataset_kwargs:
+  dataset_name: ru_sci_abstract_retrieval
+include: _template_yaml
+doc_to_text: 'Ниже приведены несколько параграфов. Определи какому параграфу соответствует
+  краткое описание.
+  {{context}}
+  Определи какому параграфу соответствует краткое описание. Ответ должен содержать
+  номер параграфа.
+  Вопрос:{{input}}
+  Ответ:'
+generation_kwargs:
+  do_sample: false
+  temperature: 0.0
+  max_gen_toks: 32
+metric_list:
+- metric: libra_score
+  aggregation: !function utils.aggregate_results_em
+  higher_is_better: true
+  weight_by_size: true
+metadata:
+  version: 0.0