Commit 527a4352 authored by Baber's avatar Baber
Browse files

Merge branch 'main' into longcxt

# Conflicts:
#	lm_eval/tasks/README.md
parents 6042f622 52df63b7
group: evalita-mp_sa
group_alias: sentiment-analysis
task:
- evalita-mp_sa_tasks # Each of the tasks has to have a matching tag in its own yaml file
aggregate_metric_list:
- metric: f1
weight_by_size: True
metadata:
version: 1
tag: evalita-mp_sum_fp-small_tasks
include: _sum_template_fp-small_yaml
task: evalita-sp_sum_task_fp-small_p1
task_alias: prompt-1
#doc_to_text: >
# "Crea un sommario del seguente testo. Testo: {{source}}\nSommario: "
doc_to_text: "Riassumi il seguente articolo di giornale: '{{source}}'\nRiassunto:"
process_results: !function utils.process_results_sum
metric_list:
- metric: rouge1
higher_is_better: true
aggregation: mean
tag: evalita-mp_sum_fp-small_tasks
include: _sum_template_fp-small_yaml
task: evalita-sp_sum_task_fp-small_p2
task_alias: prompt-2
#doc_to_text: >
# "Crea un sommario del seguente testo. Testo: {{source}}\nSommario: "
doc_to_text: "Devi risolvere un compito di sintesi automatica del testo. Riassumi il seguente articolo di giornale: '{{source}}'\nRiassunto:"
process_results: !function utils.process_results_sum
metric_list:
- metric: rouge1
higher_is_better: true
aggregation: mean
group: evalita-mp_sum_fp
group_alias: summarization-fanpage
task:
- evalita-mp_sum_fp-small_tasks
aggregate_metric_list:
- metric: rouge1
weight_by_size: True
metadata:
version: 0.0
tag: evalita-mp_sum_fp_tasks
include: _sum_template_fp_yaml
task: evalita-sp_sum_task_fp_p1
task_alias: prompt-1
doc_to_text: "Riassumi il seguente articolo di giornale: '{{source}}'\nRiassunto:"
process_results: !function utils.process_results_sum
metric_list:
- metric: rouge1
higher_is_better: true
aggregation: mean
tag: evalita-mp_sum_fp_tasks
include: _sum_template_fp_yaml
task: evalita-sp_sum_task_fp_p2
task_alias: prompt-2
doc_to_text: "Devi risolvere un compito di sintesi automatica del testo. Riassumi il seguente articolo di giornale: '{{source}}'\nRiassunto:"
process_results: !function utils.process_results_sum
metric_list:
- metric: rouge1
higher_is_better: true
aggregation: mean
group: evalita-mp_sum_fp
group_alias: summarization-fanpage
task:
- evalita-mp_sum_fp_tasks
aggregate_metric_list:
- metric: rouge1
weight_by_size: True
metadata:
version: 1
tag: evalita-mp_te_tasks
include: _te_template_yaml
task: evalita-mp_te_prompt-1
task_alias: prompt-1
#doc_to_text: "Task di Text Entailment. Rispondi Vero o Falso in base alla correttezza dell'ipotesi rispetto al testo.\nTesto:{{text1}}\nIpotesi: {{text2}}\nRisposta:"
doc_to_text: "La frase: '{{text1}}' implica logicamente che la frase: '{{text2}}' sia vera?"
#metric_list:
# - metric: acc
# higher_is_better: true
tag: evalita-mp_te_tasks
include: _te_template_yaml
task: evalita-mp_te_prompt-2
task_alias: prompt-2
doc_to_text: "Devi risolvere un compito di inferenza semantica. La frase: '{{text1}}' implica logicamente che la frase: '{{text2}}' sia vera?"
tag: evalita-mp_te_tasks
include: _te_template_yaml
task: evalita-mp_te_prompt-3
task_alias: prompt-3
doc_to_choice: ["A", "B"]
doc_to_text: "La frase: '{{text1}}' implica logicamente che la frase: '{{text2}}' sia vera?\nA: \nB: No\nRisposta:"
tag: evalita-mp_te_tasks
include: _te_template_yaml
task: evalita-mp_te_prompt-4
task_alias: prompt-4
doc_to_choice: ["A", "B"]
doc_to_text: "Devi risolvere un compito di inferenza semantica. La frase: '{{text1}}' implica logicamente che la frase: '{{text2}}' sia vera?\nA: \nB: No\nRisposta:"
tag: evalita-mp_te_tasks
include: _te_template_yaml
task: evalita-mp_te_prompt-5
task_alias: prompt-5
doc_to_choice: ["La frase 1 implica logicamente che la frase 2 sia vera", "La frase 1 non implica logicamente che la frase 2 sia vera"]
doc_to_text: "Frase 1: '{{text1}}' Frase 2: '{{text2}}'"
tag: evalita-mp_te_tasks
include: _te_template_yaml
task: evalita-mp_te_prompt-6
task_alias: prompt-6
doc_to_choice: ["La frase 1 implica logicamente che la frase 2 sia vera", "La frase 1 non implica logicamente che la frase 2 sia vera"]
doc_to_text: "Devi risolvere un compito di inferenza semantica. Frase 1: '{{text1}}' Frase 2: '{{text2}}'"
group: evalita-mp_te
group_alias: text-entailment
task:
- evalita-mp_te_tasks # this has to match the tag in the task yaml file
aggregate_metric_list:
- metric: acc
weight_by_size: True
metadata:
version: 1
tag: evalita-mp_wic_tasks
task: evalita-mp_wic_prompt-1
task_alias: prompt-1
include: _wic_template_yaml
doc_to_text: "La parola: '{{sentence1[start1:end1]}}' nella frase: '{{sentence1}}' ha lo stesso significato della parola: '{{sentence2[start2:end2]}}' nella frase: '{{sentence2}}'?"
tag: evalita-mp_wic_tasks
task: evalita-mp_wic_prompt-2
task_alias: prompt-2
include: _wic_template_yaml
doc_to_text: "Devi determinare se una stessa parola usata in due frasi differenti ha lo stesso significato in entrambi i contesti. La parola: '{{sentence1[start1:end1]}}' nella frase: '{{sentence1}}' ha lo stesso significato della parola: '{{sentence2[start2:end2]}}' nella frase: '{{sentence2}}'?"
tag: evalita-mp_wic_tasks
task: evalita-mp_wic_prompt-3
task_alias: prompt-3
include: _wic_template_yaml
doc_to_text: "La parola '{{sentence1[start1:end1]}}' nella frase '{{sentence1}}' ha lo stesso significato della parola '{{sentence2[start2:end2]}}' nella frase '{{sentence2}}'?\nA: \nB: No\nRisposta:"
doc_to_choice: ["B", "A"]
tag: evalita-mp_wic_tasks
task: evalita-mp_wic_prompt-4
task_alias: prompt-4
include: _wic_template_yaml
doc_to_text: "Devi determinare se una stessa parola usata in due frasi differenti ha lo stesso significato in entrambi i contesti. La parola '{{sentence1[start1:end1]}}' nella frase '{{sentence1}}' ha lo stesso significato della parola '{{sentence2[start2:end2]}}' nella frase '{{sentence2}}'?\nA: \nB: No\nRisposta:"
doc_to_choice: ["B", "A"]
tag: evalita-mp_wic_tasks
task: evalita-mp_wic_prompt-5
task_alias: prompt-5
include: _wic_template_yaml
doc_to_text: "La parola: '{{sentence1[start1:end1]}}' nella frase: '{{sentence1}}' e la parola: '{{sentence2[start2:end2]}}' nella frase: '{{sentence2}}'"
doc_to_choice: ["non hanno lo stesso significato", "hanno lo stesso significato"]
tag: evalita-mp_wic_tasks
task: evalita-mp_wic_prompt-6
task_alias: prompt-6
include: _wic_template_yaml
doc_to_text: "Devi determinare se una stessa parola usata in due frasi differenti ha lo stesso significato in entrambi i contesti. La parola: '{{sentence1[start1:end1]}}' nella frase: '{{sentence1}}' e la parola: '{{sentence2[start2:end2]}}' nella frase: '{{sentence2}}'"
doc_to_choice: ["non hanno lo stesso significato", "hanno lo stesso significato"]
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment