Commit efb46937 authored by Baber's avatar Baber
Browse files

Merge branch 'main' into convert_gen

# Conflicts:
#	lm_eval/__main__.py
#	lm_eval/evaluator.py
parents 7fbf899c ade01428
tag: evalita-mp_sa_tasks
include: _sa_template_yaml
task: evalita-mp_sa_prompt-4
task_alias: prompt-4
#doc_to_text: "Opinione: '{{text}}' Determinare la sentiment dell'opinione data. Possibili risposte: A – neutrale B – negativo C – positivo D - misto Risposta:"
doc_to_choice: ["A", "B", "C", "D"]
doc_to_text: "Devi svolgere un compito di analisi del sentiment. Qual è il sentiment espresso nel seguente tweet: '{{text}}'?\nA: Positivo\nB: Negativo\nC: Neutro\nD: Misto\nRisposta:"
metric_list:
- metric: f1
higher_is_better: True
aggregation: !function metrics._aggreg_sa
tag: evalita-mp_sa_tasks
include: _sa_template_yaml
task: evalita-mp_sa_prompt-5
task_alias: prompt-5
#doc_to_text: "Opinione: '{{text}}' Determinare la sentiment dell'opinione data. Possibili risposte: A – neutrale B – negativo C – positivo D - misto Risposta:"
#doc_to_choice: ["A", "B", "C", "D"]
doc_to_text: "Il seguente tweet: '{{text}}' esprime un sentiment"
metric_list:
- metric: f1
higher_is_better: True
aggregation: !function metrics._aggreg_sa
tag: evalita-mp_sa_tasks
include: _sa_template_yaml
task: evalita-mp_sa_prompt-6
task_alias: prompt-6
#doc_to_text: "Opinione: '{{text}}' Determinare la sentiment dell'opinione data. Possibili risposte: A – neutrale B – negativo C – positivo D - misto Risposta:"
#doc_to_choice: ["A", "B", "C", "D"]
doc_to_text: "Devi svolgere un compito di analisi del sentiment. Il seguente tweet: '{{text}}' esprime un sentiment"
metric_list:
- metric: f1
higher_is_better: True
aggregation: !function metrics._aggreg_sa
group: evalita-mp_sa
group_alias: sentiment-analysis
task:
- evalita-mp_sa_tasks # Each of the tasks has to have a matching tag in its own yaml file
aggregate_metric_list:
- metric: f1
weight_by_size: True
metadata:
version: 1
tag: evalita-mp_sum_fp-small_tasks
include: _sum_template_fp-small_yaml
task: evalita-sp_sum_task_fp-small_p1
task_alias: prompt-1
#doc_to_text: >
# "Crea un sommario del seguente testo. Testo: {{source}}\nSommario: "
doc_to_text: "Riassumi il seguente articolo di giornale: '{{source}}'\nRiassunto:"
process_results: !function utils.process_results_sum
metric_list:
- metric: rouge1
higher_is_better: true
aggregation: mean
tag: evalita-mp_sum_fp-small_tasks
include: _sum_template_fp-small_yaml
task: evalita-sp_sum_task_fp-small_p2
task_alias: prompt-2
#doc_to_text: >
# "Crea un sommario del seguente testo. Testo: {{source}}\nSommario: "
doc_to_text: "Devi risolvere un compito di sintesi automatica del testo. Riassumi il seguente articolo di giornale: '{{source}}'\nRiassunto:"
process_results: !function utils.process_results_sum
metric_list:
- metric: rouge1
higher_is_better: true
aggregation: mean
group: evalita-mp_sum_fp
group_alias: summarization-fanpage
task:
- evalita-mp_sum_fp-small_tasks
aggregate_metric_list:
- metric: rouge1
weight_by_size: True
metadata:
version: 0.0
tag: evalita-mp_sum_fp_tasks
include: _sum_template_fp_yaml
task: evalita-sp_sum_task_fp_p1
task_alias: prompt-1
doc_to_text: "Riassumi il seguente articolo di giornale: '{{source}}'\nRiassunto:"
process_results: !function utils.process_results_sum
metric_list:
- metric: rouge1
higher_is_better: true
aggregation: mean
tag: evalita-mp_sum_fp_tasks
include: _sum_template_fp_yaml
task: evalita-sp_sum_task_fp_p2
task_alias: prompt-2
doc_to_text: "Devi risolvere un compito di sintesi automatica del testo. Riassumi il seguente articolo di giornale: '{{source}}'\nRiassunto:"
process_results: !function utils.process_results_sum
metric_list:
- metric: rouge1
higher_is_better: true
aggregation: mean
group: evalita-mp_sum_fp
group_alias: summarization-fanpage
task:
- evalita-mp_sum_fp_tasks
aggregate_metric_list:
- metric: rouge1
weight_by_size: True
metadata:
version: 1
tag: evalita-mp_te_tasks
include: _te_template_yaml
task: evalita-mp_te_prompt-1
task_alias: prompt-1
#doc_to_text: "Task di Text Entailment. Rispondi Vero o Falso in base alla correttezza dell'ipotesi rispetto al testo.\nTesto:{{text1}}\nIpotesi: {{text2}}\nRisposta:"
doc_to_text: "La frase: '{{text1}}' implica logicamente che la frase: '{{text2}}' sia vera?"
#metric_list:
# - metric: acc
# higher_is_better: true
tag: evalita-mp_te_tasks
include: _te_template_yaml
task: evalita-mp_te_prompt-2
task_alias: prompt-2
doc_to_text: "Devi risolvere un compito di inferenza semantica. La frase: '{{text1}}' implica logicamente che la frase: '{{text2}}' sia vera?"
tag: evalita-mp_te_tasks
include: _te_template_yaml
task: evalita-mp_te_prompt-3
task_alias: prompt-3
doc_to_choice: ["A", "B"]
doc_to_text: "La frase: '{{text1}}' implica logicamente che la frase: '{{text2}}' sia vera?\nA: \nB: No\nRisposta:"
tag: evalita-mp_te_tasks
include: _te_template_yaml
task: evalita-mp_te_prompt-4
task_alias: prompt-4
doc_to_choice: ["A", "B"]
doc_to_text: "Devi risolvere un compito di inferenza semantica. La frase: '{{text1}}' implica logicamente che la frase: '{{text2}}' sia vera?\nA: \nB: No\nRisposta:"
tag: evalita-mp_te_tasks
include: _te_template_yaml
task: evalita-mp_te_prompt-5
task_alias: prompt-5
doc_to_choice: ["La frase 1 implica logicamente che la frase 2 sia vera", "La frase 1 non implica logicamente che la frase 2 sia vera"]
doc_to_text: "Frase 1: '{{text1}}' Frase 2: '{{text2}}'"
tag: evalita-mp_te_tasks
include: _te_template_yaml
task: evalita-mp_te_prompt-6
task_alias: prompt-6
doc_to_choice: ["La frase 1 implica logicamente che la frase 2 sia vera", "La frase 1 non implica logicamente che la frase 2 sia vera"]
doc_to_text: "Devi risolvere un compito di inferenza semantica. Frase 1: '{{text1}}' Frase 2: '{{text2}}'"
group: evalita-mp_te
group_alias: text-entailment
task:
- evalita-mp_te_tasks # this has to match the tag in the task yaml file
aggregate_metric_list:
- metric: acc
weight_by_size: True
metadata:
version: 1
tag: evalita-mp_wic_tasks
task: evalita-mp_wic_prompt-1
task_alias: prompt-1
include: _wic_template_yaml
doc_to_text: "La parola: '{{sentence1[start1:end1]}}' nella frase: '{{sentence1}}' ha lo stesso significato della parola: '{{sentence2[start2:end2]}}' nella frase: '{{sentence2}}'?"
tag: evalita-mp_wic_tasks
task: evalita-mp_wic_prompt-2
task_alias: prompt-2
include: _wic_template_yaml
doc_to_text: "Devi determinare se una stessa parola usata in due frasi differenti ha lo stesso significato in entrambi i contesti. La parola: '{{sentence1[start1:end1]}}' nella frase: '{{sentence1}}' ha lo stesso significato della parola: '{{sentence2[start2:end2]}}' nella frase: '{{sentence2}}'?"
tag: evalita-mp_wic_tasks
task: evalita-mp_wic_prompt-3
task_alias: prompt-3
include: _wic_template_yaml
doc_to_text: "La parola '{{sentence1[start1:end1]}}' nella frase '{{sentence1}}' ha lo stesso significato della parola '{{sentence2[start2:end2]}}' nella frase '{{sentence2}}'?\nA: \nB: No\nRisposta:"
doc_to_choice: ["B", "A"]
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment