Merge branch 'main' into llama

bf11ac93 · Baber · 83b1c564 · ade01428 · bf11ac93 · bf11ac93
Commit bf11ac93 authored Mar 03, 2025 by Baber
20 changed files
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_re_p2.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_re_p2.yaml
+tag: evalita-mp_re_tasks
+include: _re_template_yaml
+fewshot_split: dev
+task: evalita-mp_re_prompt-2
+task_alias: prompt-2
+#p5
+doc_to_text: "Devi svolgere un compito di estrazione di relazioni da documenti medici. Dato un documento medico devi estrarre tutte le misurazioni degli esami medici presenti. Riporta ogni relazione nel formato: misurazione$esame, separando ciascuna coppia con '%'. Se non ci sono relazioni da estrarre, rispondi con '&&NOREL&&'.
+Testo: '{{text}}'
+Relazioni:"
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_re_task.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_re_task.yaml
+group: evalita-mp_re
+group_alias: relation-extraction
+task:
+- evalita-mp_re_tasks
+aggregate_metric_list:
+  - metric: f1
+    weight_by_size: True
+metadata:
+  version: 1
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_sa_p1.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_sa_p1.yaml
+tag: evalita-mp_sa_tasks
+include: _sa_template_yaml
+task: evalita-mp_sa_prompt-1
+task_alias: prompt-1
+#doc_to_text: "Opinione: '{{text}}' Determinare la sentiment dell'opinione data. Possibili risposte: A – neutrale B – negativo C – positivo D - misto Risposta:"
+doc_to_text: "Qual è il sentiment espresso nel seguente tweet: '{{text}}'?"
+metric_list:
+  - metric: f1
+    higher_is_better: True
+    aggregation: !function metrics._aggreg_sa
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_sa_p2.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_sa_p2.yaml
+tag: evalita-mp_sa_tasks
+include: _sa_template_yaml
+task: evalita-mp_sa_prompt-2
+task_alias: prompt-2
+#doc_to_text: "Opinione: '{{text}}' Determinare la sentiment dell'opinione data. Possibili risposte: A – neutrale B – negativo C – positivo D - misto Risposta:"
+doc_to_text: "Devi svolgere un compito di analisi del sentiment. Qual è il sentiment espresso nel seguente tweet: '{{text}}'?"
+metric_list:
+  - metric: f1
+    higher_is_better: True
+    aggregation: !function metrics._aggreg_sa
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_sa_p3.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_sa_p3.yaml
+tag: evalita-mp_sa_tasks
+include: _sa_template_yaml
+task: evalita-mp_sa_prompt-3
+task_alias: prompt-3
+#doc_to_text: "Opinione: '{{text}}' Determinare la sentiment dell'opinione data. Possibili risposte: A – neutrale B – negativo C – positivo D - misto Risposta:"
+doc_to_choice: ["A", "B", "C", "D"]
+doc_to_text: "Qual è il sentiment espresso nel seguente tweet: '{{text}}'?\nA: Positivo\nB: Negativo\nC: Neutro\nD: Misto\nRisposta:"
+metric_list:
+  - metric: f1
+    higher_is_better: True
+    aggregation: !function metrics._aggreg_sa
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_sa_p4.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_sa_p4.yaml
+tag: evalita-mp_sa_tasks
+include: _sa_template_yaml
+task: evalita-mp_sa_prompt-4
+task_alias: prompt-4
+#doc_to_text: "Opinione: '{{text}}' Determinare la sentiment dell'opinione data. Possibili risposte: A – neutrale B – negativo C – positivo D - misto Risposta:"
+doc_to_choice: ["A", "B", "C", "D"]
+doc_to_text: "Devi svolgere un compito di analisi del sentiment. Qual è il sentiment espresso nel seguente tweet: '{{text}}'?\nA: Positivo\nB: Negativo\nC: Neutro\nD: Misto\nRisposta:"
+metric_list:
+  - metric: f1
+    higher_is_better: True
+    aggregation: !function metrics._aggreg_sa
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_sa_p5.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_sa_p5.yaml
+tag: evalita-mp_sa_tasks
+include: _sa_template_yaml
+task: evalita-mp_sa_prompt-5
+task_alias: prompt-5
+#doc_to_text: "Opinione: '{{text}}' Determinare la sentiment dell'opinione data. Possibili risposte: A – neutrale B – negativo C – positivo D - misto Risposta:"
+#doc_to_choice: ["A", "B", "C", "D"]
+doc_to_text: "Il seguente tweet: '{{text}}' esprime un sentiment"
+metric_list:
+  - metric: f1
+    higher_is_better: True
+    aggregation: !function metrics._aggreg_sa
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_sa_p6.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_sa_p6.yaml
+tag: evalita-mp_sa_tasks
+include: _sa_template_yaml
+task: evalita-mp_sa_prompt-6
+task_alias: prompt-6
+#doc_to_text: "Opinione: '{{text}}' Determinare la sentiment dell'opinione data. Possibili risposte: A – neutrale B – negativo C – positivo D - misto Risposta:"
+#doc_to_choice: ["A", "B", "C", "D"]
+doc_to_text: "Devi svolgere un compito di analisi del sentiment. Il seguente tweet: '{{text}}' esprime un sentiment"
+metric_list:
+  - metric: f1
+    higher_is_better: True
+    aggregation: !function metrics._aggreg_sa
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_sa_tasks.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_sa_tasks.yaml
+group: evalita-mp_sa
+group_alias: sentiment-analysis
+task:
+  - evalita-mp_sa_tasks # Each of the tasks has to have a matching tag in its own yaml file
+aggregate_metric_list:
+  - metric: f1
+    weight_by_size: True
+metadata:
+  version: 1
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_sum_fp-small_p1.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_sum_fp-small_p1.yaml
+tag: evalita-mp_sum_fp-small_tasks
+include: _sum_template_fp-small_yaml
+task: evalita-sp_sum_task_fp-small_p1
+task_alias: prompt-1
+#doc_to_text: >
+#  "Crea un sommario del seguente testo. Testo: {{source}}\nSommario: "
+doc_to_text: "Riassumi il seguente articolo di giornale: '{{source}}'\nRiassunto:"
+process_results: !function utils.process_results_sum
+metric_list:
+  - metric: rouge1
+    higher_is_better: true
+    aggregation: mean
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_sum_fp-small_p2.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_sum_fp-small_p2.yaml
+tag: evalita-mp_sum_fp-small_tasks
+include: _sum_template_fp-small_yaml
+task: evalita-sp_sum_task_fp-small_p2
+task_alias: prompt-2
+#doc_to_text: >
+#  "Crea un sommario del seguente testo. Testo: {{source}}\nSommario: "
+doc_to_text: "Devi risolvere un compito di sintesi automatica del testo. Riassumi il seguente articolo di giornale: '{{source}}'\nRiassunto:"
+process_results: !function utils.process_results_sum
+metric_list:
+  - metric: rouge1
+    higher_is_better: true
+    aggregation: mean
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_sum_fp-small_task.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_sum_fp-small_task.yaml
+group: evalita-mp_sum_fp
+group_alias: summarization-fanpage
+task:
+- evalita-mp_sum_fp-small_tasks
+aggregate_metric_list:
+  - metric: rouge1
+    weight_by_size: True
+metadata:
+  version: 0.0
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_sum_fp_p1.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_sum_fp_p1.yaml
+tag: evalita-mp_sum_fp_tasks
+include: _sum_template_fp_yaml
+task: evalita-sp_sum_task_fp_p1
+task_alias: prompt-1
+doc_to_text: "Riassumi il seguente articolo di giornale: '{{source}}'\nRiassunto:"
+process_results: !function utils.process_results_sum
+metric_list:
+  - metric: rouge1
+    higher_is_better: true
+    aggregation: mean
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_sum_fp_p2.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_sum_fp_p2.yaml
+tag: evalita-mp_sum_fp_tasks
+include: _sum_template_fp_yaml
+task: evalita-sp_sum_task_fp_p2
+task_alias: prompt-2
+doc_to_text: "Devi risolvere un compito di sintesi automatica del testo. Riassumi il seguente articolo di giornale: '{{source}}'\nRiassunto:"
+process_results: !function utils.process_results_sum
+metric_list:
+  - metric: rouge1
+    higher_is_better: true
+    aggregation: mean
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_sum_fp_task.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_sum_fp_task.yaml
+group: evalita-mp_sum_fp
+group_alias: summarization-fanpage
+task:
+- evalita-mp_sum_fp_tasks
+aggregate_metric_list:
+  - metric: rouge1
+    weight_by_size: True
+metadata:
+  version: 1
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_te_p1.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_te_p1.yaml
+tag: evalita-mp_te_tasks
+include: _te_template_yaml
+task: evalita-mp_te_prompt-1
+task_alias: prompt-1
+#doc_to_text: "Task di Text Entailment. Rispondi Vero o Falso in base alla correttezza dell'ipotesi rispetto al testo.\nTesto:{{text1}}\nIpotesi: {{text2}}\nRisposta:"
+doc_to_text: "La frase: '{{text1}}' implica logicamente che la frase: '{{text2}}' sia vera?"
+#metric_list:
+#  - metric: acc
+#    higher_is_better: true
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_te_p2.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_te_p2.yaml
+tag: evalita-mp_te_tasks
+include: _te_template_yaml
+task: evalita-mp_te_prompt-2
+task_alias: prompt-2
+doc_to_text: "Devi risolvere un compito di inferenza semantica. La frase: '{{text1}}' implica logicamente che la frase: '{{text2}}' sia vera?"
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_te_p3.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_te_p3.yaml
+tag: evalita-mp_te_tasks
+include: _te_template_yaml
+task: evalita-mp_te_prompt-3
+task_alias: prompt-3
+doc_to_choice: ["A", "B"]
+doc_to_text: "La frase: '{{text1}}' implica logicamente che la frase: '{{text2}}' sia vera?\nA: Sì\nB: No\nRisposta:"
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_te_p4.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_te_p4.yaml
+tag: evalita-mp_te_tasks
+include: _te_template_yaml
+task: evalita-mp_te_prompt-4
+task_alias: prompt-4
+doc_to_choice: ["A", "B"]
+doc_to_text: "Devi risolvere un compito di inferenza semantica. La frase: '{{text1}}' implica logicamente che la frase: '{{text2}}' sia vera?\nA: Sì\nB: No\nRisposta:"
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_te_p5.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_te_p5.yaml
+tag: evalita-mp_te_tasks
+include: _te_template_yaml
+task: evalita-mp_te_prompt-5
+task_alias: prompt-5
+doc_to_choice: ["La frase 1 implica logicamente che la frase 2 sia vera", "La frase 1 non implica logicamente che la frase 2 sia vera"]
+doc_to_text: "Frase 1: '{{text1}}' Frase 2: '{{text2}}'"