Merge branch 'main' into llama

bf11ac93 · Baber · 83b1c564 · ade01428 · bf11ac93 · bf11ac93
Commit bf11ac93 authored Mar 03, 2025 by Baber
20 changed files
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_at_tasks.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_at_tasks.yaml
+group: evalita-mp_at
+group_alias: admission-test
+task:
+  - evalita-mp_at_tasks # Each of the tasks has to have a matching tag in its own yaml file
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+    aggregation: mean
+metadata:
+  version: 1.0
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_faq_p1.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_faq_p1.yaml
+tag: evalita-mp_faq_tasks
+include: _faq_template_yaml
+task: evalita-mp_faq_prompt-1
+task_alias: prompt-1
+#doc_to_text: "Data la seguente domanda {{question}}, individua la risposta corretta tra le seguenti opzioni:\n A: {{A}}\nB: {{B}}\nC: {{C}}\nD: {{D}} Risposta:"
+doc_to_text: "Rispondi alla seguente domanda: '{{question}}'"
+doc_to_choice: "{{[A,B,C,D]}}"
+doc_to_target: "{{ A if correct_answer == 'A' else B if correct_answer == 'B' else C if correct_answer == 'C' else D}}"
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 1
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_faq_p2.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_faq_p2.yaml
+tag: evalita-mp_faq_tasks
+include: _faq_template_yaml
+task: evalita-mp_faq_prompt-2
+task_alias: prompt-2
+#doc_to_text: "Data la seguente domanda {{question}}, individua la risposta corretta tra le seguenti opzioni:\n A: {{A}}\nB: {{B}}\nC: {{C}}\nD: {{D}} Risposta:"
+doc_to_text: "Devi risolvere un compito di risposte a domande. Rispondi alla seguente domanda: '{{question}}'"
+doc_to_choice: "{{[A,B,C,D]}}"
+doc_to_target: "{{ A if correct_answer == 'A' else B if correct_answer == 'B' else C if correct_answer == 'C' else D}}"
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 1
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_faq_p3.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_faq_p3.yaml
+tag: evalita-mp_faq_tasks
+include: _faq_template_yaml
+task: evalita-mp_faq_prompt-3
+task_alias: prompt-3
+#doc_to_text: "Data la seguente domanda {{question}}, individua la risposta corretta tra le seguenti opzioni:\n A: {{A}}\nB: {{B}}\nC: {{C}}\nD: {{D}} Risposta:"
+doc_to_text: "Rispondi alla seguente domanda: '{{question}}'\nA: {{A}}\nB: {{B}}\nC: {{C}}\nD: {{D}}\nRisposta:"
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 1
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_faq_p4.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_faq_p4.yaml
+tag: evalita-mp_faq_tasks
+include: _faq_template_yaml
+task: evalita-mp_faq_prompt-4
+task_alias: prompt-4
+#doc_to_text: "Data la seguente domanda {{question}}, individua la risposta corretta tra le seguenti opzioni:\n A: {{A}}\nB: {{B}}\nC: {{C}}\nD: {{D}} Risposta:"
+doc_to_text: "Devi risolvere un compito a scelta multipla. Rispondi alla seguente domanda: '{{question}}'\nA: {{A}}\nB: {{B}}\nC: {{C}}\nD: {{D}}\nRisposta:"
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 1
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_faq_p5.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_faq_p5.yaml
+tag: evalita-mp_faq_tasks
+include: _faq_template_yaml
+task: evalita-mp_faq_prompt-5
+task_alias: prompt-5
+#doc_to_text: "Data la seguente domanda {{question}}, individua la risposta corretta tra le seguenti opzioni:\n A: {{A}}\nB: {{B}}\nC: {{C}}\nD: {{D}} Risposta:"
+#doc_to_text: "La risposta alla domanda: '{{question}}' è:"
+doc_to_text: "La risposta alla domanda: '{{question}}' è:"
+doc_to_choice: "{{[A,B,C,D]}}"
+doc_to_target: "{{ A if correct_answer == 'A' else B if correct_answer == 'B' else C if correct_answer == 'C' else D }}"
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 1
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_faq_p6.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_faq_p6.yaml
+tag: evalita-mp_faq_tasks
+include: _faq_template_yaml
+task: evalita-mp_faq_prompt-6
+task_alias: prompt-6
+#doc_to_text: "Data la seguente domanda {{question}}, individua la risposta corretta tra le seguenti opzioni:\n A: {{A}}\nB: {{B}}\nC: {{C}}\nD: {{D}} Risposta:"
+doc_to_text: "Devi risolvere un compito di risposte a domande. La risposta alla domanda: '{{question}}' è:"
+doc_to_choice: "{{[A,B,C,D]}}"
+doc_to_target: "{{ A if correct_answer == 'A' else B if correct_answer == 'B' else C if correct_answer == 'C' else D }}"
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 1
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_faq_tasks.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_faq_tasks.yaml
+group: evalita-mp_faq
+group_alias: faq
+task:
+  - evalita-mp_faq_tasks # Each of the tasks has to have a matching tag in its own yaml file
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 1
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_gen.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_gen.yaml
+group: evalita-mp_gen
+group_alias: Evalita-LLM - Generative
+task:
+  - evalita-mp_sum_fp
+  - evalita-mp_ls
+  - evalita-mp_ner_group
+  - evalita-mp_re
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 1
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_hs_p1.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_hs_p1.yaml
+tag: evalita-mp_hs_tasks
+include: _hs_template_yaml
+task: evalita-mp_hs_prompt-1
+task_alias: prompt-1
+#doc_to_text: "Dato il seguente testo, rispondi Vero se il testo contiene hate speech, altrimenti rispondi Falso. Testo:\n{{full_text}} Risposta:"
+doc_to_text: "C'è incitamento all'odio nel seguente tweet: '{{full_text}}'?"
+metric_list:
+  - metric: f1
+    higher_is_better: true
+    average: macro
+    aggregation: f1
+metadata:
+  version: 1.0
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_hs_p2.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_hs_p2.yaml
+tag: evalita-mp_hs_tasks
+include: _hs_template_yaml
+task: evalita-mp_hs_prompt-2
+task_alias: prompt-2
+#doc_to_text: "Dato il seguente testo, rispondi Vero se il testo contiene hate speech, altrimenti rispondi Falso. Testo:\n{{full_text}} Risposta:"
+doc_to_text: "Devi svolgere un compito di identificazione di incitamento all'odio. C'è incitamento all'odio nel seguente tweet: '{{full_text}}'?"
+metric_list:
+  - metric: f1
+    higher_is_better: true
+    average: macro
+    aggregation: f1
+metadata:
+  version: 1.0
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_hs_p3.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_hs_p3.yaml
+tag: evalita-mp_hs_tasks
+include: _hs_template_yaml
+task: evalita-mp_hs_prompt-3
+task_alias: prompt-3
+doc_to_choice: ["B", "A"]
+#doc_to_text: "Dato il seguente testo, rispondi Vero se il testo contiene hate speech, altrimenti rispondi Falso. Testo:\n{{full_text}} Risposta:"
+doc_to_text: "C'è incitamento all'odio nel seguente tweet: '{{full_text}}'?\nA: Vero\nB: Falso\nRisposta:"
+metric_list:
+  - metric: f1
+    higher_is_better: true
+    average: macro
+    aggregation: f1
+metadata:
+  version: 1.0
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_hs_p4.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_hs_p4.yaml
+tag: evalita-mp_hs_tasks
+include: _hs_template_yaml
+task: evalita-mp_hs_prompt-4
+task_alias: prompt-4
+doc_to_choice: ["B", "A"]
+#doc_to_text: "Dato il seguente testo, rispondi Vero se il testo contiene hate speech, altrimenti rispondi Falso. Testo:\n{{full_text}} Risposta:"
+doc_to_text: "Devi svolgere un compito di identificazione di incitamento all'odio. C'è incitamento all'odio nel seguente tweet: '{{full_text}}'?\nA: Sì\nB: No\nRisposta:"
+metric_list:
+  - metric: f1
+    higher_is_better: true
+    average: macro
+    aggregation: f1
+metadata:
+  version: 1.0
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_hs_p5.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_hs_p5.yaml
+tag: evalita-mp_hs_tasks
+include: _hs_template_yaml
+task: evalita-mp_hs_prompt-5
+task_alias: prompt-5
+doc_to_choice: ["non contiene incitamento all'odio", "contiene incitamento all'odio"]
+#doc_to_text: "Dato il seguente testo, rispondi Vero se il testo contiene hate speech, altrimenti rispondi Falso. Testo:\n{{full_text}} Risposta:"
+doc_to_text: "Il tweet: '{{full_text}}'"
+metric_list:
+  - metric: f1
+    higher_is_better: true
+    average: macro
+    aggregation: f1
+metadata:
+  version: 1.0
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_hs_p6.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_hs_p6.yaml
+tag: evalita-mp_hs_tasks
+include: _hs_template_yaml
+task: evalita-mp_hs_prompt-6
+task_alias: prompt-6
+doc_to_choice: ["non contiene incitamento all'odio", "contiene incitamento all'odio"]
+#doc_to_text: "Dato il seguente testo, rispondi Vero se il testo contiene hate speech, altrimenti rispondi Falso. Testo:\n{{full_text}} Risposta:"
+doc_to_text: "Devi svolgere un compito di identificazione di incitamento all'odio. Il tweet: '{{full_text}}'"
+metric_list:
+  - metric: f1
+    higher_is_better: true
+    average: macro
+    aggregation: f1
+metadata:
+  version: 1.0
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_hs_task.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_hs_task.yaml
+group: evalita-mp_hs
+group_alias: hate-speech-detection
+task:
+  - evalita-mp_hs_tasks
+aggregate_metric_list:
+  - metric: f1
+    weight_by_size: True
+
+metadata:
+  version: 1
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_ls_p1.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_ls_p1.yaml
+tag: evalita-mp_ls_tasks
+include: _ls_template_yaml
+task: evalita-mp_ls_prompt-1
+task_alias: prompt-1
+#doc_to_text: "Sostituisci la parola tra i tag <head> con sinonimi appropriati per il contesto. Separa i sinonimi con virgole. Testo:\n{{context}}"
+doc_to_text: "Trova 10 parole che possono sostituire la parola racchiusa tra i marcatori <head> nella seguente frase: '{{context}}', mantenendo lo stesso significato. Elenca i lemmi (forme base) di queste parole, separandoli con una virgola, ad esempio: lemma1, lemma2, lemma3, lemma4, lemma5. Non aggiungere commenti o altro testo. Risposta:"
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_ls_p2.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_ls_p2.yaml
+tag: evalita-mp_ls_tasks
+include: _ls_template_yaml
+task: evalita-mp_ls_prompt-2
+task_alias: prompt-2
+#doc_to_text: "Sostituisci la parola tra i tag <head> con sinonimi appropriati per il contesto. Separa i sinonimi con virgole. Testo:\n{{context}}"
+doc_to_text: "Devi risolvere un compito di sostituzione lessicale. Trova 10 parole che possono sostituire la parola racchiusa tra i marcatori <head> nella seguente frase: '{{context}}', mantenendo lo stesso significato. Elenca i lemmi (forme base) di queste parole, separandoli con una virgola, ad esempio: lemma1, lemma2, lemma3, lemma4, lemma5. Non aggiungere commenti o altro testo. Risposta:"
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_ls_task.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_ls_task.yaml
+group: evalita-mp_ls
+group_alias: lexical-substitution
+task:
+- evalita-mp_ls_tasks
+aggregate_metric_list:
+  - metric: f1
+    weight_by_size: True
+
+metadata:
+  version: 1
--- a/lm_eval/tasks/evalita_llm/_evalita-mp_mc.yaml
+++ b/lm_eval/tasks/evalita_llm/_evalita-mp_mc.yaml
+group: evalita-mp_mc
+group_alias: Evalita-LLM - PPL-based
+task:
+  - evalita-mp_te
+  - evalita-mp_sa
+  - evalita-mp_wic
+  - evalita-mp_hs
+  - evalita-mp_at
+  - evalita-mp_faq
+aggregate_metric_list:
+  - metric: acc
+    weight_by_size: True
+metadata:
+  version: 1