"sgl-router/src/routers/vscode:/vscode.git/clone" did not exist on "edd86b8853ebb8878bc0a160951ff3e1d7d805e0"
Unverified Commit 1b357a68 authored by Alexandre Marques's avatar Alexandre Marques Committed by GitHub
Browse files

Multilingual MMLU for Llama instruct models (#2826)

* Multilingual MMLU

* Refactor process_docs function calls for clarity and consistency
parent 1afb190c
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "D\xEDgale a su cliente los pros y los contras de cada programa que conozca,\
\ excepto aquel en el que est\xE1 inscrito."
B: "recomienda a tu cliente el programa en el que est\xE1s inscrito y expl\xED\
cale el bono de $50 que recibir\xE1s"
C: "Recomiende a su cliente el programa en el que est\xE1 inscrito y ofr\xE9\
zcale que el bono de $50 se acredite en la cuenta de su cliente en el programa."
D: "D\xEDgale a su cliente los pros y los contras de cada programa que conozca,\
\ pero no reclame el bono de $50 si su cliente se inscribe en su programa."
input_correct_responses:
- D
input_question: "Uno de sus clientes de terapia le pide consejo sobre un buen\
\ programa de reducci\xF3n de peso. Has investigado los programas de la comunidad\
\ y est\xE1s inscrito en el que consideras mejor. Este programa ofrece un bono\
\ de $50 a sus patrocinadores por cada nueva persona que traen al programa.\
\ En estas circunstancias, su respuesta m\xE1s apropiada ser\xEDa"
- input_choice_list:
A: menos sensible a puntuaciones extremas que la media
B: "m\xE1s \xFAtil para distribuciones asim\xE9tricas"
C: sensible a valores extremos y distribuciones muy sesgadas
D: "el n\xFAmero que ocurre con m\xE1s frecuencia"
input_correct_responses:
- D
input_question: "Hay tres formas de medir la Tendencia Central: la Media, la Mediana\
\ y la Moda. Seg\xFAn tu conocimiento sobre ellos, \xBFcu\xE1l es la moda?"
- input_choice_list:
A: individualismo.
B: Individualismo y distancia de poder.
C: Distancia de poder y masculinidad.
D: "evitaci\xF3n de la incertidumbre."
input_correct_responses:
- A
input_question: "En t\xE9rminos de las cinco dimensiones culturales de Hofstede\
\ (1980), Estados Unidos ocupa el primer lugar de la escala en:"
- input_choice_list:
A: "Es una fantas\xEDa que distrae al cliente de la realidad."
B: representa "sentimientos encontrados" hacia el terapeuta.
C: '"es una forma de "actuar"."'
D: refleja el inconsciente personal y colectivo del cliente.
input_correct_responses:
- D
input_question: "Carl Jung cre\xEDa que la transferencia de un cliente:"
- input_choice_list:
A: "no est\xE1n correlacionados entre s\xED pero est\xE1n moderadamente correlacionados\
\ con el criterio"
B: "tienen bajas correlaciones entre s\xED y bajas correlaciones con el criterio"
C: "est\xE1n altamente intercorrelacionados entre s\xED y moderadamente correlacionados\
\ con el criterio"
D: "tienen correlaciones bajas con el criterio pero est\xE1n moderadamente correlacionadas\
\ entre s\xED"
input_correct_responses:
- A
input_question: "En la construcci\xF3n de una ecuaci\xF3n de regresi\xF3n m\xFA\
ltiple con fines de predicci\xF3n, la combinaci\xF3n \xF3ptima de medidas es\
\ aquella en la que los predictores"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_professional_psychology
tag: mmlu_es_llama_social_sciences_tasks
task: mmlu_es_llama_professional_psychology
task_alias: professional_psychology
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "D\xE9le al periodista otra informaci\xF3n que est\xE9 segura de que es correcta."
B: "Diga que la informaci\xF3n es "extraoficial" y se difundir\xE1\
\ m\xE1s adelante."
C: "Diga "No lo s\xE9" y prometa proporcionar la informaci\xF3n m\xE1\
s tarde."
D: Diga "sin comentarios" en lugar de parecer desinformado.
input_correct_responses:
- C
input_question: "\xBFQu\xE9 debe hacer un profesional de relaciones p\xFAblicas\
\ en los medios si no sabe la respuesta a la pregunta de un periodista?"
- input_choice_list:
A: "Compre nombres de dominio que puedan ser utilizados por grupos de oposici\xF3\
n."
B: "Publique comentarios an\xF3nimos en blogs para combatir esta informaci\xF3\
n."
C: "Prepare un comunicado de prensa que desacredite la informaci\xF3n inexacta."
D: "Realizar cambios en las pol\xEDticas para abordar las quejas destacadas\
\ en estos sitios."
input_correct_responses:
- D
input_question: "En la gesti\xF3n de problemas, \xBFcu\xE1l es el enfoque m\xE1\
s proactivo para abordar la informaci\xF3n negativa o enga\xF1osa publicada\
\ en l\xEDnea sobre su organizaci\xF3n?"
- input_choice_list:
A: Hubo una respuesta coordinada de los medios.
B: Se comunicaron mensajes consistentes.
C: "Las cr\xEDticas fueron tomadas como ataques a la Iglesia cat\xF3lica."
D: Se mantuvo la credibilidad del Vaticano.
input_correct_responses:
- C
input_question: "\xBFCu\xE1l de estas afirmaciones es cierta respecto del Vaticano\
\ en 2010, en el momento de las acusaciones de encubrimiento de abuso infantil?"
- input_choice_list:
A: Definiendo el programa
B: Planificando el programa
C: Tomar medidas e implementar ideas
D: "Evaluaci\xF3n del programa"
input_correct_responses:
- A
input_question: "\xBFEn qu\xE9 etapa del proceso de planificaci\xF3n se llevar\xED\
a a cabo un an\xE1lisis de la situaci\xF3n?"
- input_choice_list:
A: Paz verde
B: la ONU
C: Oxfam
D: Fondo Mundial para la Vida Silvestre
input_correct_responses:
- D
input_question: "\xBFLa Hora del Planeta fue una campa\xF1a lanzada por qu\xE9\
\ organizaci\xF3n?"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_public_relations
tag: mmlu_es_llama_social_sciences_tasks
task: mmlu_es_llama_public_relations
task_alias: public_relations
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "Competencia es otro t\xE9rmino para la diplomacia coercitiva, pero cubre\
\ un conjunto m\xE1s limitado de criterios; La compelencia cubre aquellas\
\ amenazas dirigidas a iniciar una acci\xF3n adversaria. Una amenaza de obligar\
\ a un Estado a ceder parte de su territorio contar\xEDa como diplomacia coercitiva,\
\ siempre y cuando esa amenaza inicie de manera proactiva una acci\xF3n antes\
\ de que se adopte una diplomacia reactiva."
B: "La diplomacia coercitiva constituye las amenazas de fuerza limitada para\
\ inducir el incentivo del adversario a cumplir con las demandas del coaccionador.\
\ Es una estrategia de influencia que tiene como objetivo obtener el cumplimiento:\
\ el uso de la fuerza para derrotar primero a un oponente no cuenta. Deja\
\ un elemento de elecci\xF3n con el objetivo de cumplir o continuar."
C: "La fuerza militar, o la amenaza de la fuerza militar, utiliza el miedo para\
\ lograr objetivos estrat\xE9gicos. La diplomacia coercitiva se diferencia\
\ de este enfoque porque no utiliza el miedo como herramienta para coaccionar\
\ a un adversario."
D: "La diplomacia coercitiva se emplea para utilizar la fuerza pero para limitar\
\ sus efectos en la comunidad internacional. La diplomacia coercitiva es una\
\ estrategia agresiva cuyo objetivo es lograr el cumplimiento mediante la\
\ derrota. No deja al objetivo un elemento de elecci\xF3n, ya sea forz\xE1\
ndolo a cumplir o involucrarse en un conflicto. Busca controlar imponiendo\
\ el cumplimiento eliminando cualquier oportunidad de negociaci\xF3n o concesi\xF3\
n."
input_correct_responses:
- B
input_question: "\xBFQu\xE9 distingue la diplomacia coercitiva de la fuerza militar?"
- input_choice_list:
A: "Los ni\xF1os soldados son v\xEDctimas de combates que necesitan reeducaci\xF3\
n y rehabilitaci\xF3n."
B: "Los ni\xF1os y sus madres no son sujetos activos en la guerra y es mejor\
\ considerarlos como sujetos en la esfera privada."
C: "Los ni\xF1os suelen ser espectadores inocentes de la guerra y es mejor utilizarlos\
\ como s\xEDmbolos de la paz."
D: "Los ni\xF1os tienen una subjetividad pol\xEDtica que se pasa por alto cuando\
\ se les considera v\xEDctimas pasivas de la guerra."
input_correct_responses:
- D
input_question: "\xBFCu\xE1l de los siguientes es el mejor lente a trav\xE9s del\
\ cual investigar el papel de los ni\xF1os soldados?"
- input_choice_list:
A: "Como una amenaza existencial que requiere una acci\xF3n inmediata y extraordinaria,\
\ representando una amenaza a la supervivencia del Estado o a la seguridad\
\ de la sociedad."
B: "Como que requiere una acci\xF3n inmediata y extraordinaria por parte del\
\ Estado, amenazando la supervivencia de un objeto de referencia y, por lo\
\ tanto, justificando el uso de medidas que normalmente no se emplean en el\
\ \xE1mbito pol\xEDtico."
C: Como una amenaza urgente a la supervivencia del objeto de referencia, tan
grave que legitima el empleo de acciones extraordinarias como respuesta.
D: Como una amenaza urgente a la supervivencia de la audiencia que requiere
medidas extraordinarias o de emergencia.
input_correct_responses:
- C
input_question: "Para convertirse en titulizado, \xBFde cu\xE1l de estas maneras\
\ se debe presentar una amenaza?"
- input_choice_list:
A: Existen divisiones tan amplias dentro del marco de la seguridad humana con
respecto a la naturaleza de las amenazas y los objetos de referencia que no
se pueden establecer comparaciones ampliamente aplicables entre los enfoques
centrados en el Estado y la seguridad humana.
B: "Al adoptar el marco de la seguridad humana, las limitaciones del enfoque\
\ realista estatista se vuelven evidentes. Mientras que la seguridad humana\
\ define el objeto de referencia como la persona o poblaci\xF3n, los enfoques\
\ estadoc\xE9ntricos priorizan la seguridad del Estado, restando prioridad\
\ a la b\xFAsqueda de la seguridad humana."
C: "El enfoque de seguridad centrado en el Estado es una facci\xF3n de la seguridad\
\ humana, generalmente definida dentro de la escuela amplia de seguridad humana.\
\ Al estar centrado en el Estado, este enfoque prioriza al individuo como\
\ objeto de referencia en los estudios de seguridad."
D: "Tanto el enfoque de seguridad centrado en el Estado como el centrado en\
\ el ser humano son mutuamente excluyentes y ofrecen un marco anal\xEDtico\
\ suficiente para comprender el sistema de seguridad internacional. Por lo\
\ tanto, el papel de los analistas de seguridad es determinar cu\xE1l de estos\
\ conceptos sustanciales es correcto y cu\xE1l debe descartarse."
input_correct_responses:
- B
input_question: "\xBFC\xF3mo podemos describir mejor la relaci\xF3n entre el enfoque\
\ estadoc\xE9ntrico y el concepto de seguridad humana?"
- input_choice_list:
A: "La competencia entre naciones m\xE1s grandes ha resultado en que algunos\
\ pa\xEDses apoyen activamente a grupos terroristas para socavar la fuerza\
\ de estados rivales. Las redes terroristas son clubes de patrocinio extendido\
\ mantenidos y pagados por sus estados donantes y son conceptualizados como\
\ actores estatales, a los que se debe enfrentar utilizando la fuerza militar."
B: "La globalizaci\xF3n ha permitido la internacionalizaci\xF3n de las actividades\
\ terroristas al abrir su espacio operativo, aunque la coordinaci\xF3n todav\xED\
a se gestiona desde una base geogr\xE1fica. Esto sugiere que los grupos terroristas\
\ est\xE1n estructurados a nivel nacional, lo que significa que el terrorismo\
\ no puede considerarse en t\xE9rminos de una guerra que debe ser derrotada\
\ militarmente sin tener implicaciones graves para la poblaci\xF3n ind\xED\
gena."
C: "El terrorismo puede verse como un problema que debe resolverse por medios\
\ militares (guerra contra el terrorismo), mediante t\xE9cnicas policiales\
\ normales (terrorismo como delito) o como un problema m\xE9dico con causas\
\ y s\xEDntomas subyacentes (terrorismo como enfermedad)."
D: "El terrorismo es visto como un problema criminal. La criminalizaci\xF3n\
\ del terrorismo tiene dos implicaciones importantes. En primer lugar, sugiere\
\ que el terrorismo puede ser erradicado (los terroristas pueden ser capturados\
\ y juzgados mediante procedimientos judiciales normales, eliminando as\xED\
\ la amenaza de la sociedad) y, en segundo lugar, sugiere que se pueden aplicar\
\ t\xE9cnicas criminales preventivas para impedir su desarrollo."
input_correct_responses:
- C
input_question: "\xBFCu\xE1les son los marcos de an\xE1lisis dentro de los cuales\
\ se ha considerado el terrorismo (a partir de 2020)?"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_security_studies
tag: mmlu_es_llama_social_sciences_tasks
task: mmlu_es_llama_security_studies
task_alias: security_studies
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "Atenci\xF3n sanitaria y educaci\xF3n gratuitas para todos."
B: "un salario m\xEDnimo"
C: pleno empleo
D: bienestar universal
input_correct_responses:
- B
input_question: "\xBFCu\xE1l de los siguientes no pretend\xEDa proporcionar el\
\ Estado de bienestar de posguerra de 1948?"
- input_choice_list:
A: un paseo de feria
B: un circo
C: un teatro de marionetas
D: un ballet
input_correct_responses:
- C
input_question: "\xBFQu\xE9 describe Berger (1963) como met\xE1fora de la realidad\
\ social?"
- input_choice_list:
A: "La creciente burocracia del Estado ha hecho de la religi\xF3n s\xF3lo una\
\ parte marginal de nuestras vidas."
B: "A pesar del debilitamiento de la autoridad tradicional, nuestra vida cotidiana\
\ y nuestro "sentido com\xFAn" siguen moldeados por creencias y\
\ valores religiosos."
C: "La participaci\xF3n religiosa en el culto colectivo puede haber disminuido,\
\ pero la gente todav\xEDa practica su fe en privado."
D: "Es mucho m\xE1s probable que las personas hablen de sus creencias religiosas\
\ en entornos p\xFAblicos e informales."
input_correct_responses:
- B
input_question: "El cambio de la "religi\xF3n civil" a la "religi\xF3\
n com\xFAn" significa que:"
- input_choice_list:
A: La tendencia de la clase trabajadora a no realizar sus propios intereses.
B: "Una ideolog\xEDa dominante que legitima el poder econ\xF3mico, pol\xEDtico\
\ y cultural."
C: "una forma de conciencia dual basada en la ideolog\xEDa y las experiencias\
\ cotidianas"
D: una forma de pago dada por el topiario pendiente
input_correct_responses:
- B
input_question: "El t\xE9rmino "hegemon\xEDa" se refiere a:"
- input_choice_list:
A: "La mayor\xEDa de las huelgas pasan desapercibidas para los empleadores y\
\ los medios de comunicaci\xF3n."
B: "No todos los conflictos laborales ser\xE1n informados por el empleador."
C: "La definici\xF3n de huelga excluye aquellas que involucran a menos de diez\
\ trabajadores o duran menos de un d\xEDa."
D: "Es dif\xEDcil comparar huelgas que se midieron de diferentes maneras."
input_correct_responses:
- A
input_question: "\xBFCu\xE1l de los siguientes no es un problema asociado con\
\ las estad\xEDsticas oficiales sobre huelgas?"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_sociology
tag: mmlu_es_llama_social_sciences_tasks
task: mmlu_es_llama_sociology
task_alias: sociology
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "Da\xF1\xF3 el apoyo al modelo estadounidense de econom\xEDa pol\xEDtica\
\ y capitalismo."
B: "Cre\xF3 ira contra Estados Unidos por exagerar la crisis."
C: "Aument\xF3 el apoyo al liderazgo global estadounidense bajo el presidente\
\ Obama."
D: "Redujo el uso global del d\xF3lar estadounidense."
input_correct_responses:
- A
input_question: "\xBFC\xF3mo afect\xF3 la crisis financiera de 2008 a la reputaci\xF3\
n internacional de Estados Unidos?"
- input_choice_list:
A: "Globaliz\xF3 la contenci\xF3n."
B: "Militariz\xF3 la contenci\xF3n."
C: "Pidi\xF3 el desarrollo de la bomba de hidr\xF3geno."
D: Todo lo anterior
input_correct_responses:
- D
input_question: "\xBFC\xF3mo cambi\xF3 el NSC-68 la estrategia estadounidense?"
- input_choice_list:
A: "pol\xEDtica terrorista."
B: "pol\xEDtica econ\xF3mica."
C: "la pol\xEDtica exterior."
D: "pol\xEDtica internacional."
input_correct_responses:
- C
input_question: "El \xE1mbito de las decisiones pol\xEDticas relacionadas principalmente\
\ con las relaciones entre Estados Unidos y el resto del mundo se conoce como"
- input_choice_list:
A: "Los realistas defensivos ponen mayor \xE9nfasis en el papel de las instituciones\
\ internacionales"
B: "Los realistas defensivos ponen menos \xE9nfasis en los factores geogr\xE1\
ficos"
C: "Los realistas ofensivos dan m\xE1s prioridad al inter\xE9s nacional que\
\ los realistas defensivos."
D: Los realistas defensivos creen que los estados maximizan la seguridad, mientras
que los realistas ofensivos creen que los estados maximizan el poder.
input_correct_responses:
- D
input_question: "\xBFEn qu\xE9 se diferencian el realismo defensivo y el realismo\
\ ofensivo en su explicaci\xF3n del comportamiento del Estado?"
- input_choice_list:
A: "La globalizaci\xF3n hab\xEDa hecho demasiado ricos a hombres como \xE9l"
B: "La globalizaci\xF3n solo benefici\xF3 a ciertos estados americanos, como\
\ Nueva York"
C: "Las elites liberales hab\xEDan alentado la globalizaci\xF3n, mientras que\
\ los "estadounidenses comunes y corrientes" perdieron empleos a\
\ causa de ella."
D: "La globalizaci\xF3n foment\xF3 guerras comerciales da\xF1inas"
input_correct_responses:
- C
input_question: "\xBFC\xF3mo atac\xF3 Donald Trump la globalizaci\xF3n en la campa\xF1\
a de 2016?"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_us_foreign_policy
tag: mmlu_es_llama_social_sciences_tasks
task: mmlu_es_llama_us_foreign_policy
task_alias: us_foreign_policy
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "Porque no tienen \xE1cido nucleico."
B: Requieren un virus ayudante
C: "S\xF3lo se replican en c\xE9lulas en divisi\xF3n."
D: "Puede integrarse en los cromosomas del hu\xE9sped."
input_correct_responses:
- A
input_question: "\xBFPor qu\xE9 los parvovirus son un par\xE1sito de gran impacto?"
- input_choice_list:
A: "Los virus fr\xE1giles a menudo se visualizan con ARN arrojado desde el interior"
B: Virus alargados
C: "Virus icosa\xE9dricos con envoltura."
D: Virus muy grandes
input_correct_responses:
- A
input_question: "\xBFCu\xE1l de las siguientes es una caracter\xEDstica morfol\xF3\
gica de los paramixovirus?"
- input_choice_list:
A: "Recopilaci\xF3n de datos"
B: "Establecimiento de un dep\xF3sito de muestras biol\xF3gicas"
C: "Inter\xE9s de los participantes"
D: "Administraci\xF3n del cuestionario por parte del personal."
input_correct_responses:
- B
input_question: "Un factor clave que facilit\xF3 la aplicaci\xF3n de estudios\
\ de casos y controles anidados del MACS fue:"
- input_choice_list:
A: Cambio de comportamiento
B: Cobertura completa
C: "Uso eficaz de la teor\xEDa del comportamiento."
D: Cambio de comportamiento sostenido
input_correct_responses:
- D
input_question: "El objetivo m\xE1s importante de una intervenci\xF3n conductual\
\ es:"
- input_choice_list:
A: Individuos infectados por VIH seroprevalentes
B: Seronegativos
C: Seroconvertidores
D: Seronegativos de alto riesgo
input_correct_responses:
- C
input_question: "El tiempo medio de supervivencia hasta el SIDA y la muerte se\
\ estableci\xF3 de la siguiente manera:"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_virology
tag: mmlu_es_llama_other_tasks
task: mmlu_es_llama_virology
task_alias: virology
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: El arcoiris
B: "Circuncisi\xF3n"
C: Un hijo
D: "Bar mitzv\xE1"
input_correct_responses:
- B
input_question: "\xBFCu\xE1l es la se\xF1al del pacto para los varones jud\xED\
os?"
- input_choice_list:
A: El Dharma
B: La sangha
C: El Buda
D: El Bodhisattva
input_correct_responses:
- A
input_question: "\xBFCu\xE1l es la segunda joya del budismo?"
- input_choice_list:
A: shang
B: zhou
C: han
D: Xia
input_correct_responses:
- B
input_question: "\xBFEn qu\xE9 dinast\xEDa se desarroll\xF3 el "Mandato del\
\ Cielo" para legitimar a los nuevos gobernantes?"
- input_choice_list:
A: Honen
B: Tanaka
C: Tokugawa
D: Meiji
input_correct_responses:
- D
input_question: "\xBFQu\xE9 gobierno japon\xE9s promovi\xF3 una especie de culto\
\ nacional basado en el emperador y sus asociaciones con los kami?"
- input_choice_list:
A: Textos rituales
B: "Textos filos\xF3ficos"
C: Himnos
D: Historias de origen
input_correct_responses:
- B
input_question: "\xBFC\xF3mo se pueden caracterizar los Upanishads?"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_world_religions
tag: mmlu_es_llama_humanities_tasks
task: mmlu_es_llama_world_religions
task_alias: world_religions
from functools import partial
import datasets
def process_docs(dataset: datasets.Dataset, subtask) -> datasets.Dataset:
return dataset.filter(
lambda example: example["subtask_name"] == f"mmlu_es_chat.{subtask}"
)
process_docs_jurisprudence = partial(process_docs, subtask="jurisprudence")
process_docs_miscellaneous = partial(process_docs, subtask="miscellaneous")
process_docs_business_ethics = partial(process_docs, subtask="business_ethics")
process_docs_professional_accounting = partial(
process_docs, subtask="professional_accounting"
)
process_docs_abstract_algebra = partial(process_docs, subtask="abstract_algebra")
process_docs_high_school_world_history = partial(
process_docs, subtask="high_school_world_history"
)
process_docs_elementary_mathematics = partial(
process_docs, subtask="elementary_mathematics"
)
process_docs_electrical_engineering = partial(
process_docs, subtask="electrical_engineering"
)
process_docs_us_foreign_policy = partial(process_docs, subtask="us_foreign_policy")
process_docs_high_school_geography = partial(
process_docs, subtask="high_school_geography"
)
process_docs_anatomy = partial(process_docs, subtask="anatomy")
process_docs_global_facts = partial(process_docs, subtask="global_facts")
process_docs_conceptual_physics = partial(process_docs, subtask="conceptual_physics")
process_docs_astronomy = partial(process_docs, subtask="astronomy")
process_docs_nutrition = partial(process_docs, subtask="nutrition")
process_docs_computer_security = partial(process_docs, subtask="computer_security")
process_docs_high_school_mathematics = partial(
process_docs, subtask="high_school_mathematics"
)
process_docs_college_computer_science = partial(
process_docs, subtask="college_computer_science"
)
process_docs_public_relations = partial(process_docs, subtask="public_relations")
process_docs_world_religions = partial(process_docs, subtask="world_religions")
process_docs_high_school_us_history = partial(
process_docs, subtask="high_school_us_history"
)
process_docs_logical_fallacies = partial(process_docs, subtask="logical_fallacies")
process_docs_professional_psychology = partial(
process_docs, subtask="professional_psychology"
)
process_docs_philosophy = partial(process_docs, subtask="philosophy")
process_docs_college_mathematics = partial(process_docs, subtask="college_mathematics")
process_docs_high_school_chemistry = partial(
process_docs, subtask="high_school_chemistry"
)
process_docs_moral_scenarios = partial(process_docs, subtask="moral_scenarios")
process_docs_security_studies = partial(process_docs, subtask="security_studies")
process_docs_formal_logic = partial(process_docs, subtask="formal_logic")
process_docs_college_medicine = partial(process_docs, subtask="college_medicine")
process_docs_professional_medicine = partial(
process_docs, subtask="professional_medicine"
)
process_docs_high_school_macroeconomics = partial(
process_docs, subtask="high_school_macroeconomics"
)
process_docs_college_chemistry = partial(process_docs, subtask="college_chemistry")
process_docs_moral_disputes = partial(process_docs, subtask="moral_disputes")
process_docs_high_school_microeconomics = partial(
process_docs, subtask="high_school_microeconomics"
)
process_docs_econometrics = partial(process_docs, subtask="econometrics")
process_docs_high_school_psychology = partial(
process_docs, subtask="high_school_psychology"
)
process_docs_high_school_computer_science = partial(
process_docs, subtask="high_school_computer_science"
)
process_docs_human_sexuality = partial(process_docs, subtask="human_sexuality")
process_docs_college_physics = partial(process_docs, subtask="college_physics")
process_docs_marketing = partial(process_docs, subtask="marketing")
process_docs_virology = partial(process_docs, subtask="virology")
process_docs_high_school_statistics = partial(
process_docs, subtask="high_school_statistics"
)
process_docs_professional_law = partial(process_docs, subtask="professional_law")
process_docs_college_biology = partial(process_docs, subtask="college_biology")
process_docs_sociology = partial(process_docs, subtask="sociology")
process_docs_high_school_european_history = partial(
process_docs, subtask="high_school_european_history"
)
process_docs_medical_genetics = partial(process_docs, subtask="medical_genetics")
process_docs_international_law = partial(process_docs, subtask="international_law")
process_docs_prehistory = partial(process_docs, subtask="prehistory")
process_docs_human_aging = partial(process_docs, subtask="human_aging")
process_docs_high_school_government_and_politics = partial(
process_docs, subtask="high_school_government_and_politics"
)
process_docs_machine_learning = partial(process_docs, subtask="machine_learning")
process_docs_high_school_physics = partial(process_docs, subtask="high_school_physics")
process_docs_clinical_knowledge = partial(process_docs, subtask="clinical_knowledge")
process_docs_high_school_biology = partial(process_docs, subtask="high_school_biology")
process_docs_management = partial(process_docs, subtask="management")
dataset_path: meta-llama/Llama-3.1-8B-Instruct-evals
dataset_name: Llama-3.1-8B-Instruct-evals__multilingual_mmlu_fr__details
output_type: generate_until
test_split: latest
doc_to_text: "Given the following question and four candidate answers (A, B, C and D), choose the best answer.\nQuestion: {{input_question.strip()}}\nA. {{input_choice_list.A}}\nB. {{input_choice_list.B}}\nC. {{input_choice_list.C}}\nD. {{input_choice_list.D}}\nYour response should end with \"The best answer is [the_answer_letter]\" where the [the_answer_letter] is one of A, B, C or D."
gen_prefix: "The best answer is"
doc_to_target: "{{input_correct_responses[0]}}."
num_fewshot: 5
metric_list:
- metric: exact_match
aggregation: mean
higher_is_better: true
ignore_case: true
ignore_punctuation: true
regexes_to_ignore:
- "\\$"
- "\\.$"
generation_kwargs:
do_sample: false
temperature: 0
until:
- "."
max_gen_toks: 10
filter_list:
- name: strict_match
filter:
- function: remove_whitespace
- function: take_first
metadata:
version: 1.0
dataset_kwargs:
trust_remote_code: true
group: mmlu_fr_llama_humanities
group_alias: humanities
task:
- mmlu_fr_llama_humanities_tasks
aggregate_metric_list:
- metric: exact_match
aggregation: mean
weight_by_size: True
filter_list: [strict_match]
metadata:
version: 1
group: mmlu_fr_llama
task:
- mmlu_fr_llama_stem
- mmlu_fr_llama_other
- mmlu_fr_llama_social_sciences
- mmlu_fr_llama_humanities
aggregate_metric_list:
- metric: exact_match
aggregation: mean
weight_by_size: True
filter_list: [strict_match]
metadata:
version: 1
group: mmlu_fr_llama_other
group_alias: other
task:
- mmlu_fr_llama_other_tasks
aggregate_metric_list:
- metric: exact_match
aggregation: mean
weight_by_size: True
filter_list: [strict_match]
metadata:
version: 1
group: mmlu_fr_llama_social_sciences
group_alias: social sciences
task:
- mmlu_fr_llama_social_sciences_tasks
aggregate_metric_list:
- metric: exact_match
aggregation: mean
weight_by_size: True
filter_list: [strict_match]
metadata:
version: 1
group: mmlu_fr_llama_stem
group_alias: stem
task:
- mmlu_fr_llama_stem_tasks
aggregate_metric_list:
- metric: exact_match
aggregation: mean
weight_by_size: True
filter_list: [strict_match]
metadata:
version: 1
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: '0'
B: '1'
C: '2'
D: '3'
input_correct_responses:
- B
input_question: Trouver tout c dans Z_3 tel que Z_3[x]/(x^2 + c) soit un champ.
- input_choice_list:
A: Vrai vrai
B: Faux, faux
C: Vrai faux
D: Faux vrai
input_correct_responses:
- B
input_question: "D\xE9claration 1 | Si aH est un \xE9l\xE9ment d'un groupe\
\ de facteurs, alors |aH| divise |a|. D\xE9claration 2 | Si H et K sont des\
\ sous-groupes de G alors HK est un sous-groupe de G."
- input_choice_list:
A: Vrai vrai
B: Faux, faux
C: Vrai faux
D: Faux vrai
input_correct_responses:
- C
input_question: "D\xE9claration 1 | Chaque \xE9l\xE9ment d'un groupe g\xE9\
n\xE8re un sous-groupe cyclique du groupe. D\xE9claration 2 | Le groupe sym\xE9\
trique S_10 a 10 \xE9l\xE9ments."
- input_choice_list:
A: Vrai vrai
B: Faux, faux
C: Vrai faux
D: Faux vrai
input_correct_responses:
- A
input_question: "D\xE9claration 1 | Chaque fonction d'un ensemble fini sur\
\ elle-m\xEAme doit \xEAtre un \xE0 un. D\xE9claration 2 | Tout sous-groupe\
\ d'un groupe ab\xE9lien est ab\xE9lien."
- input_choice_list:
A: '0'
B: '3'
C: '12'
D: '30'
input_correct_responses:
- A
input_question: "Trouver la caract\xE9ristique de l'anneau 2Z."
include: _continuation_template_yaml
process_docs: !function utils.process_docs_abstract_algebra
tag: mmlu_fr_llama_stem_tasks
task: mmlu_fr_llama_abstract_algebra
task_alias: abstract_algebra
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "Le premier arc pharyng\xE9"
B: "Les premier et deuxi\xE8me arcs pharyng\xE9s"
C: "Le deuxi\xE8me arc pharyng\xE9"
D: "Les deuxi\xE8me et troisi\xE8me arcs pharyng\xE9s"
input_correct_responses:
- D
input_question: "Quelle est l'origine embryologique de l'os hyo\xEFde\
\ ?"
- input_choice_list:
A: Le nerf supraorbitaire
B: Le nerf infraorbitaire
C: Le nerf mental
D: "Aucune de ces r\xE9ponses"
input_correct_responses:
- D
input_question: "Laquelle de ces branches du nerf trijumeau contient des processus\
\ moteurs somatiques\_?"
- input_choice_list:
A: n'ont pas d'innervation sensorielle.
B: "sont s\xE9par\xE9s par un espace de 2 mm."
C: "s'\xE9tendre dans le cou."
D: "sont compos\xE9s d'\xE9pith\xE9lium respiratoire."
input_correct_responses:
- C
input_question: "La pl\xE8vre"
- input_choice_list:
A: "supraclusion excessive des incisives lat\xE9rales sup\xE9rieures."
B: "overjet n\xE9gatif des incisives centrales sup\xE9rieures."
C: "overjet excessif des incisives lat\xE9rales sup\xE9rieures."
D: "overjet excessif des incisives centrales sup\xE9rieures."
input_correct_responses:
- C
input_question: Dans l'occlusion Classe II Div 2 d'Angle, il y a
- input_choice_list:
A: Abdominal
B: "Cr\xE2nien"
C: Pleural
D: Spinal
input_correct_responses:
- B
input_question: "Laquelle des cavit\xE9s suivantes est la cavit\xE9 corporelle\
\ qui contient la glande pituitaire\_?"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_anatomy
tag: mmlu_fr_llama_stem_tasks
task: mmlu_fr_llama_anatomy
task_alias: anatomy
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: Ce serait plus difficile car le camion est plus lourd sur Mars.
B: "Ce serait plus facile puisque le camion est plus l\xE9ger sur Mars."
C: "Ce serait plus difficile puisque le camion est plus l\xE9ger sur Mars."
D: "Ce serait pareil o\xF9 que vous soyez."
input_correct_responses:
- D
input_question: "Vous poussez un camion sur une route. Serait-il plus simple d'acc\xE9\
l\xE9rer ce camion sur Mars ? Pourquoi? (Supposons qu'il n'y a pas de\
\ frottement)"
- input_choice_list:
A: "La ceinture de Kuiper ; Les com\xE8tes \xE0 courte p\xE9riode ont tendance\
\ \xE0 se trouver dans le plan du syst\xE8me solaire, tout comme la ceinture\
\ de Kuiper."
B: "La ceinture de Kuiper ; les com\xE8tes \xE0 courte p\xE9riode ont tendance\
\ \xE0 provenir de directions al\xE9atoires indiquant une distribution sph\xE9\
rique des com\xE8tes appel\xE9e ceinture de Kuiper."
C: "La ceinture d'ast\xE9ro\xEFdes; les com\xE8tes \xE0 courte p\xE9riode\
\ ont des p\xE9riodes orbitales similaires \xE0 celles des ast\xE9ro\xEFdes\
\ comme Vesta et se trouvent dans le plan du syst\xE8me solaire, tout comme\
\ la ceinture d'ast\xE9ro\xEFdes."
D: "Le nuage d'Oort\_; les com\xE8tes \xE0 courte p\xE9riode ont tendance\
\ \xE0 se trouver dans le plan du syst\xE8me solaire, tout comme le nuage\
\ d'Oort."
input_correct_responses:
- A
input_question: "D'o\xF9 viennent la plupart des com\xE8tes \xE0 courte p\xE9\
riode et comment le savons-nous ?"
- input_choice_list:
A: 10000 fois plus
B: 100 fois plus
C: 1000 fois plus
D: 10 fois plus
input_correct_responses:
- A
input_question: "Disons que la pupille de votre \u0153il a un diam\xE8tre de 5\
\ mm et que vous avez un t\xE9lescope avec une ouverture de 50 cm. Combien de\
\ lumi\xE8re le t\xE9lescope peut-il recueillir de plus que votre \u0153il\_\
?"
- input_choice_list:
A: "Une plan\xE8te s'est form\xE9e ici mais elle a \xE9t\xE9 bris\xE9e par\
\ une collision catastrophique."
B: "Il n'y avait pas assez de mati\xE8re dans cette partie de la n\xE9buleuse\
\ solaire pour former une plan\xE8te."
C: "Il y avait trop de mati\xE8re rocheuse pour former une plan\xE8te tellurique\
\ mais pas assez de mati\xE8re gazeuse pour former une plan\xE8te jovienne."
D: "La r\xE9sonance avec Jupiter a emp\xEAch\xE9 la mati\xE8re de se rassembler\
\ pour former une plan\xE8te."
input_correct_responses:
- D
input_question: "Pourquoi n'y a-t-il pas de plan\xE8te o\xF9 se trouve la\
\ ceinture d'ast\xE9ro\xEFdes ?"
- input_choice_list:
A: "Parce que la surface est recouverte de min\xE9raux fortement oxyd\xE9s (\xAB\
\ rouill\xE9s \xBB)."
B: "Parce que l'atmosph\xE8re diffuse plus de lumi\xE8re \xE0 des longueurs\
\ d'onde plus bleues transmettant principalement de la lumi\xE8re rouge."
C: "Parce que Mars est recouvert d'anciennes coul\xE9es de lave de couleur\
\ rouge."
D: "Parce que l'eau qui coule \xE0 la surface de Mars a modifi\xE9 les min\xE9\
raux de surface il y a plusieurs milliards d'ann\xE9es."
input_correct_responses:
- A
input_question: Pourquoi Mars est-elle rouge ?
include: _continuation_template_yaml
process_docs: !function utils.process_docs_astronomy
tag: mmlu_fr_llama_stem_tasks
task: mmlu_fr_llama_astronomy
task_alias: astronomy
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "Externalit\xE9s, Pouvoir, Ind\xE9pendance"
B: "Publicit\xE9, Ressources non substantielles, D\xE9pendance mutuelle"
C: "Publicit\xE9, Pouvoir, Ind\xE9pendance"
D: "Externalit\xE9s, Pouvoir, D\xE9pendance mutuelle"
input_correct_responses:
- D
input_question: "Au-del\xE0 de l'analyse de rentabilisation pour s'engager\
\ dans la RSE, il existe un certain nombre d'arguments moraux concernant\_\
: le _______ n\xE9gatif, le _______ que les entreprises poss\xE8dent et le ________\
\ des entreprises et de la soci\xE9t\xE9."
- input_choice_list:
A: "Responsabilit\xE9 sociale des entreprises"
B: "Gestion de l'\xE9thique des affaires"
C: "Durabilit\xE9"
D: Gestion de l'environnement
input_correct_responses:
- B
input_question: "_______ est la tentative directe de g\xE9rer de mani\xE8re formelle\
\ ou informelle des questions ou des probl\xE8mes \xE9thiques, par le biais\
\ de politiques, de pratiques et de programmes sp\xE9cifiques."
- input_choice_list:
A: "\xC0 l'ext\xE9rieur, limit\xE9, ind\xE9pendant"
B: "\xC0 l'int\xE9rieur, limit\xE9, par intermittence"
C: "Dehors, Illimit\xE9, Par intermittence"
D: "Int\xE9rieur, Illimit\xE9, Ind\xE9pendant"
input_correct_responses:
- A
input_question: "Pour garantir l'ind\xE9pendance des membres non ex\xE9cutifs\
\ du conseil d'administration, plusieurs mesures peuvent \xEAtre prises,\
\ parmi lesquelles des non-ex\xE9cutifs issus de _______ de la soci\xE9t\xE9\
, nomm\xE9s pour une dur\xE9e de _________ et nomm\xE9s _________."
- input_choice_list:
A: Action directe non violente, Action directe violente, Action indirecte, Boycott
B: Action indirecte, Action instrumentale, Action directe non violente, Campagne
d'information
C: Action indirecte, Action directe violente, Action directe non violente Boycott
D: Action directe non violente, Action instrumentale, Action indirecte, Campagne
d'information
input_correct_responses:
- C
input_question: "Trois tactiques contrast\xE9es que les OSC peuvent utiliser pour\
\ atteindre leurs objectifs sont ________ qui implique g\xE9n\xE9ralement la\
\ recherche et la communication, ________, qui peut impliquer d'attaquer\
\ physiquement les op\xE9rations d'une entreprise ou ________, impliquant\
\ souvent une certaine forme de _______."
- input_choice_list:
A: Buycotts, Boycotts, Technologie Blockchain, Dons caritatifs
B: "Buycotts, Boycotts, Technologie num\xE9rique, Augmentation des ventes"
C: Boycotts, Buyalls, Technologie Blockchain, Dons caritatifs
D: "Boycotts, Buycotts, Technologie num\xE9rique, Augmentation des ventes"
input_correct_responses:
- D
input_question: "Contrairement aux _______, les _______ visent \xE0 r\xE9compenser\
\ les comportements favorables des entreprises. Le succ\xE8s de ces campagnes\
\ a \xE9t\xE9 renforc\xE9 par l'utilisation de ___________, qui permet aux\
\ campagnes d'aider l'entreprise \xE0 atteindre _________ ."
include: _continuation_template_yaml
process_docs: !function utils.process_docs_business_ethics
tag: mmlu_fr_llama_other_tasks
task: mmlu_fr_llama_business_ethics
task_alias: business_ethics
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: ATP.
B: ADP.
C: "phosphocr\xE9atine."
D: la phosphorylation oxydative.
input_correct_responses:
- A
input_question: "L'\xE9nergie pour toutes les formes de contraction musculaire\
\ est fournie par :"
- input_choice_list:
A: "Les cath\xE9ters masculins et f\xE9minins sont de couleurs diff\xE9rentes."
B: "Les cath\xE9ters masculins sont plus longs que les cath\xE9ters f\xE9minins."
C: "Les cath\xE9ters masculins sont plus gros que les cath\xE9ters f\xE9minins."
D: "Les cath\xE9ters f\xE9minins sont plus longs que les cath\xE9ters masculins."
input_correct_responses:
- B
input_question: "Quelle est la diff\xE9rence entre un cath\xE9ter masculin et\
\ un cath\xE9ter f\xE9minin ?"
- input_choice_list:
A: "L'abduction du pouce est fournie par la racine vert\xE9brale T2"
B: "L'opposition du pouce par opponens policis est fournie par la racine\
\ vert\xE9brale T1"
C: "L'adduction des doigts est assur\xE9e par le nerf m\xE9dian"
D: "L'abduction des doigts est m\xE9di\xE9e par les interosseux palmaires"
input_correct_responses:
- B
input_question: "Dans l'\xE9valuation de la fonction de la main, laquelle\
\ des affirmations suivantes est vraie\_?"
- input_choice_list:
A: '4'
B: '3'
C: '2'
D: '1'
input_correct_responses:
- C
input_question: "Combien de tentatives faut-il faire pour canuler un patient avant\
\ de passer le relais \xE0 un coll\xE8gue senior, selon les connaissances m\xE9\
dicales de 2020 ?"
- input_choice_list:
A: "glycog\xE8ne en glucose-1-phosphate."
B: "glycog\xE8ne ou glucose en fructose."
C: "glycog\xE8ne ou glucose en pyruvate ou lactate."
D: "glycog\xE8ne ou glucose en pyruvate ou ac\xE9tyl CoA."
input_correct_responses:
- C
input_question: "La glycolyse est le nom donn\xE9 \xE0 la voie de conversion de\
\ :"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_clinical_knowledge
tag: mmlu_fr_llama_other_tasks
task: mmlu_fr_llama_clinical_knowledge
task_alias: clinical_knowledge
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "Ils poss\xE8dent un exosquelette compos\xE9 principalement de peptidoglycane."
B: "Ils poss\xE8dent un syst\xE8me circulatoire ouvert avec un c\u0153ur dorsal."
C: Ils sont membres d'un phylum biologiquement infructueux incapable d'exploiter
divers habitats et sources de nutrition.
D: "Ils n'ont pas d'appendices appari\xE9s et articul\xE9s."
input_correct_responses:
- B
input_question: "Lequel des \xE9nonc\xE9s suivants repr\xE9sente une d\xE9claration\
\ exacte concernant les arthropodes\_?"
- input_choice_list:
A: 1/400
B: 19/400
C: 20/400
D: 38/400
input_correct_responses:
- D
input_question: "Dans une population donn\xE9e, 1 personne sur 400 a un cancer\
\ caus\xE9 par un all\xE8le compl\xE8tement r\xE9cessif, b. En supposant que\
\ la population est en \xE9quilibre de Hardy-Weinberg, laquelle des propositions\
\ suivantes est la proportion attendue d'individus porteurs de l'all\xE8\
le b mais qui ne devraient pas d\xE9velopper le cancer\_?"
- input_choice_list:
A: "l'homme et l'oiseau sont des esp\xE8ces polyphyl\xE9tiques"
B: "l'\xE9volution d'un homme et d'un oiseau est convergente"
C: "l'humain et l'oiseau appartiennent \xE0 un clade"
D: "l'homme et l'oiseau d\xE9velopp\xE9s par analogie"
input_correct_responses:
- C
input_question: "La pr\xE9sence de structures homologues dans deux organismes\
\ diff\xE9rents, comme l'hum\xE9rus du membre ant\xE9rieur d'un humain\
\ et d'un oiseau, indique que"
- input_choice_list:
A: "une pompe pression-d\xE9bit d\xE9pendante de l'ATP"
B: un gradient de potentiel de pression d'eau
C: transpiration
D: diffusion apoplastique
input_correct_responses:
- B
input_question: "Selon le mod\xE8le pression-d\xE9bit du mouvement du contenu\
\ du phlo\xE8me, le mouvement du photosynthate de la source au puits est entra\xEE\
n\xE9 par"
- input_choice_list:
A: "T\xE9lom\xE8res"
B: "Centrom\xE8res"
C: "Nucl\xE9osomes"
D: "Splic\xE9osomes"
input_correct_responses:
- B
input_question: "Lequel des \xE9l\xE9ments suivants contient des s\xE9quences\
\ d'ADN n\xE9cessaires \xE0 la s\xE9gr\xE9gation des chromosomes lors de\
\ la mitose et de la m\xE9iose\_?"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_college_biology
tag: mmlu_fr_llama_stem_tasks
task: mmlu_fr_llama_college_biology
task_alias: college_biology
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment