Unverified Commit 1b357a68 authored by Alexandre Marques's avatar Alexandre Marques Committed by GitHub
Browse files

Multilingual MMLU for Llama instruct models (#2826)

* Multilingual MMLU

* Refactor process_docs function calls for clarity and consistency
parent 1afb190c
dataset_path: meta-llama/Llama-3.1-8B-Instruct-evals
dataset_name: Llama-3.1-8B-Instruct-evals__multilingual_mmlu_de__details
output_type: generate_until
test_split: latest
doc_to_text: "Given the following question and four candidate answers (A, B, C and D), choose the best answer.\nQuestion: {{input_question.strip()}}\nA. {{input_choice_list.A}}\nB. {{input_choice_list.B}}\nC. {{input_choice_list.C}}\nD. {{input_choice_list.D}}\nYour response should end with \"The best answer is [the_answer_letter]\" where the [the_answer_letter] is one of A, B, C or D."
gen_prefix: "The best answer is"
doc_to_target: "{{input_correct_responses[0]}}."
num_fewshot: 5
metric_list:
- metric: exact_match
aggregation: mean
higher_is_better: true
ignore_case: true
ignore_punctuation: true
regexes_to_ignore:
- "\\$"
- "\\.$"
generation_kwargs:
do_sample: false
temperature: 0
until:
- "."
max_gen_toks: 10
filter_list:
- name: strict_match
filter:
- function: remove_whitespace
- function: take_first
metadata:
version: 1.0
dataset_kwargs:
trust_remote_code: true
group: mmlu_de_llama_humanities
group_alias: humanities
task:
- mmlu_de_llama_humanities_tasks
aggregate_metric_list:
- metric: exact_match
aggregation: mean
weight_by_size: True
filter_list: [strict_match]
metadata:
version: 1
group: mmlu_de_llama
task:
- mmlu_de_llama_stem
- mmlu_de_llama_other
- mmlu_de_llama_social_sciences
- mmlu_de_llama_humanities
aggregate_metric_list:
- metric: exact_match
aggregation: mean
weight_by_size: True
filter_list: [strict_match]
metadata:
version: 1
group: mmlu_de_llama_other
group_alias: other
task:
- mmlu_de_llama_other_tasks
aggregate_metric_list:
- metric: exact_match
aggregation: mean
weight_by_size: True
filter_list: [strict_match]
metadata:
version: 1
group: mmlu_de_llama_social_sciences
group_alias: social sciences
task:
- mmlu_de_llama_social_sciences_tasks
aggregate_metric_list:
- metric: exact_match
aggregation: mean
weight_by_size: True
filter_list: [strict_match]
metadata:
version: 1
group: mmlu_de_llama_stem
group_alias: stem
task:
- mmlu_de_llama_stem_tasks
aggregate_metric_list:
- metric: exact_match
aggregation: mean
weight_by_size: True
filter_list: [strict_match]
metadata:
version: 1
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: '0'
B: '1'
C: '2'
D: '3'
input_correct_responses:
- B
input_question: "Finden Sie alle c in Z_3, sodass Z_3[x]/(x^2 + c) ein K\xF6rper\
\ ist."
- input_choice_list:
A: Wahr, wahr
B: Falsch, falsch
C: Wahr falsch
D: Falsch Richtig
input_correct_responses:
- B
input_question: Aussage 1 | Wenn aH Element einer Faktorgruppe ist, dann |aH|
teilt |a|. Aussage 2 | Wenn H und K Untergruppen von G sind, dann ist HK eine
Untergruppe von G.
- input_choice_list:
A: Wahr, wahr
B: Falsch, falsch
C: Wahr falsch
D: Falsch Richtig
input_correct_responses:
- C
input_question: Aussage 1 | Jedes Element einer Gruppe erzeugt eine zyklische
Untergruppe der Gruppe. Aussage 2 | Die symmetrische Gruppe S_10 hat 10 Elemente.
- input_choice_list:
A: Wahr, wahr
B: Falsch, falsch
C: Wahr falsch
D: Falsch Richtig
input_correct_responses:
- A
input_question: Aussage 1| Jede Funktion von einer endlichen Menge auf sich selbst
muss eins zu eins sein. Aussage 2 | Jede Untergruppe einer abelschen Gruppe
ist abelsch.
- input_choice_list:
A: '0'
B: '3'
C: '12'
D: '30'
input_correct_responses:
- A
input_question: Finden Sie die Charakteristik des Rings 2Z.
include: _continuation_template_yaml
process_docs: !function utils.process_docs_abstract_algebra
tag: mmlu_de_llama_stem_tasks
task: mmlu_de_llama_abstract_algebra
task_alias: abstract_algebra
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: Der erste Schlundbogen
B: Der erste und der zweite Schlundbogen
C: Der zweite Schlundbogen
D: Der zweite und dritte Schlundbogen
input_correct_responses:
- D
input_question: Was ist der embryologische Ursprung des Zungenbeins?
- input_choice_list:
A: Der Nervus supraorbitalis
B: Der Nervus infraorbitalis
C: Der mentale Nerv
D: Nichts des oben Genannten
input_correct_responses:
- D
input_question: "Welche dieser \xC4ste des Trigeminusnervs enthalten somatische\
\ motorische Prozesse?"
- input_choice_list:
A: haben keine sensorische Innervation.
B: sind durch einen Abstand von 2 mm voneinander getrennt.
C: bis in den Hals reichen.
D: bestehen aus respiratorischem Epithel.
input_correct_responses:
- C
input_question: Die Pleura
- input_choice_list:
A: "\xFCberm\xE4\xDFiger \xDCberbiss der oberen seitlichen Schneidez\xE4hne."
B: "negativer Overjet der oberen mittleren Schneidez\xE4hne."
C: "\xFCbersch\xFCssiger \xDCberbiss der oberen seitlichen Schneidez\xE4hne."
D: "\xFCbersch\xFCssiger Overjet der oberen mittleren Schneidez\xE4hne."
input_correct_responses:
- C
input_question: In Angles Klasse II Div 2 Okklusion gibt es
- input_choice_list:
A: Bauch
B: Kranial
C: Pleural
D: "Wirbels\xE4ule"
input_correct_responses:
- B
input_question: "Welche der folgenden K\xF6rperh\xF6hlen enth\xE4lt die Hypophyse?"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_anatomy
tag: mmlu_de_llama_stem_tasks
task: mmlu_de_llama_anatomy
task_alias: anatomy
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "Es w\xE4re schwieriger, da der Lastwagen auf dem Mars schwerer ist."
B: "Es w\xE4re einfacher, da der Lastwagen auf dem Mars leichter ist."
C: "Es w\xE4re schwieriger, da der Lastwagen auf dem Mars leichter ist."
D: "Es w\xE4re das gleiche, egal wo du bist."
input_correct_responses:
- D
input_question: "Sie schieben einen LKW auf einer Stra\xDFe. W\xE4re es einfacher,\
\ diesen Truck auf dem Mars zu beschleunigen? Warum? (Angenommen, es gibt keine\
\ Reibung)"
- input_choice_list:
A: "Der Kuiperg\xFCrtel; Kometen mit kurzer Periode befinden sich in der Regel\
\ in der Ebene des Sonnensystems, genau wie der Kuiperg\xFCrtel."
B: "Der Kuiperg\xFCrtel; Kurzperiodische Kometen neigen dazu, aus zuf\xE4lligen\
\ Richtungen zu kommen, was auf eine kugelf\xF6rmige Verteilung von Kometen\
\ hinweist, die als Kuiperg\xFCrtel bezeichnet wird."
C: "Der Asteroideng\xFCrtel; Kometen mit kurzer Periode haben \xE4hnliche Umlaufzeiten\
\ wie Asteroiden wie Vesta und befinden sich genau wie der Asteroideng\xFC\
rtel in der Ebene des Sonnensystems."
D: Die Oortsche Wolke; Kurzperiodische Kometen befinden sich in der Regel in
der Ebene des Sonnensystems, genau wie die Oortsche Wolke.
input_correct_responses:
- A
input_question: Woher kommen die meisten kurzperiodischen Kometen und woher wissen
wir das?
- input_choice_list:
A: 10000 mal mehr
B: 100 Mal mehr
C: 1000 mal mehr
D: 10 mal mehr
input_correct_responses:
- A
input_question: "Angenommen, die Pupille Ihres Auges hat einen Durchmesser von\
\ 5 mm und Sie haben ein Teleskop mit einer \xD6ffnung von 50 cm. Wie viel mehr\
\ Licht kann das Teleskop sammeln als Ihr Auge?"
- input_choice_list:
A: Hier hat sich einst ein Planet gebildet, der jedoch durch eine katastrophale
Kollision auseinandergebrochen ist.
B: In diesem Teil des Sonnennebels gab es nicht genug Material, um einen Planeten
zu bilden.
C: "Es gab zu viel felsiges Material, um einen terrestrischen Planeten zu bilden,\
\ aber nicht genug gasf\xF6rmiges Material, um einen jovianischen Planeten\
\ zu bilden."
D: Die Resonanz mit Jupiter verhinderte, dass sich Material zu einem Planeten
sammelte.
input_correct_responses:
- D
input_question: "Warum gibt es keinen Planeten, auf dem sich der Asteroideng\xFC\
rtel befindet?"
- input_choice_list:
A: "Denn die Oberfl\xE4che ist mit stark oxidierten ("verrosteten")\
\ Mineralien bedeckt."
B: "Weil die Atmosph\xE4re mehr Licht bei blauen Wellenl\xE4ngen streut und\
\ haupts\xE4chlich rotes Licht durchl\xE4sst."
C: "Weil der Mars mit uralten Lavastr\xF6men bedeckt ist, die eine rote Farbe\
\ haben."
D: "Weil flie\xDFendes Wasser auf der Marsoberfl\xE4che vor mehreren Milliarden\
\ Jahren die Oberfl\xE4chenmineralien ver\xE4nderte."
input_correct_responses:
- A
input_question: Warum ist der Mars rot?
include: _continuation_template_yaml
process_docs: !function utils.process_docs_astronomy
tag: mmlu_de_llama_stem_tasks
task: mmlu_de_llama_astronomy
task_alias: astronomy
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "Externalit\xE4ten, Macht, Unabh\xE4ngigkeit"
B: "Werbung, Unwesentliche Ressourcen, Gegenseitige Abh\xE4ngigkeit"
C: "\xD6ffentlichkeit, Macht, Unabh\xE4ngigkeit"
D: "Externalit\xE4ten, Macht, gegenseitige Abh\xE4ngigkeit"
input_correct_responses:
- D
input_question: "Neben dem Business Case f\xFCr CSR-Engagement gibt es eine Reihe\
\ moralischer Argumente in Bezug auf: negative _______, die _______, die Unternehmen\
\ besitzen, und die ________ von Wirtschaft und Gesellschaft."
- input_choice_list:
A: Soziale Verantwortung des Unternehmens
B: "Gesch\xE4ftsethisches Management"
C: Nachhaltigkeit
D: Umweltmanagement
input_correct_responses:
- B
input_question: "_______ ist der direkte Versuch, ethische Fragen oder Probleme\
\ formell oder informell durch spezifische Richtlinien, Praktiken und Programme\
\ zu bew\xE4ltigen."
- input_choice_list:
A: "Au\xDFerhalb, begrenzt, unabh\xE4ngig"
B: Innen, begrenzt, zeitweise
C: "Au\xDFerhalb, unbegrenzt, zeitweise"
D: "Drinnen, unbegrenzt, unabh\xE4ngig"
input_correct_responses:
- A
input_question: "Um die Unabh\xE4ngigkeit der nicht gesch\xE4ftsf\xFChrenden Vorstandsmitglieder\
\ zu gew\xE4hrleisten, gibt es eine Reihe von Ma\xDFnahmen, die ergriffen werden\
\ k\xF6nnen, darunter die Abberufung von nicht gesch\xE4ftsf\xFChrenden Mitgliedern\
\ aus _______ der Gesellschaft, die Ernennung f\xFCr einen Zeitraum von _________\
\ sowie die Ernennung von _________."
- input_choice_list:
A: "Gewaltfreie direkte Aktion, gewaltt\xE4tige direkte Aktion, indirekte Aktion,\
\ Boykott"
B: Indirekte Aktion, Instrumentelle Aktion, Gewaltfreie direkte Aktion, Informationskampagne
C: "Indirekte Aktion, gewaltt\xE4tige direkte Aktion, gewaltfreie direkte Aktion\
\ Boykott"
D: Gewaltfreie direkte Aktion, Instrumentelle Aktion, Indirekte Aktion, Informationskampagne
input_correct_responses:
- C
input_question: "Drei gegens\xE4tzliche Taktiken, die CSOs anwenden k\xF6nnen,\
\ um ihre Ziele zu erreichen, sind ________, was typischerweise Forschung und\
\ Kommunikation beinhaltet, ________, was physische Angriffe auf die Gesch\xE4\
ftst\xE4tigkeit eines Unternehmens beinhalten kann, oder ________, oft mit irgendeiner\
\ Form von _______."
- input_choice_list:
A: "Buycotts, Boycotts, Blockchain-Technologie, wohlt\xE4tige Spenden"
B: Buycotts, Boycotts, Digitaltechnik, Umsatzsteigerung
C: "Boykotte, Buyalls, Blockchain-Technologie, wohlt\xE4tige Spenden"
D: Boykotte, Buycotts, Digitaltechnik, Umsatzsteigerung
input_correct_responses:
- D
input_question: "Im Gegensatz zu _______ zielen _______ darauf ab, positives Verhalten\
\ von Unternehmen zu belohnen. Der Erfolg solcher Kampagnen wurde durch die\
\ Verwendung von ___________ gesteigert, die es Kampagnen erm\xF6glichen, das\
\ Unternehmen bei der Erreichung von _________ zu unterst\xFCtzen."
include: _continuation_template_yaml
process_docs: !function utils.process_docs_business_ethics
tag: mmlu_de_llama_other_tasks
task: mmlu_de_llama_business_ethics
task_alias: business_ethics
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: ATP.
B: ADP.
C: Phosphokreatin.
D: oxidative Phosphorylierung.
input_correct_responses:
- A
input_question: "Die Energie f\xFCr alle Formen der Muskelkontraktion wird bereitgestellt\
\ von:"
- input_choice_list:
A: "M\xE4nnliche und weibliche Katheter haben unterschiedliche Farben."
B: "M\xE4nnliche Katheter sind l\xE4nger als weibliche Katheter."
C: "M\xE4nnliche Katheter sind gr\xF6\xDFer als weibliche Katheter."
D: "Weibliche Katheter sind l\xE4nger als m\xE4nnliche Katheter."
input_correct_responses:
- B
input_question: "Was ist der Unterschied zwischen einem m\xE4nnlichen und einem\
\ weiblichen Katheter?"
- input_choice_list:
A: Die Abduktion des Daumens wird von der Spinalwurzel T2 versorgt
B: Die Opposition des Daumens durch opponens policis wird von der Spinalwurzel
T1 versorgt
C: Die Fingeradduktion wird vom Nervus medianus versorgt
D: Die Fingerabduktion wird durch das palmare Interossei vermittelt
input_correct_responses:
- B
input_question: Welche der folgenden Aussagen trifft bei der Beurteilung der Handfunktion
zu?
- input_choice_list:
A: '4'
B: '3'
C: '2'
D: '1'
input_correct_responses:
- C
input_question: "Wie viele Versuche sollten Sie unternehmen, um einen Patienten\
\ zu kan\xFClieren, bevor Sie den Job nach den medizinischen Erkenntnissen von\
\ 2020 an einen leitenden Kollegen \xFCbergeben?"
- input_choice_list:
A: Glykogen zu Glucose-1-Phosphat.
B: Glykogen oder Glucose zu Fructose.
C: Glykogen oder Glukose zu Pyruvat oder Laktat.
D: Glykogen oder Glucose zu Pyruvat oder Acetyl-CoA.
input_correct_responses:
- C
input_question: "Glykolyse ist der Name f\xFCr den Weg, der die Umwandlung von:"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_clinical_knowledge
tag: mmlu_de_llama_other_tasks
task: mmlu_de_llama_clinical_knowledge
task_alias: clinical_knowledge
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "Sie besitzen ein Exoskelett, das haupts\xE4chlich aus Peptidoglycan besteht."
B: "Sie besitzen ein offenes Kreislaufsystem mit einem R\xFCckenherz."
C: "Sie sind Mitglieder eines biologisch erfolglosen Stammes, der nicht in der\
\ Lage ist, verschiedene Lebensr\xE4ume und Nahrungsquellen zu nutzen."
D: "Ihnen fehlen gepaarte, gegliederte Anh\xE4ngsel."
input_correct_responses:
- B
input_question: Welche der folgenden Aussagen trifft auf Arthropoden zu?
- input_choice_list:
A: 1/400
B: 19/400
C: 20/400
D: 38/400
input_correct_responses:
- D
input_question: "In einer bestimmten Population hat 1 von 400 Menschen einen Krebs,\
\ der durch ein vollst\xE4ndig rezessives Allel verursacht wird, b. Unter der\
\ Annahme, dass sich die Population im Hardy-Weinberg-Gleichgewicht befindet,\
\ welcher der folgenden Werte ist der erwartete Anteil an Personen, die das\
\ b-Allel tragen, aber voraussichtlich nicht an Krebs erkranken?"
- input_choice_list:
A: Mensch und Vogel sind polyphyletische Arten
B: Die Evolution eines Menschen und eines Vogels ist konvergent
C: "der Mensch und der Vogel geh\xF6ren zu einer Gruppe"
D: der Mensch und der Vogel entwickelten sich analog
input_correct_responses:
- C
input_question: Das Vorhandensein homologer Strukturen in zwei verschiedenen Organismen,
wie dem Humerus in den Vorderbeinen eines Menschen und eines Vogels, weist darauf
hin
- input_choice_list:
A: "eine ATP-abh\xE4ngige Druckflusspumpe"
B: ein Wasserdruckpotentialgradient
C: Transpiration
D: apoplastische Diffusion
input_correct_responses:
- B
input_question: Nach dem Druck-Fluss-Modell der Bewegung von Phloeminhalten wird
die Photosynthesebewegung von der Quelle zur Senke angetrieben
- input_choice_list:
A: Telomere
B: Zentromere
C: Nukleosomen
D: Spliceosomen
input_correct_responses:
- B
input_question: "Welche der folgenden enthalten DNA-Sequenzen, die f\xFCr die\
\ Trennung von Chromosomen bei Mitose und Meiose erforderlich sind?"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_college_biology
tag: mmlu_de_llama_stem_tasks
task: mmlu_de_llama_college_biology
task_alias: college_biology
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "Die h\xE4ufigste Oxidationsstufe f\xFCr die Lanthanidenelemente ist +3."
B: Lanthanoidkomplexe haben oft hohe Koordinationszahlen (> 6).
C: "Alle Lanthanidenelemente reagieren mit w\xE4ssriger S\xE4ure, um Wasserstoff\
\ freizusetzen."
D: "Die Atomradien der Lanthanidenelemente nehmen \xFCber den Zeitraum von La\
\ nach Lu zu."
input_correct_responses:
- D
input_question: Welche der folgenden Aussagen zu den Lanthanoiden ist NICHT richtig?
- input_choice_list:
A: 1,0 ml
B: 10ml
C: 20 ml
D: 50 ml
input_correct_responses:
- C
input_question: "Eine Probe von 0,217 g HgO (Molmasse = 217 g) reagiert mit \xFC\
bersch\xFCssigen Jodidionen gem\xE4\xDF der oben gezeigten Reaktion. Die Titration\
\ der resultierenden L\xF6sung erfordert wie viele ml 0,10 M HCl, um den \xC4\
quivalenzpunkt zu erreichen?"
- input_choice_list:
A: '4'
B: '3'
C: '6'
D: '24'
input_correct_responses:
- A
input_question: "Sagen Sie die Anzahl der Linien im EPR-Spektrum einer L\xF6sung\
\ des 13C-markierten Methylradikals (13CH3\u2022) voraus, vorausgesetzt, die\
\ Linien \xFCberlappen sich nicht."
- input_choice_list:
A: "eine S\xE4ure"
B: eine Basis
C: ein Katalysator
D: ein Reduktionsmittel
input_correct_responses:
- D
input_question: "3 Cl\u2212(aq) + 4 CrO_4^2\u2212(aq) + 23 H+(aq) \u2192 3 HClO2(aq)\
\ + 4 Cr3+(aq) + 10 H2O(l). In der oben gezeigten Reaktion verh\xE4lt sich Cl\u2212\
(aq) wie"
- input_choice_list:
A: PbH4 < SnH4 < GeH4 < SiH4 < CH4
B: PbH4 < SnH4 < CH4 < GeH4 < SiH4
C: CH4 < SiH4 < GeH4 < SnH4 < PbH4
D: CH4 < PbH4 < GeH4 < SnH4 < SiH4
input_correct_responses:
- A
input_question: "Welche der folgenden Listet die Hydride der Elemente der Gruppe\
\ 14 in der Reihenfolge ihrer thermischen Stabilit\xE4t auf, von der niedrigsten\
\ zur h\xF6chsten?"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_college_chemistry
tag: mmlu_de_llama_stem_tasks
task: mmlu_de_llama_college_chemistry
task_alias: college_chemistry
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: a*(c + d)+ b(c + d)
B: a*(c + d)* + b(c + d)*
C: a*(c + d)+ b*(c + d)
D: (a + b)*c + (a + b)*d
input_correct_responses:
- D
input_question: "Welcher der folgenden regul\xE4ren Ausdr\xFCcke ist \xE4quivalent\
\ zu (beschreibt denselben Satz von Zeichenfolgen wie) (a* + b)*(c + d)?"
- input_choice_list:
A: '5'
B: '6'
C: '7'
D: '8'
input_correct_responses:
- B
input_question: "Eine bestimmte Pipeline-RISC-Maschine hat 8 Mehrzweckregister\
\ R0, R1, . . . , R7 und unterst\xFCtzt die folgenden Operationen. ADD Rs1,\
\ Rs2, Rd Addiere Rs1 zu Rs2 und setze die Summe in Rd MUL Rs1, Rs2, Rd Multipliziere\
\ Rs1 mit Rs2 und setze das Produkt in Rd Eine Operation dauert normalerweise\
\ einen Zyklus; Eine Operation dauert jedoch zwei Zyklen, wenn sie ein Ergebnis\
\ erzeugt, das von der unmittelbar folgenden Operation in einer Operationssequenz\
\ ben\xF6tigt wird. Betrachten Sie den Ausdruck AB + ABC + BC, wobei sich die\
\ Variablen A, B, C in den Registern R0, R1, R2 befinden. Wenn der Inhalt dieser\
\ drei Register nicht ge\xE4ndert werden darf, was ist die minimale Anzahl von\
\ Taktzyklen, die f\xFCr eine Operationssequenz erforderlich ist, die den Wert\
\ von AB + ABC + BC berechnet?"
- input_choice_list:
A: ich nur
B: Nur II
C: III nur
D: I, II und III
input_correct_responses:
- D
input_question: Das Singleton-Entwurfsmuster wird verwendet, um sicherzustellen,
dass nur eine einzige Instanz einer Klasse instanziiert werden darf. Welche
der folgenden Aussagen trifft (sind) auf dieses Entwurfsmuster zu? I. Die Singleton-Klasse
hat eine statische Factory-Methode, um ihre Instanz bereitzustellen. II. Die
Singleton-Klasse kann eine Unterklasse einer anderen Klasse sein. III. Die Singleton-Klasse
hat einen privaten Konstruktor.
- input_choice_list:
A: '5'
B: '6'
C: '7'
D: '9'
input_correct_responses:
- D
input_question: "Ein Compiler generiert Code f\xFCr die folgende Zuweisungsanweisung.\
\ G := (A + B) * C - (D + E) * F Die Zielmaschine hat einen einzigen Akkumulator\
\ und einen Befehlssatz mit einer einzigen Adresse, der aus Befehlen zum Laden,\
\ Speichern, Addieren, Subtrahieren und Multiplizieren besteht. Bei den arithmetischen\
\ Operationen wird der linke Operand aus dem Akkumulator genommen und das Ergebnis\
\ erscheint im Akkumulator. Die kleinstm\xF6gliche Anzahl von Anweisungen im\
\ resultierenden Code ist"
- input_choice_list:
A: 1/50
B: '27.1'
C: 1/25
D: '27.2'
input_correct_responses:
- B
input_question: "Stellen Sie sich ein Computerdesign vor, bei dem mehrere Prozessoren,\
\ jeder mit einem privaten Cache-Speicher, den globalen Speicher unter Verwendung\
\ eines einzelnen Busses gemeinsam nutzen. Dieser Bus ist die kritische Systemressource.\
\ Jeder Prozessor kann alle 500 Nanosekunden einen Befehl ausf\xFChren, solange\
\ die Speicherreferenzen von seinem lokalen Cache erf\xFCllt werden. Wenn ein\
\ Cache-Fehltreffer auftritt, wird der Prozessor um weitere 2.000 Nanosekunden\
\ verz\xF6gert. W\xE4hrend der H\xE4lfte dieser zus\xE4tzlichen Verz\xF6gerung\
\ dient der Bus dazu, den Cache-Fehltreffer zu bedienen. W\xE4hrend der anderen\
\ H\xE4lfte kann der Prozessor nicht fortfahren, aber der Bus kann Anforderungen\
\ von anderen Prozessoren bedienen. Im Durchschnitt erfordert jede Anweisung\
\ 2 Speicherreferenzen. Im Durchschnitt treten Cache-Fehler bei 1 Prozent der\
\ Referenzen auf. Welchen Anteil der Buskapazit\xE4t w\xFCrde ein einzelner\
\ Prozessor verbrauchen, wenn man Verz\xF6gerungen aufgrund von Konkurrenz durch\
\ andere Prozessoren ignoriert?"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_college_computer_science
tag: mmlu_de_llama_stem_tasks
task: mmlu_de_llama_college_computer_science
task_alias: college_computer_science
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: ST = 0
B: ST = T
C: ST = TS
D: "ST - TS ist die Identit\xE4tsabbildung von V auf sich selbst."
input_correct_responses:
- D
input_question: Sei V die Menge aller reellen Polynome p(x). Seien Transformationen
T, S auf V definiert durch T:p(x) -> xp(x) und S:p(x) -> p'(x) = d/dx
p(x), und interpretiere (ST) (p(x)) als S(T(p(x))). Welche der folgenden Aussagen
ist wahr?
- input_choice_list:
A: '2'
B: 2 - e^-2
C: 2 + e^-2
D: 2 + e^-4
input_correct_responses:
- D
input_question: "Ein Tank enth\xE4lt zun\xE4chst eine Salzl\xF6sung aus 3 Gramm\
\ Salz gel\xF6st in 100 Liter Wasser. Eine Salzl\xF6sung mit 0,02 Gramm Salz\
\ pro Liter Wasser wird mit einer Geschwindigkeit von 4 Litern pro Minute in\
\ den Tank gespr\xFCht. Die verspr\xFChte L\xF6sung wird kontinuierlich mit\
\ der Salzl\xF6sung im Tank vermischt und die Mischung flie\xDFt mit einer Geschwindigkeit\
\ von 4 Litern pro Minute aus dem Tank. Wenn das Mischen sofort erfolgt, wie\
\ viel Gramm Salz befinden sich nach Ablauf von 100 Minuten im Tank?"
- input_choice_list:
A: ich nur
B: Nur II
C: III nur
D: Nur II und III
input_correct_responses:
- B
input_question: "Sei A eine reelle 2x2-Matrix. Welche der folgenden Aussagen muss\
\ wahr sein? I. Alle Eintr\xE4ge von A^2 sind nichtnegativ. II. Die Determinante\
\ von A^2 ist nichtnegativ. III. Wenn A zwei verschiedene Eigenwerte hat, dann\
\ hat A^2 zwei verschiedene Eigenwerte."
- input_choice_list:
A: '-11'
B: '0'
C: '11'
D: 33/2
input_correct_responses:
- C
input_question: "Angenommen, f(1 + x) = f(x) f\xFCr alle reellen x. Wenn f ein\
\ Polynom ist und f(5) = 11, dann ist f(15/2)"
- input_choice_list:
A: '-5'
B: '-4'
C: '-3'
D: '-2'
input_correct_responses:
- B
input_question: "Sei A die Menge aller geordneten Paare ganzer Zahlen (m, n),\
\ so dass 7m + 12n = 22. Was ist die gr\xF6\xDFte negative Zahl in der Menge\
\ B = {m + n : (m, n) \\in A}?"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_college_mathematics
tag: mmlu_de_llama_stem_tasks
task: mmlu_de_llama_college_mathematics
task_alias: college_mathematics
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "\xFCber Proteintransporter namens GLUT4."
B: nur in Anwesenheit von Insulin.
C: "\xFCber Hexokinase."
D: "\xFCber Monocarbyls\xE4ure-Transporter."
input_correct_responses:
- A
input_question: 'Glukose wird in die Muskelzelle transportiert:'
- input_choice_list:
A: Muskelglykogen wird enzymatisch zu Glucose-1-phosphat abgebaut
B: "Leistungsstarke Ausdauerl\xE4ufer haben einen hohen Anteil an Typ-I-Fasern\
\ in ihrer Beinmuskulatur"
C: "Leberglykogen ist wichtig f\xFCr die Aufrechterhaltung der Blutglukosekonzentration"
D: "Insulin f\xF6rdert die Glukoseaufnahme durch alle Gewebe im K\xF6rper"
input_correct_responses:
- D
input_question: Welche der folgenden Aussagen ist nicht wahr?
- input_choice_list:
A: "Alle Nachkommen auf der m\xFCtterlichen Seite werden die St\xF6rung haben."
B: "Frauen sind in dieser Familie etwa doppelt so stark betroffen wie M\xE4\
nner."
C: "Alle T\xF6chter eines betroffenen Mannes werden betroffen sein."
D: "Es wird eine gleichm\xE4\xDFige Verteilung von M\xE4nnern und Frauen geben,\
\ die betroffen sind."
input_correct_responses:
- C
input_question: "Bei einem Gentest eines Neugeborenen wird eine seltene genetische\
\ St\xF6rung gefunden, die X-chromosomal-rezessiv vererbt wird. Welche der folgenden\
\ Aussagen trifft wahrscheinlich auf den Stammbaum dieser St\xF6rung zu?"
- input_choice_list:
A: Steigende Temperatur, steigende Mole an Gas
B: "Temperatur erh\xF6hen, Volumen erh\xF6hen"
C: Abnehmendes Volumen, abnehmende Temperatur
D: Abnehmende Gasmole, zunehmendes Volumen
input_correct_responses:
- A
input_question: "Ein Gymnasiallehrer f\xFCr Naturwissenschaften f\xFCllt eine\
\ 1-Liter-Flasche mit reinem Stickstoff und versiegelt den Deckel. Der Druck\
\ betr\xE4gt 1,70 atm und die Raumtemperatur 25\xB0C. Welche zwei Variablen\
\ werden beide den Druck des Systems erh\xF6hen, wenn alle anderen Variablen\
\ konstant gehalten werden?"
- input_choice_list:
A: "Muskelschw\xE4che."
B: "Zunahme an K\xF6rpermasse."
C: "Muskelkr\xE4mpfe."
D: Verlust von Elektrolyten.
input_correct_responses:
- B
input_question: 'Eine erwartete Nebenwirkung einer Kreatinsupplementierung ist:'
include: _continuation_template_yaml
process_docs: !function utils.process_docs_college_medicine
tag: mmlu_de_llama_other_tasks
task: mmlu_de_llama_college_medicine
task_alias: college_medicine
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: '4'
B: '5'
C: '6'
D: '20'
input_correct_responses:
- A
input_question: "Ein Linsenteleskop besteht aus zwei Sammellinsen im Abstand von\
\ 100 cm. Die Okularlinse hat eine Brennweite von 20 cm. Die Winkelvergr\xF6\
\xDFerung des Teleskops ist"
- input_choice_list:
A: Konstante Temperatur
B: "Konstante Lautst\xE4rke"
C: Konstanter Druck
D: Adiabat
input_correct_responses:
- B
input_question: "Bei welchen der folgenden thermodynamischen Prozesse ist die\
\ Zunahme der inneren Energie eines idealen Gases gleich der dem Gas zugef\xFC\
hrten W\xE4rme?"
- input_choice_list:
A: 2,4 V
B: 3,3 V
C: 4,5 V
D: 5,7 V
input_correct_responses:
- A
input_question: "Ein Ende eines Nichromdrahts der L\xE4nge 2L und der Querschnittsfl\xE4\
che A ist an einem Ende eines anderen Nichromdrahts der L\xE4nge L und der Querschnittsfl\xE4\
che 2A befestigt. Wenn das freie Ende des l\xE4ngeren Drahts auf einem elektrischen\
\ Potential von 8,0 Volt und das freie Ende des k\xFCrzeren Drahts auf einem\
\ elektrischen Potential von 1,0 Volt liegt, ist das Potential an der Verbindungsstelle\
\ der beiden Dr\xE4hte nahezu gleich"
- input_choice_list:
A: '4'
B: '5'
C: '6'
D: '20'
input_correct_responses:
- A
input_question: "Ein Linsenteleskop besteht aus zwei Sammellinsen im Abstand von\
\ 100 cm. Die Okularlinse hat eine Brennweite von 20 cm. Die Winkelvergr\xF6\
\xDFerung des Teleskops ist"
- input_choice_list:
A: Aufladung
B: Masse
C: Energie und Schwung
D: Lepton-Zahl
input_correct_responses:
- D
input_question: "Das Myon zerf\xE4llt mit einer charakteristischen Lebensdauer\
\ von etwa 10^-6 Sekunden in ein Elektron, ein Myon-Neutrino und ein Elektron-Antineutrino.\
\ Dem Myon ist es durch das Erhaltungsgesetz verboten, in ein Elektron und nur\
\ ein einzelnes Neutrino zu zerfallen"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_college_physics
tag: mmlu_de_llama_stem_tasks
task: mmlu_de_llama_college_physics
task_alias: college_physics
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: 160 Bit
B: 512 Bit
C: 628 Bit
D: 820 Bit
input_correct_responses:
- A
input_question: SHA-1 hat einen Message Digest von
- input_choice_list:
A: "IM \u2013 Trojaner"
B: Backdoor-Trojaner
C: Trojaner-Downloader
D: "L\xF6segeld-Trojaner"
input_correct_responses:
- D
input_question: "_____________ kann Daten auf Ihrem System ver\xE4ndern \u2013\
\ so dass Ihr System nicht mehr richtig l\xE4uft oder Sie auf bestimmte Daten\
\ nicht mehr zugreifen k\xF6nnen, oder es kann sogar L\xF6segeld verlangen,\
\ um Ihnen den Zugriff zu gew\xE4hren."
- input_choice_list:
A: "\u201EHacking\u201C-Ethik, um unbeabsichtigtes egoistisches Verhalten zu\
\ rechtfertigen"
B: "Hacking-Systeme (z. B. w\xE4hrend Penetrationstests), um Schwachstellen\
\ aufzudecken, damit sie behoben und nicht ausgenutzt werden k\xF6nnen"
C: Sich in Systeme hacken, die von Personen betrieben werden, deren Ethik Sie
nicht teilen
D: "Ein umgangssprachlicher Begriff f\xFCr schnelle Softwareentwicklung, zB\
\ im Rahmen von Hackathons"
input_correct_responses:
- B
input_question: Was ist ethisches Hacken?
- input_choice_list:
A: "\xDCberschreiben von kryptografischen Schl\xFCsseln im Speicher"
B: eine Art Code-Injection
C: "ein Lesen au\xDFerhalb der Grenzen eines Puffers"
D: ein Format-String-Angriff
input_correct_responses:
- C
input_question: Die Ausnutzung der Heartbleed-Bug-Genehmigungen
- input_choice_list:
A: Gespenstisches Netz
B: Weltweites Netz
C: "Oberfl\xE4chenweb"
D: Deep Web
input_correct_responses:
- D
input_question: Das ____________ ist alles, was Ihre Suchmaschine nicht finden
kann.
include: _continuation_template_yaml
process_docs: !function utils.process_docs_computer_security
tag: mmlu_de_llama_stem_tasks
task: mmlu_de_llama_computer_security
task_alias: computer_security
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: weniger
B: mehr
C: das gleiche
D: 'null'
input_correct_responses:
- A
input_question: Verglichen mit der Masse eines Uranatoms, das gespalten wird,
sind die kombinierten Massen der Produkte nach der Spaltung
- input_choice_list:
A: Raum und Zeit.
B: ein reisender Zwilling und ein Zwilling, der zu Hause bleibt.
C: Schwerkraft und Beschleunigung.
D: Masse und Energie.
input_correct_responses:
- C
input_question: "Dinge, die nach dem \xC4quivalenzprinzip gleichwertig sind, sind"
- input_choice_list:
A: auf eine andere Frequenz umgestellt
B: Ablenkung
C: Interferenz
D: Polarisation
input_correct_responses:
- C
input_question: Farben in einer Seifenblase entstehen durch Licht
- input_choice_list:
A: das gleiche
B: "gr\xF6\xDFer"
C: weniger
D: Je nach Windgeschwindigkeit mehr oder weniger
input_correct_responses:
- B
input_question: "Ein Modellflugzeug fliegt bei Gegenwind langsamer und bei R\xFC\
ckenwind schneller. Beim Start im rechten Winkel zum Wind und Seitenwind ist\
\ seine Geschwindigkeit \xFCber Grund im Vergleich zum Fliegen in ruhender Luft"
- input_choice_list:
A: Wasserstoff
B: Eisen
C: Uran
D: In jedem gleich
input_correct_responses:
- A
input_question: "Welches dieser drei Elemente hat die gr\xF6\xDFte Masse pro Nukleon?"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_conceptual_physics
tag: mmlu_de_llama_stem_tasks
task: mmlu_de_llama_conceptual_physics
task_alias: conceptual_physics
fewshot_config:
sampler: first_n
samples:
- input_choice_list:
A: "Absterben schlie\xDFlich"
B: Bestehen Sie auf unbestimmte Zeit
C: Wachsen Sie exponentiell
D: Kommt nie vor
input_correct_responses:
- A
input_question: "Bei einem station\xE4ren autoregressiven Prozess werden Schocks\
\ auftreten"
- input_choice_list:
A: 0,2
B: 0,4
C: 0,5
D: 0,33
input_correct_responses:
- D
input_question: "Betrachten Sie das folgende AR(1)-Modell, bei dem die St\xF6\
rungen einen Mittelwert von Null und eine Einheitsvarianz haben: yt = 0,2 +\
\ 0,4 yt-1 + ut Der (unbedingte) Mittelwert von y wird gegeben durch"
- input_choice_list:
A: (ii) und (iv) nur
B: nur (i) und (iii).
C: Nur (i), (ii) und (iii).
D: (i), (ii), (iii) und (iv)
input_correct_responses:
- C
input_question: "Angenommen, einer Teststatistik ist ein p-Wert von 0,08 zugeordnet.\
\ Welche der folgenden Aussagen ist wahr? (i) Wenn die Gr\xF6\xDFe des Tests\
\ genau 8 % w\xE4re, w\xE4re es gleichg\xFCltig, ob wir die Nullhypothese ablehnen\
\ oder nicht ablehnen w\xFCrden (ii) Die Null w\xFCrde abgelehnt werden, wenn\
\ eine Testgr\xF6\xDFe von 10 % verwendet w\xFCrde (iii) Die Null w\xFCrde dies\
\ nicht tun zur\xFCckgewiesen werden, wenn eine Testgr\xF6\xDFe von 1 % verwendet\
\ w\xFCrde (iv) Die Null w\xFCrde zur\xFCckgewiesen werden, wenn eine Testgr\xF6\
\xDFe von 5 % verwendet w\xFCrde."
- input_choice_list:
A: Es wird voreingenommen sein
B: Es wird inkonsequent sein
C: Es wird ineffizient sein
D: Alle von (a), (b) und (c) werden wahr sein.
input_correct_responses:
- C
input_question: "Was w\xE4ren dann Konsequenzen f\xFCr den OLS-Sch\xE4tzer, wenn\
\ Heteroskedastizit\xE4t in einem Regressionsmodell vorhanden ist, aber ignoriert\
\ wird?"
- input_choice_list:
A: "1 Verz\xF6gerung"
B: "2 Verz\xF6gerungen"
C: "3 Verz\xF6gerungen"
D: "4 Verz\xF6gerungen"
input_correct_responses:
- C
input_question: "Nehmen wir nun an, dass ein Forscher Informationskriterien verwenden\
\ m\xF6chte, um die optimale Verz\xF6gerungsl\xE4nge f\xFCr einen VAR zu bestimmen.\
\ 500 Beobachtungen sind f\xFCr die bivariate VAR verf\xFCgbar, und die Werte\
\ der Determinante der Varianz-Kovarianz-Matrix der Residuen sind 0,0336, 0,0169,\
\ 0,0084 und 0,0062 f\xFCr 1, 2, 3 bzw. 4 Verz\xF6gerungen. Was ist die optimale\
\ Modellreihenfolge nach dem Informationskriterium von Akaike?"
include: _continuation_template_yaml
process_docs: !function utils.process_docs_econometrics
tag: mmlu_de_llama_social_sciences_tasks
task: mmlu_de_llama_econometrics
task_alias: econometrics
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment