Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
gaoqiong
lm-evaluation-harness
Commits
0b45cc71
Unverified
Commit
0b45cc71
authored
Aug 26, 2025
by
Weihao XUAN
Committed by
GitHub
Aug 25, 2025
Browse files
Update MMLU-ProX task (#3174)
* update MMLU_ProX * update MMLU_ProX * cleanup code by pre-commit
parent
05b37f20
Changes
741
Hide whitespace changes
Inline
Side-by-side
Showing
20 changed files
with
241 additions
and
0 deletions
+241
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_math.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_math.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_other.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_other.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_philosophy.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_philosophy.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_physics.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_physics.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_psychology.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_psychology.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_biology.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_biology.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_business.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_business.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_chemistry.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_chemistry.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_computer_science.yaml
...asks/mmlu_prox/cs/mmlu_prox_lite_cs_computer_science.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_economics.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_economics.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_engineering.yaml
...val/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_engineering.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_health.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_health.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_history.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_history.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_law.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_law.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_math.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_math.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_other.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_other.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_philosophy.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_philosophy.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_physics.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_physics.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_psychology.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_psychology.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/utils.py
lm_eval/tasks/mmlu_prox/cs/utils.py
+70
-0
No files found.
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_math.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
matematika
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_template_yaml
task
:
mmlu_prox_cs_math
task_alias
:
math
process_docs
:
!function
utils.process_math
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_other.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
ostatní
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_template_yaml
task
:
mmlu_prox_cs_other
task_alias
:
other
process_docs
:
!function
utils.process_other
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_philosophy.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
filozofie
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_template_yaml
task
:
mmlu_prox_cs_philosophy
task_alias
:
philosophy
process_docs
:
!function
utils.process_philosophy
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_physics.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
fyzika
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_template_yaml
task
:
mmlu_prox_cs_physics
task_alias
:
physics
process_docs
:
!function
utils.process_physics
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_psychology.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
psychologie
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_template_yaml
task
:
mmlu_prox_cs_psychology
task_alias
:
psychology
process_docs
:
!function
utils.process_psychology
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_biology.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
biologie
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_lite_template_yaml
task
:
mmlu_prox_lite_cs_biology
task_alias
:
biology
process_docs
:
!function
utils.process_biology
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_business.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
obchod
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_lite_template_yaml
task
:
mmlu_prox_lite_cs_business
task_alias
:
business
process_docs
:
!function
utils.process_business
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_chemistry.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
chemie
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_lite_template_yaml
task
:
mmlu_prox_lite_cs_chemistry
task_alias
:
chemistry
process_docs
:
!function
utils.process_chemistry
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_computer_science.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
informatika
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_lite_template_yaml
task
:
mmlu_prox_lite_cs_computer_science
task_alias
:
computer_science
process_docs
:
!function
utils.process_computer_science
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_economics.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
ekonomie
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_lite_template_yaml
task
:
mmlu_prox_lite_cs_economics
task_alias
:
economics
process_docs
:
!function
utils.process_economics
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_engineering.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
inženýrství
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_lite_template_yaml
task
:
mmlu_prox_lite_cs_engineering
task_alias
:
engineering
process_docs
:
!function
utils.process_engineering
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_health.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
zdraví
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_lite_template_yaml
task
:
mmlu_prox_lite_cs_health
task_alias
:
health
process_docs
:
!function
utils.process_health
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_history.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
historie
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_lite_template_yaml
task
:
mmlu_prox_lite_cs_history
task_alias
:
history
process_docs
:
!function
utils.process_history
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_law.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
právo
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_lite_template_yaml
task
:
mmlu_prox_lite_cs_law
task_alias
:
law
process_docs
:
!function
utils.process_law
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_math.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
matematika
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_lite_template_yaml
task
:
mmlu_prox_lite_cs_math
task_alias
:
math
process_docs
:
!function
utils.process_math
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_other.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
ostatní
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_lite_template_yaml
task
:
mmlu_prox_lite_cs_other
task_alias
:
other
process_docs
:
!function
utils.process_other
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_philosophy.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
filozofie
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_lite_template_yaml
task
:
mmlu_prox_lite_cs_philosophy
task_alias
:
philosophy
process_docs
:
!function
utils.process_philosophy
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_physics.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
fyzika
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_lite_template_yaml
task
:
mmlu_prox_lite_cs_physics
task_alias
:
physics
process_docs
:
!function
utils.process_physics
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_lite_cs_psychology.yaml
0 → 100644
View file @
0b45cc71
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
psychologie
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_lite_template_yaml
task
:
mmlu_prox_lite_cs_psychology
task_alias
:
psychology
process_docs
:
!function
utils.process_psychology
lm_eval/tasks/mmlu_prox/cs/utils.py
0 → 100644
View file @
0b45cc71
from
functools
import
partial
from
os.path
import
basename
,
dirname
from
lm_eval.tasks.mmlu_prox.lang_libs
import
LANG_LIBS
lang_abbr
=
basename
(
dirname
(
__file__
))
lang_dict
=
LANG_LIBS
[
lang_abbr
]
choices
=
[
"A"
,
"B"
,
"C"
,
"D"
,
"E"
,
"F"
,
"G"
,
"H"
,
"I"
,
"J"
,
"K"
,
"L"
,
"M"
,
"N"
,
"O"
,
"P"
,
]
max_opt_num
=
10
def
format_cot_example
(
example
,
including_answer
=
True
):
prompt
=
f
"
{
lang_dict
[
0
]
}
\n
"
question
=
example
[
"question"
]
prompt
+=
question
+
"
\n
"
prompt
+=
f
"
{
lang_dict
[
1
]
}
\n
"
for
i
in
range
(
max_opt_num
):
opt
=
example
[
f
"option_
{
i
}
"
]
if
opt
is
not
None
:
prompt
+=
"{}. {}
\n
"
.
format
(
choices
[
i
],
opt
)
if
including_answer
:
cot_content
=
example
[
"cot_content"
].
replace
(
lang_dict
[
4
],
lang_dict
[
2
])
prompt
+=
cot_content
+
"
\n\n
"
else
:
prompt
+=
lang_dict
[
2
]
return
prompt
doc_to_text
=
partial
(
format_cot_example
,
including_answer
=
False
)
fewshot_to_text
=
partial
(
format_cot_example
,
including_answer
=
True
)
def
process_docs
(
dataset
,
subject
):
return
dataset
.
filter
(
lambda
x
:
x
[
"category"
]
==
subject
)
process_biology
=
partial
(
process_docs
,
subject
=
"biology"
)
process_business
=
partial
(
process_docs
,
subject
=
"business"
)
process_chemistry
=
partial
(
process_docs
,
subject
=
"chemistry"
)
process_computer_science
=
partial
(
process_docs
,
subject
=
"computer science"
)
process_economics
=
partial
(
process_docs
,
subject
=
"economics"
)
process_engineering
=
partial
(
process_docs
,
subject
=
"engineering"
)
process_health
=
partial
(
process_docs
,
subject
=
"health"
)
process_history
=
partial
(
process_docs
,
subject
=
"history"
)
process_law
=
partial
(
process_docs
,
subject
=
"law"
)
process_math
=
partial
(
process_docs
,
subject
=
"math"
)
process_other
=
partial
(
process_docs
,
subject
=
"other"
)
process_philosophy
=
partial
(
process_docs
,
subject
=
"philosophy"
)
process_physics
=
partial
(
process_docs
,
subject
=
"physics"
)
process_psychology
=
partial
(
process_docs
,
subject
=
"psychology"
)
Prev
1
2
3
4
5
6
7
8
9
…
38
Next
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment