Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
gaoqiong
lm-evaluation-harness
Commits
3e8135ce
Commit
3e8135ce
authored
Sep 16, 2025
by
Baber
Browse files
Merge branch 'main' into comma
parents
8e560c96
0c134ee9
Changes
1000
Hide whitespace changes
Inline
Side-by-side
Showing
20 changed files
with
260 additions
and
0 deletions
+260
-0
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_biology.yaml
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_biology.yaml
+9
-0
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_business.yaml
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_business.yaml
+9
-0
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_chemistry.yaml
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_chemistry.yaml
+9
-0
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_computer_science.yaml
...asks/mmlu_prox/bn/mmlu_prox_lite_bn_computer_science.yaml
+9
-0
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_economics.yaml
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_economics.yaml
+9
-0
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_engineering.yaml
...val/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_engineering.yaml
+9
-0
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_health.yaml
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_health.yaml
+9
-0
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_history.yaml
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_history.yaml
+9
-0
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_law.yaml
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_law.yaml
+9
-0
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_math.yaml
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_math.yaml
+9
-0
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_other.yaml
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_other.yaml
+9
-0
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_philosophy.yaml
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_philosophy.yaml
+9
-0
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_physics.yaml
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_physics.yaml
+9
-0
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_psychology.yaml
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_psychology.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/_cs_lite_template_yaml
lm_eval/tasks/mmlu_prox/cs/_cs_lite_template_yaml
+35
-0
lm_eval/tasks/mmlu_prox/cs/_cs_template_yaml
lm_eval/tasks/mmlu_prox/cs/_cs_template_yaml
+35
-0
lm_eval/tasks/mmlu_prox/cs/_mmlu_prox_cs.yaml
lm_eval/tasks/mmlu_prox/cs/_mmlu_prox_cs.yaml
+23
-0
lm_eval/tasks/mmlu_prox/cs/_mmlu_prox_lite_cs.yaml
lm_eval/tasks/mmlu_prox/cs/_mmlu_prox_lite_cs.yaml
+23
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_biology.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_biology.yaml
+9
-0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_business.yaml
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_business.yaml
+9
-0
No files found.
Too many changes to show.
To preserve performance only
1000 of 1000+
files are displayed.
Plain diff
Email patch
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_biology.yaml
0 → 100644
View file @
3e8135ce
description
:
'
নিম্নলিখিত
জীববিজ্ঞান
সম্পর্কে
বহুনির্বাচনী
প্রশ্ন
(উত্তরসহ)।
ধাপে
ধাপে
চিন্তা
করুন
এবং
তারপর
আপনার
উত্তর
"উত্তর
হল
(X)"
দিয়ে
শেষ
করুন
যেখানে
X
হল
সঠিক
বিকল্পের
অক্ষর।
'
include
:
_bn_lite_template_yaml
task
:
mmlu_prox_lite_bn_biology
task_alias
:
biology
process_docs
:
!function
utils.process_biology
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_business.yaml
0 → 100644
View file @
3e8135ce
description
:
'
নিম্নলিখিত
ব্যবসা
সম্পর্কে
বহুনির্বাচনী
প্রশ্ন
(উত্তরসহ)।
ধাপে
ধাপে
চিন্তা
করুন
এবং
তারপর
আপনার
উত্তর
"উত্তর
হল
(X)"
দিয়ে
শেষ
করুন
যেখানে
X
হল
সঠিক
বিকল্পের
অক্ষর।
'
include
:
_bn_lite_template_yaml
task
:
mmlu_prox_lite_bn_business
task_alias
:
business
process_docs
:
!function
utils.process_business
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_chemistry.yaml
0 → 100644
View file @
3e8135ce
description
:
'
নিম্নলিখিত
রসায়ন
সম্পর্কে
বহুনির্বাচনী
প্রশ্ন
(উত্তরসহ)।
ধাপে
ধাপে
চিন্তা
করুন
এবং
তারপর
আপনার
উত্তর
"উত্তর
হল
(X)"
দিয়ে
শেষ
করুন
যেখানে
X
হল
সঠিক
বিকল্পের
অক্ষর।
'
include
:
_bn_lite_template_yaml
task
:
mmlu_prox_lite_bn_chemistry
task_alias
:
chemistry
process_docs
:
!function
utils.process_chemistry
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_computer_science.yaml
0 → 100644
View file @
3e8135ce
description
:
'
নিম্নলিখিত
কম্পিউটার
বিজ্ঞান
সম্পর্কে
বহুনির্বাচনী
প্রশ্ন
(উত্তরসহ)।
ধাপে
ধাপে
চিন্তা
করুন
এবং
তারপর
আপনার
উত্তর
"উত্তর
হল
(X)"
দিয়ে
শেষ
করুন
যেখানে
X
হল
সঠিক
বিকল্পের
অক্ষর।
'
include
:
_bn_lite_template_yaml
task
:
mmlu_prox_lite_bn_computer_science
task_alias
:
computer_science
process_docs
:
!function
utils.process_computer_science
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_economics.yaml
0 → 100644
View file @
3e8135ce
description
:
'
নিম্নলিখিত
অর্থনীতি
সম্পর্কে
বহুনির্বাচনী
প্রশ্ন
(উত্তরসহ)।
ধাপে
ধাপে
চিন্তা
করুন
এবং
তারপর
আপনার
উত্তর
"উত্তর
হল
(X)"
দিয়ে
শেষ
করুন
যেখানে
X
হল
সঠিক
বিকল্পের
অক্ষর।
'
include
:
_bn_lite_template_yaml
task
:
mmlu_prox_lite_bn_economics
task_alias
:
economics
process_docs
:
!function
utils.process_economics
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_engineering.yaml
0 → 100644
View file @
3e8135ce
description
:
'
নিম্নলিখিত
প্রকৌশল
সম্পর্কে
বহুনির্বাচনী
প্রশ্ন
(উত্তরসহ)।
ধাপে
ধাপে
চিন্তা
করুন
এবং
তারপর
আপনার
উত্তর
"উত্তর
হল
(X)"
দিয়ে
শেষ
করুন
যেখানে
X
হল
সঠিক
বিকল্পের
অক্ষর।
'
include
:
_bn_lite_template_yaml
task
:
mmlu_prox_lite_bn_engineering
task_alias
:
engineering
process_docs
:
!function
utils.process_engineering
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_health.yaml
0 → 100644
View file @
3e8135ce
description
:
'
নিম্নলিখিত
স্বাস্থ্য
সম্পর্কে
বহুনির্বাচনী
প্রশ্ন
(উত্তরসহ)।
ধাপে
ধাপে
চিন্তা
করুন
এবং
তারপর
আপনার
উত্তর
"উত্তর
হল
(X)"
দিয়ে
শেষ
করুন
যেখানে
X
হল
সঠিক
বিকল্পের
অক্ষর।
'
include
:
_bn_lite_template_yaml
task
:
mmlu_prox_lite_bn_health
task_alias
:
health
process_docs
:
!function
utils.process_health
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_history.yaml
0 → 100644
View file @
3e8135ce
description
:
'
নিম্নলিখিত
ইতিহাস
সম্পর্কে
বহুনির্বাচনী
প্রশ্ন
(উত্তরসহ)।
ধাপে
ধাপে
চিন্তা
করুন
এবং
তারপর
আপনার
উত্তর
"উত্তর
হল
(X)"
দিয়ে
শেষ
করুন
যেখানে
X
হল
সঠিক
বিকল্পের
অক্ষর।
'
include
:
_bn_lite_template_yaml
task
:
mmlu_prox_lite_bn_history
task_alias
:
history
process_docs
:
!function
utils.process_history
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_law.yaml
0 → 100644
View file @
3e8135ce
description
:
'
নিম্নলিখিত
আইন
সম্পর্কে
বহুনির্বাচনী
প্রশ্ন
(উত্তরসহ)।
ধাপে
ধাপে
চিন্তা
করুন
এবং
তারপর
আপনার
উত্তর
"উত্তর
হল
(X)"
দিয়ে
শেষ
করুন
যেখানে
X
হল
সঠিক
বিকল্পের
অক্ষর।
'
include
:
_bn_lite_template_yaml
task
:
mmlu_prox_lite_bn_law
task_alias
:
law
process_docs
:
!function
utils.process_law
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_math.yaml
0 → 100644
View file @
3e8135ce
description
:
'
নিম্নলিখিত
গণিত
সম্পর্কে
বহুনির্বাচনী
প্রশ্ন
(উত্তরসহ)।
ধাপে
ধাপে
চিন্তা
করুন
এবং
তারপর
আপনার
উত্তর
"উত্তর
হল
(X)"
দিয়ে
শেষ
করুন
যেখানে
X
হল
সঠিক
বিকল্পের
অক্ষর।
'
include
:
_bn_lite_template_yaml
task
:
mmlu_prox_lite_bn_math
task_alias
:
math
process_docs
:
!function
utils.process_math
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_other.yaml
0 → 100644
View file @
3e8135ce
description
:
'
নিম্নলিখিত
অন্যান্য
সম্পর্কে
বহুনির্বাচনী
প্রশ্ন
(উত্তরসহ)।
ধাপে
ধাপে
চিন্তা
করুন
এবং
তারপর
আপনার
উত্তর
"উত্তর
হল
(X)"
দিয়ে
শেষ
করুন
যেখানে
X
হল
সঠিক
বিকল্পের
অক্ষর।
'
include
:
_bn_lite_template_yaml
task
:
mmlu_prox_lite_bn_other
task_alias
:
other
process_docs
:
!function
utils.process_other
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_philosophy.yaml
0 → 100644
View file @
3e8135ce
description
:
'
নিম্নলিখিত
দর্শন
সম্পর্কে
বহুনির্বাচনী
প্রশ্ন
(উত্তরসহ)।
ধাপে
ধাপে
চিন্তা
করুন
এবং
তারপর
আপনার
উত্তর
"উত্তর
হল
(X)"
দিয়ে
শেষ
করুন
যেখানে
X
হল
সঠিক
বিকল্পের
অক্ষর।
'
include
:
_bn_lite_template_yaml
task
:
mmlu_prox_lite_bn_philosophy
task_alias
:
philosophy
process_docs
:
!function
utils.process_philosophy
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_physics.yaml
0 → 100644
View file @
3e8135ce
description
:
'
নিম্নলিখিত
পদার্থবিজ্ঞান
সম্পর্কে
বহুনির্বাচনী
প্রশ্ন
(উত্তরসহ)।
ধাপে
ধাপে
চিন্তা
করুন
এবং
তারপর
আপনার
উত্তর
"উত্তর
হল
(X)"
দিয়ে
শেষ
করুন
যেখানে
X
হল
সঠিক
বিকল্পের
অক্ষর।
'
include
:
_bn_lite_template_yaml
task
:
mmlu_prox_lite_bn_physics
task_alias
:
physics
process_docs
:
!function
utils.process_physics
lm_eval/tasks/mmlu_prox/bn/mmlu_prox_lite_bn_psychology.yaml
0 → 100644
View file @
3e8135ce
description
:
'
নিম্নলিখিত
মনোবিজ্ঞান
সম্পর্কে
বহুনির্বাচনী
প্রশ্ন
(উত্তরসহ)।
ধাপে
ধাপে
চিন্তা
করুন
এবং
তারপর
আপনার
উত্তর
"উত্তর
হল
(X)"
দিয়ে
শেষ
করুন
যেখানে
X
হল
সঠিক
বিকল্পের
অক্ষর।
'
include
:
_bn_lite_template_yaml
task
:
mmlu_prox_lite_bn_psychology
task_alias
:
psychology
process_docs
:
!function
utils.process_psychology
lm_eval/tasks/mmlu_prox/cs/_cs_lite_template_yaml
0 → 100644
View file @
3e8135ce
dataset_path: li-lab/MMLU-ProX-Lite
dataset_name: cs
test_split: test
fewshot_split: validation
fewshot_config:
sampler: first_n
doc_to_text: !function utils.fewshot_to_text
doc_to_target: ""
output_type: generate_until
doc_to_text: !function utils.doc_to_text
doc_to_target: answer
filter_list:
- name: "custom-extract"
filter:
- function: "regex"
regex_pattern: 'Odpověď je \(?([ABCDEFGHIJ])\)?'
- function: "take_first"
generation_kwargs:
until:
- "</s>"
- "Q:"
- "Otázka:"
- "<|im_end|>"
do_sample: false
temperature: 0.0
max_gen_toks: 2048
num_fewshot: 5
metric_list:
- metric: exact_match
aggregation: mean
higher_is_better: true
ignore_case: true
ignore_punctuation: true
metadata:
version: 0.0
lm_eval/tasks/mmlu_prox/cs/_cs_template_yaml
0 → 100644
View file @
3e8135ce
dataset_path: li-lab/MMLU-ProX
dataset_name: cs
test_split: test
fewshot_split: validation
fewshot_config:
sampler: first_n
doc_to_text: !function utils.fewshot_to_text
doc_to_target: ""
output_type: generate_until
doc_to_text: !function utils.doc_to_text
doc_to_target: answer
filter_list:
- name: "custom-extract"
filter:
- function: "regex"
regex_pattern: 'Odpověď je \(?([ABCDEFGHIJ])\)?'
- function: "take_first"
generation_kwargs:
until:
- "</s>"
- "Q:"
- "Otázka:"
- "<|im_end|>"
do_sample: false
temperature: 0.0
max_gen_toks: 2048
num_fewshot: 5
metric_list:
- metric: exact_match
aggregation: mean
higher_is_better: true
ignore_case: true
ignore_punctuation: true
metadata:
version: 0.0
lm_eval/tasks/mmlu_prox/cs/_mmlu_prox_cs.yaml
0 → 100644
View file @
3e8135ce
group
:
mmlu_prox_cs
task
:
-
mmlu_prox_cs_biology
-
mmlu_prox_cs_business
-
mmlu_prox_cs_chemistry
-
mmlu_prox_cs_computer_science
-
mmlu_prox_cs_economics
-
mmlu_prox_cs_engineering
-
mmlu_prox_cs_health
-
mmlu_prox_cs_history
-
mmlu_prox_cs_law
-
mmlu_prox_cs_math
-
mmlu_prox_cs_other
-
mmlu_prox_cs_philosophy
-
mmlu_prox_cs_physics
-
mmlu_prox_cs_psychology
aggregate_metric_list
:
-
aggregation
:
mean
metric
:
exact_match
weight_by_size
:
true
filter_list
:
custom-extract
metadata
:
version
:
0.0
lm_eval/tasks/mmlu_prox/cs/_mmlu_prox_lite_cs.yaml
0 → 100644
View file @
3e8135ce
group
:
mmlu_prox_lite_cs
task
:
-
mmlu_prox_lite_cs_biology
-
mmlu_prox_lite_cs_business
-
mmlu_prox_lite_cs_chemistry
-
mmlu_prox_lite_cs_computer_science
-
mmlu_prox_lite_cs_economics
-
mmlu_prox_lite_cs_engineering
-
mmlu_prox_lite_cs_health
-
mmlu_prox_lite_cs_history
-
mmlu_prox_lite_cs_law
-
mmlu_prox_lite_cs_math
-
mmlu_prox_lite_cs_other
-
mmlu_prox_lite_cs_philosophy
-
mmlu_prox_lite_cs_physics
-
mmlu_prox_lite_cs_psychology
aggregate_metric_list
:
-
aggregation
:
mean
metric
:
exact_match
weight_by_size
:
true
filter_list
:
custom-extract
metadata
:
version
:
0.0
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_biology.yaml
0 → 100644
View file @
3e8135ce
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
biologie
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_template_yaml
task
:
mmlu_prox_cs_biology
task_alias
:
biology
process_docs
:
!function
utils.process_biology
lm_eval/tasks/mmlu_prox/cs/mmlu_prox_cs_business.yaml
0 → 100644
View file @
3e8135ce
description
:
'
Zde
je
otázka
s
výběrem
možností
k
tématu
obchod
(s
odpovědí).
Přemýšlejte
prosím
krok
za
krokem
a
svou
odpověď
zakončete
"Odpověď
je
(X)",
kde
X
je
písmeno
správné
možnosti.
'
include
:
_cs_template_yaml
task
:
mmlu_prox_cs_business
task_alias
:
business
process_docs
:
!function
utils.process_business
Prev
1
…
18
19
20
21
22
23
24
25
26
…
50
Next
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment