Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
gaoqiong
lm-evaluation-harness
Commits
b2c090cc
Unverified
Commit
b2c090cc
authored
Jan 22, 2025
by
Minho Ryu
Committed by
GitHub
Jan 21, 2025
Browse files
aggregate by group (total and categories) (#2643)
parent
ed9c6fc8
Changes
204
Hide whitespace changes
Inline
Side-by-side
Showing
20 changed files
with
71 additions
and
17 deletions
+71
-17
lm_eval/tasks/kmmlu/cot_hard/_cot_kmmlu_yaml
lm_eval/tasks/kmmlu/cot_hard/_cot_kmmlu_yaml
+0
-3
lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard.yaml
lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard.yaml
+11
-0
lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard_applied_science.yaml
...tasks/kmmlu/cot_hard/_kmmlu_cot_hard_applied_science.yaml
+8
-0
lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard_humss.yaml
lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard_humss.yaml
+8
-0
lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard_other.yaml
lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard_other.yaml
+8
-0
lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard_stem.yaml
lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard_stem.yaml
+8
-0
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_accounting.yaml
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_accounting.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_agricultural_sciences.yaml
.../kmmlu/cot_hard/kmmlu_cot_hard_agricultural_sciences.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_aviation_engineering_and_maintenance.yaml
.../kmmlu_cot_hard_aviation_engineering_and_maintenance.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_biology.yaml
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_biology.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_chemical_engineering.yaml
...s/kmmlu/cot_hard/kmmlu_cot_hard_chemical_engineering.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_chemistry.yaml
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_chemistry.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_civil_engineering.yaml
...asks/kmmlu/cot_hard/kmmlu_cot_hard_civil_engineering.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_computer_science.yaml
...tasks/kmmlu/cot_hard/kmmlu_cot_hard_computer_science.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_construction.yaml
...val/tasks/kmmlu/cot_hard/kmmlu_cot_hard_construction.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_criminal_law.yaml
...val/tasks/kmmlu/cot_hard/kmmlu_cot_hard_criminal_law.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_ecology.yaml
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_ecology.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_economics.yaml
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_economics.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_education.yaml
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_education.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_electrical_engineering.yaml
...kmmlu/cot_hard/kmmlu_cot_hard_electrical_engineering.yaml
+2
-1
No files found.
lm_eval/tasks/kmmlu/cot_hard/_cot_kmmlu_yaml
View file @
b2c090cc
tag:
- kmmlu
- kmmlu_hard_cot
dataset_path: HAERAE-HUB/KMMLU-HARD
output_type: generate_until
validation_split: dev # not meant to be used, only here to silence warnings
...
...
lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard.yaml
0 → 100644
View file @
b2c090cc
group
:
kmmlu_cot_hard
task
:
-
kmmlu_cot_hard_stem
-
kmmlu_cot_hard_other
-
kmmlu_cot_hard_applied_science
-
kmmlu_cot_hard_humss
aggregate_metric_list
:
-
metric
:
exact_match
weight_by_size
:
True
metadata
:
version
:
2.0
lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard_applied_science.yaml
0 → 100644
View file @
b2c090cc
group
:
kmmlu_cot_hard_applied_science
task
:
-
kmmlu_cot_hard_applied_science_tasks
aggregate_metric_list
:
-
metric
:
exact_match
weight_by_size
:
True
metadata
:
version
:
2.0
lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard_humss.yaml
0 → 100644
View file @
b2c090cc
group
:
kmmlu_cot_hard_humss
task
:
-
kmmlu_cot_hard_humss_tasks
aggregate_metric_list
:
-
metric
:
exact_match
weight_by_size
:
True
metadata
:
version
:
2.0
lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard_other.yaml
0 → 100644
View file @
b2c090cc
group
:
kmmlu_cot_hard_other
task
:
-
kmmlu_cot_hard_other_tasks
aggregate_metric_list
:
-
metric
:
exact_match
weight_by_size
:
True
metadata
:
version
:
2.0
lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard_stem.yaml
0 → 100644
View file @
b2c090cc
group
:
kmmlu_cot_hard_stem
task
:
-
kmmlu_cot_hard_stem_tasks
aggregate_metric_list
:
-
metric
:
exact_match
weight_by_size
:
True
metadata
:
version
:
2.0
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_accounting.yaml
View file @
b2c090cc
...
...
@@ -78,4 +78,5 @@ fewshot_config:
당기순이익은 과소 계상됩니다. 왜냐하면 매출원가가 더 높아지면 이익은 줄어들기 때문입니다. , 상품재고액을 과대 계상한 경우 매출원가는
과대 계상되고, 당기순이익은 과소 계상됩니다. '따라서, 정답은 (A) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_accounting
task
:
kmmlu_cot_hard_accounting
tag
:
kmmlu_cot_hard_humss_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_agricultural_sciences.yaml
View file @
b2c090cc
...
...
@@ -80,4 +80,5 @@ fewshot_config:
각 선택지를 분석한 결과 (C) 선택지인 '감자의 바이러스 병을 막기 위해 평지에서 채종한다.'가 가장 잘못된 방법으로 보입니다. 이는
감자의 바이러스 병 예방과 평지에서의 채종 사이에 직접적인 연관성이 없기 때문입니다. 따라서, 정답은 (C) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_agricultural_sciences
task
:
kmmlu_cot_hard_agricultural_sciences
tag
:
kmmlu_cot_hard_other_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_aviation_engineering_and_maintenance.yaml
View file @
b2c090cc
...
...
@@ -85,4 +85,5 @@ fewshot_config:
(D) 옆놀이의 안정성 향상을 위해서는 트위스트가 중요한 역할을 합니다. 트위스트는 날개 팁 부분의 각도를 조절하여, 항공기가 고속에서도
안정적으로 비행할 수 있도록 돕습니다. 따라서, 정답은 (D) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_aviation_engineering_and_maintenance
task
:
kmmlu_cot_hard_aviation_engineering_and_maintenance
tag
:
kmmlu_cot_hard_applied_science_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_biology.yaml
View file @
b2c090cc
...
...
@@ -80,4 +80,5 @@ fewshot_config:
없어야
합니다.
이러한
조건을
충족하는
미생물은
절대호산성
미생물입니다.
절대호산성
미생물은
극도로
산성
환경에서만
생존할
수
있으며,
중성
또는
알칼리성
환경에서는
성장할
수
없습니다.
따라서,
정답은
(A)
입니다.'
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_biology
task
:
kmmlu_cot_hard_biology
tag
:
kmmlu_cot_hard_stem_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_chemical_engineering.yaml
View file @
b2c090cc
...
...
@@ -87,4 +87,5 @@ fewshot_config:
압력, V는 부피입니다. W = -P1Vln(P2/P1) = -(10×10^5 Pa)(0.05m^3)ln((1×10^5 Pa)/(10×10^5
Pa)) = 0입니다. 따라서, 정답은 (A) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_chemical_engineering
task
:
kmmlu_cot_hard_chemical_engineering
tag
:
kmmlu_cot_hard_stem_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_chemistry.yaml
View file @
b2c090cc
...
...
@@ -76,4 +76,5 @@ fewshot_config:
황산의 분자량은 98g/mol입니다. 황산의 몰 수는 49g ÷ 98g/mol = 0.5mol입니다. 이 수용액의 물 농도는 0.5mol/1L
= 0.5M입니다. 따라서, 정답은 (A) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_chemistry
task
:
kmmlu_cot_hard_chemistry
tag
:
kmmlu_cot_hard_stem_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_civil_engineering.yaml
View file @
b2c090cc
...
...
@@ -97,4 +97,5 @@ fewshot_config:
것이며, 이 계약은 미국의 근대도시계획 성립기에 지역제의 바탕이 된 제도는 (A) 협약(covenant)이 가장 적절한 선택입니다. 따라서,
정답은 (A) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_civil_engineering
task
:
kmmlu_cot_hard_civil_engineering
tag
:
kmmlu_cot_hard_stem_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_computer_science.yaml
View file @
b2c090cc
...
...
@@ -96,4 +96,5 @@ fewshot_config:
주어진
설명에서
언급된
감사
추적(Auditing)이나
Shadow
Password와
같은
부가적인
기능보다는
사용자
간
침범
차단과
사용자별
파일
권한
설정에
초점을
맞춘
것으로
정의됩니다.
따라서,
정답은
(B)
입니다.'
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_computer_science
task
:
kmmlu_cot_hard_computer_science
tag
:
kmmlu_cot_hard_stem_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_construction.yaml
View file @
b2c090cc
...
...
@@ -83,4 +83,5 @@ fewshot_config:
압축비가
9입니다.
이를
식에
대입하여
연소실
체적을
계산해
보겠습니다.
행정체적
=
240
압축비
=
9
연소실_체적
=
행정체적
/
(압축비
-
1)
=
240
/
8
=
30
연소실의
체적은
30cc입니다.
따라서,
정답은
(B)
입니다.'
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_construction
task
:
kmmlu_cot_hard_construction
tag
:
kmmlu_cot_hard_other_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_criminal_law.yaml
View file @
b2c090cc
...
...
@@ -106,4 +106,5 @@ fewshot_config:
고려에 따라 변경된 경우에 형법 제1조 제2항이 적용되는 것은 맞지만, 법령의 변경이 있더라도 그것이 반성적 고려에서 비롯된 것이 아니라면
형법 제1조 제2항이 적용되지 않습니다. 따라서, 정답은 (C) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_criminal_law
task
:
kmmlu_cot_hard_criminal_law
tag
:
kmmlu_cot_hard_humss_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_ecology.yaml
View file @
b2c090cc
...
...
@@ -88,4 +88,5 @@ fewshot_config:
질소는 질소 가스나 암모니아의 형태로 존재합니다. , 위의 분석에 따르면, (B) 옵션의 설명이 잘못되었습니다. 아연과 코발트는 일반적으로
미량원소로 분류되지만, 이 설명에서는 그들을 다량 원소로 잘못 분류하고 있습니다. 따라서, 정답은 (B) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_ecology
task
:
kmmlu_cot_hard_ecology
tag
:
kmmlu_cot_hard_stem_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_economics.yaml
View file @
b2c090cc
...
...
@@ -87,4 +87,5 @@ fewshot_config:
- 7,000,000원)은 어떻게 처리되었을까요? 이 금액은 회사의 이익에서 차감되어야 합니다. 이는 이익잉여금, 즉 회사가 벌어들인 이익에서
퇴직금 등을 지급한 후 남은 금액이 감소한다는 의미입니다. 선택지 D는 옳지 않습니다. 따라서, 정답은 (C) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_economics
task
:
kmmlu_cot_hard_economics
tag
:
kmmlu_cot_hard_humss_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_education.yaml
View file @
b2c090cc
...
...
@@ -81,4 +81,5 @@ fewshot_config:
수 있습니다. 하지만, 평생교육법에는 전국평생학습도시협의회의 구성 및 운영에 필요한 사항은 교육부령으로 정한다는 내용은 없습니다. 이를
통해 선택지 (B)가 평생교육법 상평생학습도시에 대한 설명으로 옳지 않다는 것을 알 수 있습니다. 따라서, 정답은 (B) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_education
task
:
kmmlu_cot_hard_education
tag
:
kmmlu_cot_hard_humss_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_electrical_engineering.yaml
View file @
b2c090cc
...
...
@@ -93,4 +93,5 @@ fewshot_config:
Pyrometer)입니다.
이는
흑체
또는
비슷한
조건의
물체로부터
방사되는
가시광선의
강도를
통해
온도를
측정하는
방식을
사용하며,
흑체의
방사율을
1로
설정하여
보정하는
원리를
기반으로
합니다.
따라서,
정답은
(A)
입니다.'
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_electrical_engineering
task
:
kmmlu_cot_hard_electrical_engineering
tag
:
kmmlu_cot_hard_stem_tasks
Prev
1
2
3
4
5
…
11
Next
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment