Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
gaoqiong
lm-evaluation-harness
Commits
b2c090cc
Unverified
Commit
b2c090cc
authored
Jan 22, 2025
by
Minho Ryu
Committed by
GitHub
Jan 21, 2025
Browse files
aggregate by group (total and categories) (#2643)
parent
ed9c6fc8
Changes
204
Hide whitespace changes
Inline
Side-by-side
Showing
20 changed files
with
40 additions
and
20 deletions
+40
-20
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_electronics_engineering.yaml
...mmlu/cot_hard/kmmlu_cot_hard_electronics_engineering.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_energy_management.yaml
...asks/kmmlu/cot_hard/kmmlu_cot_hard_energy_management.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_environmental_science.yaml
.../kmmlu/cot_hard/kmmlu_cot_hard_environmental_science.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_fashion.yaml
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_fashion.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_food_processing.yaml
.../tasks/kmmlu/cot_hard/kmmlu_cot_hard_food_processing.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_gas_technology_and_engineering.yaml
...t_hard/kmmlu_cot_hard_gas_technology_and_engineering.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_geomatics.yaml
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_geomatics.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_health.yaml
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_health.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_industrial_engineer.yaml
...ks/kmmlu/cot_hard/kmmlu_cot_hard_industrial_engineer.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_information_technology.yaml
...kmmlu/cot_hard/kmmlu_cot_hard_information_technology.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_interior_architecture_and_design.yaml
...hard/kmmlu_cot_hard_interior_architecture_and_design.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_korean_history.yaml
...l/tasks/kmmlu/cot_hard/kmmlu_cot_hard_korean_history.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_law.yaml
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_law.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_machine_design_and_manufacturing.yaml
...hard/kmmlu_cot_hard_machine_design_and_manufacturing.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_management.yaml
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_management.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_maritime_engineering.yaml
...s/kmmlu/cot_hard/kmmlu_cot_hard_maritime_engineering.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_marketing.yaml
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_marketing.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_materials_engineering.yaml
.../kmmlu/cot_hard/kmmlu_cot_hard_materials_engineering.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_math.yaml
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_math.yaml
+2
-1
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_mechanical_engineering.yaml
...kmmlu/cot_hard/kmmlu_cot_hard_mechanical_engineering.yaml
+2
-1
No files found.
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_electronics_engineering.yaml
View file @
b2c090cc
...
...
@@ -79,4 +79,5 @@ fewshot_config:
합니다. 마지막으로 선택지 (D)는 컴퓨터 시스템의 하드웨어 오류를 발견하고 그에 대한 적절한 조치를 한다는 내용입니다. 이 역시 운영체제의
기능으로, 하드웨어 오류를 감지하고 적절한 처리를 하여 시스템의 안정성을 유지하는 역할을 합니다. 따라서, 정답은 (A) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_electronics_engineering
task
:
kmmlu_cot_hard_electronics_engineering
tag
:
kmmlu_cot_hard_applied_science_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_energy_management.yaml
View file @
b2c090cc
...
...
@@ -85,4 +85,5 @@ fewshot_config:
요인이 아닙니다. , 태양광발전 모듈의 I-V 특성곡선에서 일사량에 따라 가장 많이 변화하는 것은 전류입니다. 따라서, 정답은 (B)
입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_energy_management
task
:
kmmlu_cot_hard_energy_management
tag
:
kmmlu_cot_hard_applied_science_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_environmental_science.yaml
View file @
b2c090cc
...
...
@@ -82,4 +82,5 @@ fewshot_config:
전통적인
구성요소는
아닙니다.
과정분석은
보다
일반적인
용어로,
다양한
맥락에서
사용될
수
있습니다.
(D)
목록분석
(Inventory
Analysis):
이
역시
LCA의
핵심
단계
중
하나입니다.
따라서,
정답은
(C)
입니다.'
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_environmental_science
task
:
kmmlu_cot_hard_environmental_science
tag
:
kmmlu_cot_hard_applied_science_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_fashion.yaml
View file @
b2c090cc
...
...
@@ -84,4 +84,5 @@ fewshot_config:
수선 등을 포함한 종합적인 서비스를 제공하는 것으로 보입니다. 이는 일반적인 클리닝 서비스와는 차별화된 서비스라고 볼 수 있습니다. 따라서,
정답은 (D) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_fashion
task
:
kmmlu_cot_hard_fashion
tag
:
kmmlu_cot_hard_other_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_food_processing.yaml
View file @
b2c090cc
...
...
@@ -78,4 +78,5 @@ fewshot_config:
이 품종은 상대적으로 높은 온도에 더 민감하게 반응하며, 일장의 변화에는 덜 민감한 특성을 가지고 있어 한국의 기후 특성에서 효과적으로
성장할 수 있는 조건을 가지고 있습니다. 따라서, 정답은 (D) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_food_processing
task
:
kmmlu_cot_hard_food_processing
tag
:
kmmlu_cot_hard_other_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_gas_technology_and_engineering.yaml
View file @
b2c090cc
...
...
@@ -85,4 +85,5 @@ fewshot_config:
이들은 모두 환경에 해롭습니다. 물은 염소 가스의 재해 방지용으로서의 흡수제나 재해제로서 적합하지 않습니다. 따라서, 정답은 (D)
입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_gas_technology_and_engineering
task
:
kmmlu_cot_hard_gas_technology_and_engineering
tag
:
kmmlu_cot_hard_applied_science_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_geomatics.yaml
View file @
b2c090cc
...
...
@@ -75,4 +75,5 @@ fewshot_config:
공식은 실제 거리의 제곱근에 축척분모를 곱한 값이 측정된 면적이 될 것입니다. 이렇게 보면, 공식이 의미하는 바를 잘 나타내는 것 같습니다.
따라서, 정답은 (B) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_geomatics
task
:
kmmlu_cot_hard_geomatics
tag
:
kmmlu_cot_hard_applied_science_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_health.yaml
View file @
b2c090cc
...
...
@@ -85,4 +85,5 @@ fewshot_config:
일반적으로는
사업장에서
자체적으로
실시하는
것이
일반적입니다.
,
국민건강증진기금의
사용
범위에는
포함되지
않을
수
있습니다.
따라서,
정답은
(D)
입니다.'
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_health
task
:
kmmlu_cot_hard_health
tag
:
kmmlu_cot_hard_other_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_industrial_engineer.yaml
View file @
b2c090cc
...
...
@@ -82,4 +82,5 @@ fewshot_config:
절삭저항의
대부분을
차지합니다.
이러한
정보를
바탕으로,
주분력이
절삭저항의
대부분을
차지하므로,
탄소강을
가공할
때
가장
큰
절삭저항을
주는
것은
주분력일
것이라고
추론할
수
있습니다.
따라서,
정답은
(D)
입니다.'
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_industrial_engineer
task
:
kmmlu_cot_hard_industrial_engineer
tag
:
kmmlu_cot_hard_applied_science_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_information_technology.yaml
View file @
b2c090cc
...
...
@@ -80,4 +80,5 @@ fewshot_config:
피어스 B-E형 발진 회로에서는 컬렉터-이미터 간의 임피던스가 유도성일 때 가장 안정한 발진을 지속할 수 있습니다. 따라서, 정답은 (B)
입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_information_technology
task
:
kmmlu_cot_hard_information_technology
tag
:
kmmlu_cot_hard_stem_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_interior_architecture_and_design.yaml
View file @
b2c090cc
...
...
@@ -92,4 +92,5 @@ fewshot_config:
지칭하지
않으며,
실제
설계
및
계획
과정에서는
보통
최소값,
최대값,
또는
목표값과
같이
더
구체적이고
명확한
기준을
바탕으로
최적치수를
결정합니다.
따라서,
정답은
(C)
입니다.'
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_interior_architecture_and_design
task
:
kmmlu_cot_hard_interior_architecture_and_design
tag
:
kmmlu_cot_hard_other_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_korean_history.yaml
View file @
b2c090cc
...
...
@@ -97,4 +97,5 @@ fewshot_config:
군사 기구로, 흥선대원군은 왕권 강화를 위해 비변사의 기능을 약화시켰습니다. (D) 통상 수교 거부 정책을 추진하였다 - 흥선대원군은 외세의
침략을 막기 위해 통상 수교 거부 정책을 추진하였습니다. 따라서, 정답은 (C) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_korean_history
task
:
kmmlu_cot_hard_korean_history
tag
:
kmmlu_cot_hard_humss_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_law.yaml
View file @
b2c090cc
...
...
@@ -81,4 +81,5 @@ fewshot_config:
중 하나입니다. (D) 네트워크 취약성으로 발생하는 문제는 물리적 통제절차의 개선으로 해결해야 한다는 것은, 네트워크 보안 문제를 해결하기
위해 물리적인 통제 절차를 개선하는 것입니다. 이는 네트워크 보안을 강화하는 데 매우 중요한 역할을 합니다. 따라서, 정답은 (C) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_law
task
:
kmmlu_cot_hard_law
tag
:
kmmlu_cot_hard_humss_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_machine_design_and_manufacturing.yaml
View file @
b2c090cc
...
...
@@ -83,4 +83,5 @@ fewshot_config:
선택지는 해칭이 주된 중심선 또는 단면도의 주된 외형선에 대하여 90℃ 기울기로 그린다는 내용인데, 이는 잘못된 내용입니다. 일반적으로
해칭은 45도 기울기로 그려집니다. , 이 선택지는 해칭의 일반적인 원칙을 잘못 설명하고 있습니다. 따라서, 정답은 (C) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_machine_design_and_manufacturing
task
:
kmmlu_cot_hard_machine_design_and_manufacturing
tag
:
kmmlu_cot_hard_applied_science_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_management.yaml
View file @
b2c090cc
...
...
@@ -76,4 +76,5 @@ fewshot_config:
각 부문별로 목표를 정하고 분산된 시스템을 구축하는 것은 물류 시스템의 효율성을 높일 수 있지만, 이는 통합적인 관리가 어려울 수 있습니다.
따라서, 정답은 (B) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_management
task
:
kmmlu_cot_hard_management
tag
:
kmmlu_cot_hard_humss_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_maritime_engineering.yaml
View file @
b2c090cc
...
...
@@ -98,4 +98,5 @@ fewshot_config:
(D)
아르곤:
아르곤도
불활성
기체로,
지방질에
용해되거나
마취
효과를
나타내지
않습니다.
아르곤은
주로
산업
공정에서
보호
가스로
사용됩니다.
따라서,
정답은
(B)
입니다.'
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_maritime_engineering
task
:
kmmlu_cot_hard_maritime_engineering
tag
:
kmmlu_cot_hard_applied_science_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_marketing.yaml
View file @
b2c090cc
...
...
@@ -91,4 +91,5 @@ fewshot_config:
있으며,
상담원이
고객의
반론에
대한
자연스러운
대응력을
갖추면
고객의
불만이나
반대를
효과적으로
처리할
수
있습니다.
따라서,
정답은
(A)
입니다.'
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_marketing
task
:
kmmlu_cot_hard_marketing
tag
:
kmmlu_cot_hard_other_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_materials_engineering.yaml
View file @
b2c090cc
...
...
@@ -84,4 +84,5 @@ fewshot_config:
구별하는
데
사용될
수
있습니다.
냉간가공은
재결성
온도
이하에서
이루어지며,
열간가공은
재결성
온도
이상에서
이루어집니다.
,
냉간가공과
열간가공을
구별하는
기준은
재결성
온도라고
할
수
있습니다.
따라서,
정답은
(C)
입니다.'
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_materials_engineering
task
:
kmmlu_cot_hard_materials_engineering
tag
:
kmmlu_cot_hard_stem_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_math.yaml
View file @
b2c090cc
...
...
@@ -95,4 +95,5 @@ fewshot_config:
+ ω2019 입니다. , ω^2017 + ω^2019 = ω + 1 입니다. 주어진 식에 ω + 1을 대입하면 ω + 1 + ω +
1 + 1 + 1이 됩니다. 따라서, 정답은 (C) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_math
task
:
kmmlu_cot_hard_math
tag
:
kmmlu_cot_hard_stem_tasks
lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_mechanical_engineering.yaml
View file @
b2c090cc
...
...
@@ -77,4 +77,5 @@ fewshot_config:
어떤 것일까요? V벨트의 단면 크기는 알파벳이 뒤로 갈수록 커집니다 즉, A형은 B형보다 작고, B형은 C형보다 작으며, 이런 식으로 D형,
E형으로 진행됩니다. , 주어진 선택지 중에서 가장 단면이 큰 V벨트는 E형일 것입니다. 따라서, 정답은 (C) 입니다.
include
:
_cot_kmmlu_yaml
task
:
kmmlu_hard_cot_mechanical_engineering
task
:
kmmlu_cot_hard_mechanical_engineering
tag
:
kmmlu_cot_hard_stem_tasks
Prev
1
2
3
4
5
6
…
11
Next
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment