Making hardcoded few shots compatible with the chat template mechanism (#1895)

* init test 1 * fix * this format seems to be working - need to update all other tasks with the new format * bbh with few shot format * fix fewshot bbh * add mmlu flan cot * samples of cot * kmmlu * fix gsm8k * update keys for mmlu * minerva math * bbh * fix * fix samples * small fixes to templates * last prompt format change * fixing prompt * fixed minerva math format * rm accidental commited file * added doc for few shot samples * Update lm_eval/loggers/evaluation_tracker.py * Update lm_eval/loggers/evaluation_tracker.py * Update docs/new_task_guide.md Co-authored-by: Hailey Schoelkopf <65563625+haileyschoelkopf@users.noreply.github.com> * added check in sampler per code review * added the system from a function, plus an example in minerva math * style * Apply suggestions from code review Co-authored-by: Hailey Schoelkopf <65563625+haileyschoelkopf@users.noreply.github.com> * fix unit tests 1 * forcing use of test split --------- Co-authored-by: Hailey Schoelkopf <65563625+haileyschoelkopf@users.noreply.github.com>

Making hardcoded few shots compatible with the chat template mechanism (#1895)
* init test 1 * fix * this format seems to be working - need to update all other tasks with the new format * bbh with few shot format * fix fewshot bbh * add mmlu flan cot * samples of cot * kmmlu * fix gsm8k * update keys for mmlu * minerva math * bbh * fix * fix samples * small fixes to templates * last prompt format change * fixing prompt * fixed minerva math format * rm accidental commited file * added doc for few shot samples * Update lm_eval/loggers/evaluation_tracker.py * Update lm_eval/loggers/evaluation_tracker.py * Update docs/new_task_guide.md Co-authored-by: Hailey Schoelkopf <65563625+haileyschoelkopf@users.noreply.github.com> * added check in sampler per code review * added the system from a function, plus an example in minerva math * style * Apply suggestions from code review Co-authored-by: Hailey Schoelkopf <65563625+haileyschoelkopf@users.noreply.github.com> * fix unit tests 1 * forcing use of test split --------- Co-authored-by: Hailey Schoelkopf <65563625+haileyschoelkopf@users.noreply.github.com>
4902aaaf · Clémentine Fourrier · GitHub · f4f59251 · 4902aaaf · 4902aaaf
Unverified Commit 4902aaaf authored May 31, 2024 by Clémentine Fourrier Committed by GitHub May 31, 2024
20 changed files
--- a/lm_eval/tasks/kmmlu/cot_hard/_cot_kmmlu_yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/_cot_kmmlu_yaml
@@ -5,7 +5,7 @@ dataset_path: HAERAE-HUB/KMMLU-HARD
 output_type: generate_until
 validation_split: dev # not meant to be used, only here to silence warnings
 test_split: test
-doc_to_target: "{{['A', 'B', 'C', 'D'][answer-1]}}"
+doc_to_target: "{{['A', 'B', 'C', 'D'][answer-1] if answer is defined else target}}" # answer undefined: cot few shot example, else normal sample
 metric_list:
  - metric: exact_match
    aggregation: mean
@@ -18,7 +18,7 @@ generation_kwargs:
  do_sample: false
  max_gen_toks: 2048
  temperature: 0.0
-num_fewshot: 0
+num_fewshot: 5
 filter_list:
  - name: "get-answer"
    filter:
@@ -28,4 +28,3 @@ filter_list:
      - function: "take_first"
 metadata:
  version: 2.0
-  num_fewshot: 5
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_accounting.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_accounting.yaml
 dataset_name: accounting
-doc_to_text: '질문: 수정 전 잔액시산표의 차변 합계액은 ￦1,000,000이다. 보험료 미경과액 ￦30,000과 이자수익 미수액 ￦20,000을
-  계상한 후의 수정 후 잔액시산표 차변 합계액은 얼마인가?
-
-  A.￦970,000
-
-  B.￦990,000
-
-  C.￦1,020,000
-
-  D.￦1,050,000
-
-  정답: 차근 차근 생각해봅시다. 회계학 관련 정보를 위해 위키피디아를 참조하겠습니다. 주어진 문제는 수정 후 시산표의 합계에 영향을 주는 요소와
-  주지 않는 요소를 구분하고 이해하는 문제입니다. 이 경우, 보험료 미경과액과 이자수익 미수액이 추가되었습니다. 보험료 미경과액은 차변에 계상되어
-  있는 보험료(비용)을 감소 하면서 자산계정인 선급보험료가 동일금액이 차변에 증가하므로 영향을 주지 않습니다. 다음으로 이자수익 미수액 ￦20,000은
-  아직 받지 않은 이자를 의미합니다. 이자미수액은 잔액시산표에서 차변에 기록됩니다.  , 원래의 차변 합계액 ￦1,000,000에 이자수익 미수액
-  ￦20,000을 더하면, 수정 후의 차변 합계액은 ￦1,020,000이 됩니다. 따라서, 정답은 (C) 입니다.
-
-
-  질문: 제조업을 영위하는 (주)상공이 결산 시 이자비용 미지급분에 대한 거래를 누락하였을 경우 재무제표에 미치는 영향으로 옳은 것은?
-
-  A.매출총이익이 과소계상된다.
-
-  B.영업이익이 과대계상된다.
-
-  C.비유동부채가 과소계상된다.
-
-  D.당기순이익이 과대계상된다.
-
-  정답: 차근 차근 생각해봅시다. 회계학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 이자비용 미지급분이란, 회사가 이자를 지급해야 하지만
-  아직 지급하지 않은 금액을 말합니다. 이는 기업의 부채로 간주되며, 이를 누락하게 되면 회계상의 문제가 발생할 수 있습니다. (A) 선택지의 매출총이익은
-  판매액에서 제조비용을 뺀 금액으로, 이자비용과는 직접적인 관련이 없습니다.   이자비용 미지급분을 누락하였다고 해서 매출총이익이 과소계상되는 것은
-  아닙니다. (B) 선택지의 영업이익은 매출총이익에서 판매비와 관리비를 뺀 금액입니다. 이자비용은 판매비나 관리비에 포함되지 않으므로, 이자비용
-  미지급분을 누락하였다고 해서 영업이익이 과대계상되는 것은 아닙니다. (C) 선택지의 비유동부채는 장기적으로 변제해야 하는 부채를 말합니다. 이자비용
-  미지급분은 단기적으로 변제해야 하는 부채로 간주될 수 있으나, 이를 누락하게 되면 전체 부채가 과소계상되는 결과를 초래할 수 있습니다. (D)
-  선택지의 당기순이익은 수익에서 모든 비용을 뺀 금액입니다. 이자비용 미지급분을 누락하게 되면 이자비용이 과소계상되어 당기순이익이 과대계상되는 결과를
-  초래할 수 있습니다.  , 이자비용 미지급분을 누락하였을 경우, 비유동부채와 당기순이익에 영향을 미칠 수 있습니다. 하지만, 주어진 선택지 중에서는
-  비유동부채가 아닌 당기순이익이 과대계상되는 것이 더 정확한 표현일 것입니다. 이는 이자비용이 누락되었을 때 비용이 과소계상되므로 순이익이 과대계상되기
-  때문입니다. 따라서, 정답은 (D) 입니다.
-
-
-  질문: 현금및현금성자산에 대한 설명으로 옳지 않은 것은?
-
-  A.현금성자산은 단기의 현금수요를 충족하기 위한 목적으로 보유한다.
-
-  B.현금성자산으로 분류되기 위해서는 확정된 금액이 현금으로의 전환이 용이하고, 가치변동의 위험이 경미하여야 한다.
-
-  C.취득당시 장기로 분류되었던 국ㆍ공채 중 결산일 현재 만기일이 3개월 이내인 국·공채를 현금성자산으로 분류한다.
-
-  D.상환일이 정해져 있고 취득일로부터 상환일까지 기간이 3개월 이내인 우선주의 경우 현금성자산으로 처리한다.
-
-  정답: 차근 차근 생각해봅시다. 회계학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 현금성자산은 단기의 현금수요를 충족하기 위한 목적으로
-  보유하는 자산으로, 큰 거래비용 없이 현금으로 전환이 용이하고, 이자율 변동에 따른 가치 변동의 위험이 크지 않은 금융상품으로서, 취득 당시 만기일
-  또는 상환일이 3개월 이내인 것을 말합니다. (A)는 현금성자산의 정의와 일치하므로 옳은 설명입니다. (B)도 현금성자산의 분류 기준을 설명하고
-  있으므로 옳은 설명입니다. (C)의 경우, 취득당시 장기로 분류되었던 국ᆞ공채 중 결산일 현재 만기일이 3개월 이내인 국·공채는 단기금융상품으로
-  분류됩니다.   이 설명은 옳지 않습니다. (D)의 경우, 상환일이 정해져 있고 취득일로부터 상환일까지 기간이 3개월 이내인 우선주의 경우 현금성자산으로
-  처리할 수 있습니다.   이 설명도 옳은 설명입니다. 따라서, 정답은 (C) 입니다.
-
-
-  질문: 금융자산과 금융부채에 속하는 항목으로 바르게 나타낸 것은?
-
-  A.(금융자산) 선급금, (금융부채) 미지급비용
-
-  B.(금융자산) 미수금, (금융부채) 선수금
-
-  C.(금융자산) 단기대여금, (금융부채) 장기차입금
-
-  D.(금융자산) 재고자산, (금융부채) 선수수익
-
-  정답: 차근 차근 생각해봅시다. 회계학 관련 정보를 위해 위키피디아를 참조하겠습니다. 금융자산과 금융부채는 기업이 자금을 조달하고 운용하는 과정에서
-  발생하는 자산과 부채를 말합니다. 이 때, 금융자산은 기업이 보유하고 있는 자산 중에서 현금이나 현금성자산으로 전환이 용이하고, 가치변동의 위험이
-  상대적으로 작은 자산을 말합니다. 반면에 금융부채는 기업이 상환해야 할 의무가 있는 부채 중에서 금융기관으로부터 차입한 차입금이나 사채 등을 말합니다.
-  각 선택지를 살펴 보겠습니다. (A) 선급금은 상품이나 원재료 등을 매입하기 위해 미리 지급한 금액으로, 금융자산이 아닌 재고자산으로 분류됩니다.
-  미지급비용은 이미 발생한 비용 중에서 아직 지급하지 않은 금액으로, 금융부채가 아닌 부채로 분류됩니다. (B) 미수금은 상품이나 제품 등을 판매하고
-  아직 받지 못한 금액으로, 금융자산에 해당됩니다. 선수금은 상품이나 제품 등을 주문받고 미리 받은 금액으로, 금융부채가 아닌 부채로 분류됩니다.
-  (C) 단기대여금은 상대방에게 대여한 금액 중에서 1년 이내에 회수할 예정인 금액으로, 금융자산에 해당됩니다. 장기차입금은 금융기관으로부터 차입한
-  차입금 중에서 1년 이후에 상환할 예정인 금액으로, 금융부채에 해당됩니다. (D) 재고자산은 기업이 판매를 목적으로 보유하고 있는 상품이나 제품,
-  원재료 등을 말합니다. 선수수익은 고객으로부터 미리 받은 수익 중에서 아직 제공하지 않은 용역에 대한 대가로, 부채에 해당됩니다. 따라서, 정답은
-  (C) 입니다.
-
-
-  질문: 전기 말에 상품재고액 \560,000을 \650,000으로 잘못 계상한 경우, 당기의 매출원가와 당기순이익에 미치는 영향으로 옳은 것은?
-  (단, 재고자산 평가는 실지재고조사법을 적용 한다.)
-
-  A.(매출원가) 과대, (당기순이익) 과소
-
-  B.(매출원가) 과대, (당기순이익) 과대
-
-  C.(매출원가) 과소, (당기순이익) 과소
-
-  D.(매출원가) 과소, (당기순이익) 과대
-
-  정답: 차근 차근 생각해봅시다. 회계학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 매출원가와 당기순이익에 대해 이해해야 합니다. 매출원가는
-  판매된 상품을 생산하는 데 들어간 비용을 의미하며, 당기순이익은 매출에서 모든 비용을 뺀 순수익을 의미합니다. 상품재고액을 과대 계상한 경우,
-  이는 회사가 실제로 보유하고 있는 재고보다 더 많은 재고를 보유하고 있다고 잘못 표시한 것을 의미합니다. 이는 재고자산의 가치를 과대평가한 것이므로,
-  이에 따른 비용(매출원가) 역시 과대 계상됩니다. 매출원가가 과대 계상되면, 매출에서 매출원가를 뺀 이익인 당기순이익은 과소 계상됩니다. 왜냐하면
-  매출원가가 더 높아지면 이익은 줄어들기 때문입니다.  , 상품재고액을 과대 계상한 경우 매출원가는 과대 계상되고, 당기순이익은 과소 계상됩니다.
-  ''따라서, 정답은 (A) 입니다.
-
-
-  질문: {{question}}
+doc_to_text: '{{question}}

  A.{{A}}

@@ -109,5 +10,72 @@ doc_to_text: '질문: 수정 전 잔액시산표의 차변 합계액은 ￦1,000
  D.{{D}}

  정답: 차근 차근 생각해봅시다. 회계학 관련 정보를 위해 위키피디아를 참조하겠습니다.'
+fewshot_config:
+  sampler: first_n
+  samples:
+  - A: ￦970,000
+    B: ￦990,000
+    C: ￦1,020,000
+    D: ￦1,050,000
+    question: '질문: 수정 전 잔액시산표의 차변 합계액은 ￦1,000,000이다. 보험료 미경과액 ￦30,000과 이자수익 미수액 ￦20,000을
+      계상한 후의 수정 후 잔액시산표 차변 합계액은 얼마인가?'
+    target: 차근 차근 생각해봅시다. 회계학 관련 정보를 위해 위키피디아를 참조하겠습니다. 주어진 문제는 수정 후 시산표의 합계에 영향을
+      주는 요소와 주지 않는 요소를 구분하고 이해하는 문제입니다. 이 경우, 보험료 미경과액과 이자수익 미수액이 추가되었습니다. 보험료 미경과액은
+      차변에 계상되어 있는 보험료(비용)을 감소 하면서 자산계정인 선급보험료가 동일금액이 차변에 증가하므로 영향을 주지 않습니다. 다음으로 이자수익
+      미수액 ￦20,000은 아직 받지 않은 이자를 의미합니다. 이자미수액은 잔액시산표에서 차변에 기록됩니다.  , 원래의 차변 합계액 ￦1,000,000에
+      이자수익 미수액 ￦20,000을 더하면, 수정 후의 차변 합계액은 ￦1,020,000이 됩니다. 따라서, 정답은 (C) 입니다.
+  - A: 매출총이익이 과소계상된다.
+    B: 영업이익이 과대계상된다.
+    C: 비유동부채가 과소계상된다.
+    D: 당기순이익이 과대계상된다.
+    question: 제조업을 영위하는 (주)상공이 결산 시 이자비용 미지급분에 대한 거래를 누락하였을 경우 재무제표에 미치는 영향으로 옳은 것은?
+    target: 차근 차근 생각해봅시다. 회계학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 이자비용 미지급분이란, 회사가 이자를 지급해야
+      하지만 아직 지급하지 않은 금액을 말합니다. 이는 기업의 부채로 간주되며, 이를 누락하게 되면 회계상의 문제가 발생할 수 있습니다. (A)
+      선택지의 매출총이익은 판매액에서 제조비용을 뺀 금액으로, 이자비용과는 직접적인 관련이 없습니다.   이자비용 미지급분을 누락하였다고 해서
+      매출총이익이 과소계상되는 것은 아닙니다. (B) 선택지의 영업이익은 매출총이익에서 판매비와 관리비를 뺀 금액입니다. 이자비용은 판매비나
+      관리비에 포함되지 않으므로, 이자비용 미지급분을 누락하였다고 해서 영업이익이 과대계상되는 것은 아닙니다. (C) 선택지의 비유동부채는 장기적으로
+      변제해야 하는 부채를 말합니다. 이자비용 미지급분은 단기적으로 변제해야 하는 부채로 간주될 수 있으나, 이를 누락하게 되면 전체 부채가
+      과소계상되는 결과를 초래할 수 있습니다. (D) 선택지의 당기순이익은 수익에서 모든 비용을 뺀 금액입니다. 이자비용 미지급분을 누락하게
+      되면 이자비용이 과소계상되어 당기순이익이 과대계상되는 결과를 초래할 수 있습니다.  , 이자비용 미지급분을 누락하였을 경우, 비유동부채와
+      당기순이익에 영향을 미칠 수 있습니다. 하지만, 주어진 선택지 중에서는 비유동부채가 아닌 당기순이익이 과대계상되는 것이 더 정확한 표현일
+      것입니다. 이는 이자비용이 누락되었을 때 비용이 과소계상되므로 순이익이 과대계상되기 때문입니다. 따라서, 정답은 (D) 입니다.
+  - A: 현금성자산은 단기의 현금수요를 충족하기 위한 목적으로 보유한다.
+    B: 현금성자산으로 분류되기 위해서는 확정된 금액이 현금으로의 전환이 용이하고, 가치변동의 위험이 경미하여야 한다.
+    C: 취득당시 장기로 분류되었던 국ㆍ공채 중 결산일 현재 만기일이 3개월 이내인 국·공채를 현금성자산으로 분류한다.
+    D: 상환일이 정해져 있고 취득일로부터 상환일까지 기간이 3개월 이내인 우선주의 경우 현금성자산으로 처리한다.
+    question: 현금및현금성자산에 대한 설명으로 옳지 않은 것은?
+    target: 차근 차근 생각해봅시다. 회계학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 현금성자산은 단기의 현금수요를 충족하기
+      위한 목적으로 보유하는 자산으로, 큰 거래비용 없이 현금으로 전환이 용이하고, 이자율 변동에 따른 가치 변동의 위험이 크지 않은 금융상품으로서,
+      취득 당시 만기일 또는 상환일이 3개월 이내인 것을 말합니다. (A)는 현금성자산의 정의와 일치하므로 옳은 설명입니다. (B)도 현금성자산의
+      분류 기준을 설명하고 있으므로 옳은 설명입니다. (C)의 경우, 취득당시 장기로 분류되었던 국ᆞ공채 중 결산일 현재 만기일이 3개월 이내인
+      국·공채는 단기금융상품으로 분류됩니다.   이 설명은 옳지 않습니다. (D)의 경우, 상환일이 정해져 있고 취득일로부터 상환일까지 기간이
+      3개월 이내인 우선주의 경우 현금성자산으로 처리할 수 있습니다.   이 설명도 옳은 설명입니다. 따라서, 정답은 (C) 입니다.
+  - A: (금융자산) 선급금, (금융부채) 미지급비용
+    B: (금융자산) 미수금, (금융부채) 선수금
+    C: (금융자산) 단기대여금, (금융부채) 장기차입금
+    D: (금융자산) 재고자산, (금융부채) 선수수익
+    question: 금융자산과 금융부채에 속하는 항목으로 바르게 나타낸 것은?
+    target: 차근 차근 생각해봅시다. 회계학 관련 정보를 위해 위키피디아를 참조하겠습니다. 금융자산과 금융부채는 기업이 자금을 조달하고 운용하는
+      과정에서 발생하는 자산과 부채를 말합니다. 이 때, 금융자산은 기업이 보유하고 있는 자산 중에서 현금이나 현금성자산으로 전환이 용이하고,
+      가치변동의 위험이 상대적으로 작은 자산을 말합니다. 반면에 금융부채는 기업이 상환해야 할 의무가 있는 부채 중에서 금융기관으로부터 차입한
+      차입금이나 사채 등을 말합니다. 각 선택지를 살펴 보겠습니다. (A) 선급금은 상품이나 원재료 등을 매입하기 위해 미리 지급한 금액으로,
+      금융자산이 아닌 재고자산으로 분류됩니다. 미지급비용은 이미 발생한 비용 중에서 아직 지급하지 않은 금액으로, 금융부채가 아닌 부채로 분류됩니다.
+      (B) 미수금은 상품이나 제품 등을 판매하고 아직 받지 못한 금액으로, 금융자산에 해당됩니다. 선수금은 상품이나 제품 등을 주문받고 미리
+      받은 금액으로, 금융부채가 아닌 부채로 분류됩니다. (C) 단기대여금은 상대방에게 대여한 금액 중에서 1년 이내에 회수할 예정인 금액으로,
+      금융자산에 해당됩니다. 장기차입금은 금융기관으로부터 차입한 차입금 중에서 1년 이후에 상환할 예정인 금액으로, 금융부채에 해당됩니다. (D)
+      재고자산은 기업이 판매를 목적으로 보유하고 있는 상품이나 제품, 원재료 등을 말합니다. 선수수익은 고객으로부터 미리 받은 수익 중에서 아직
+      제공하지 않은 용역에 대한 대가로, 부채에 해당됩니다. 따라서, 정답은 (C) 입니다.
+  - A: (매출원가) 과대, (당기순이익) 과소
+    B: (매출원가) 과대, (당기순이익) 과대
+    C: (매출원가) 과소, (당기순이익) 과소
+    D: (매출원가) 과소, (당기순이익) 과대
+    question: 전기 말에 상품재고액 \560,000을 \650,000으로 잘못 계상한 경우, 당기의 매출원가와 당기순이익에 미치는 영향으로
+      옳은 것은? (단, 재고자산 평가는 실지재고조사법을 적용 한다.)
+    target: 차근 차근 생각해봅시다. 회계학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 매출원가와 당기순이익에 대해 이해해야 합니다.
+      매출원가는 판매된 상품을 생산하는 데 들어간 비용을 의미하며, 당기순이익은 매출에서 모든 비용을 뺀 순수익을 의미합니다. 상품재고액을 과대
+      계상한 경우, 이는 회사가 실제로 보유하고 있는 재고보다 더 많은 재고를 보유하고 있다고 잘못 표시한 것을 의미합니다. 이는 재고자산의
+      가치를 과대평가한 것이므로, 이에 따른 비용(매출원가) 역시 과대 계상됩니다. 매출원가가 과대 계상되면, 매출에서 매출원가를 뺀 이익인
+      당기순이익은 과소 계상됩니다. 왜냐하면 매출원가가 더 높아지면 이익은 줄어들기 때문입니다.  , 상품재고액을 과대 계상한 경우 매출원가는
+      과대 계상되고, 당기순이익은 과소 계상됩니다. '따라서, 정답은 (A) 입니다.
 include: _cot_kmmlu_yaml
 task: kmmlu_hard_cot_accounting
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_agricultural_sciences.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_agricultural_sciences.yaml
 dataset_name: agricultural_sciences
-doc_to_text: '질문: 지하발아형 종자가 아닌 것은?
-
-  A.콩
-
-  B.완두
-
-  C.보리
-
-  D.옥수수
-
-  정답: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 지하발아형(상배축신장형) 종자는 배유종자와 무배유종자로
-  나눌 수 있습니다. 배유종자에는 벼, 보리, 밀, 귀리, 옥수수가 포함되며, 무배유종자에는 완두, 잠두, 팥, 상추가 포함됩니다. 하지만 콩은
-  지하발아형 종자가 아니라 지상발아형 종자입니다. 따라서, 정답은 (A) 입니다.
-
-
-  질문: 종자의 습윤저온층적(濕潤低溫層積) 저장 설명으로 가장 적합한 것은?
-
-  A.습한 자루에 3∼6 ℃에서 1∼2주 처리
-
-  B.습한 모래에 1∼10 ℃에서 3∼4주 처리
-
-  C.습한 진흙에 2∼9 ℃에서 2∼3주 처리
-
-  D.습한 짚 속에 6∼10 ℃에서 1∼2주 처리
-
-  정답: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 종자의 습윤저온층적(濕潤低溫層積)이란, 일정한 기간 동안
-  종자를 습하고 저온의 환경에서 보관하여 종자 내부의 생리적, 생화학적 변화를 일으키는 처리 방법을 말합니다. 이는 종자의 발아를 촉진하거나 동조화시키는
-  데 사용됩니다. 먼저 각 선택지에 대해 검토해보겠습니다. (A) 선택지는 습한 자루에 3∼6 ℃에서 1∼2주 처리하는 방법을 제시하고 있습니다.
-  이 방법은 습윤저온층적에 필요한 습도와 저온을 제공할 수 있지만, 종자의 종류에 따라 처리 기간이 충분하지 않을 수 있습니다. (B) 선택지는
-  습한 모래에 1∼10 ℃에서 3∼4주 처리하는 방법을 제시하고 있습니다. 이 방법은 습윤저온층적에 필요한 습도와 저온을 제공하며, 처리 기간도
-  상대적으로 길어 종자의 변화를 촉진시키는 데 충분할 수 있습니다. (C) 선택지는 습한 진흙에 2∼9 ℃에서 2∼3주 처리하는 방법을 제시하고
-  있습니다. 이 방법은 습윤저온층적에 필요한 습도와 저온을 제공하지만, 진흙은 종자에 부적절한 압력을 가하거나 종자를 손상시킬 수 있습니다. (D)
-  선택지는 습한 짚 속에 6∼10 ℃에서 1∼2주 처리하는 방법을 제시하고 있습니다. 이 방법은 습윤저온층적에 필요한 습도를 제공할 수 있지만,
-  온도 범위가 상대적으로 높고 처리 기간이 짧아 종자의 변화를 촉진시키는 데 충분하지 않을 수 있습니다.  , 종자의 습윤저온층적 저장 설명으로
-  가장 적합한 것은 습한 모래에 1∼10 ℃에서 3∼4주 처리하는 방법인 (B) 선택지일 것으로 보입니다. 이 방법은 습윤저온층적에 필요한 조건을
-  충족시키며, 처리 기간도 종자의 변화를 촉진시키는 데 충분합니다. 따라서, 정답은 (B) 입니다.
-
-
-  질문: 옥수수 복교잡종의 특징이 아닌 것은?
-
-  A.종자값이 저렴하다.
-
-  B.여러 환경조건에 대한 완충능력이 있다.
-
-  C.개화기간이 길어 다른 교잡종보다 수분기회가 많아 이삭이 충실해진다.
-
-  D.불량 환경조건일 때 종자의 균일도가 단교잡종이나 삼원교잡종 종자보다 낮다.
-
-  정답: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 옥수수 복교잡종의 특징에 대해 알아보겠습니다.
-  복교잡종은 두 개의 서로 다른 교잡종을 교배하여 만든 품종으로, 다양한 환경 조건에 대한 완충 능력이 있고, 개화 기간이 길어 다른 교잡종보다
-  수분 기회가 많아 이삭이 충실해지는 특징이 있습니다. 선택지를 하나씩 살펴보겠습니다. (A) 종자값이 저렴하다. - 복교잡종은 두 개의 교잡종을
-  교배하여 만들기 때문에, 단교잡종이나 삼원교잡종에 비해 종자값이 저렴할 수 있습니다. (B) 여러 환경조건에 대한 완충능력이 있다. - 복교잡종은
-  다양한 환경 조건에 대한 완충 능력이 있어, 불량 환경 조건에서도 비교적 높은 생산량을 유지할 수 있습니다. (C) 개화기간이 길어 다른 교잡종보다
-  수분기회가 많아 이삭이 충실해진다. - 복교잡종은 개화 기간이 길어 다른 교잡종보다 수분 기회가 많기 때문에 이삭이 충실해지는 특징이 있습니다.
-  (D) 불량 환경조건일 때 종자의 균일도가 단교잡종이나 삼원교잡종 종자보다 낮다. - 불량 환경 조건에서는 복교잡종의 종자 균일도가 단교잡종이나
-  삼원교잡종 종자보다 낮을 수 있습니다. 따라서, 정답은 (D) 입니다.
-
-
-  질문: 완두 종자를 AㆍB 창고에 보관한 후 전기전도도 조사를 실시한 결과, A창고에 보관한 완 두 종자의 침출액이 더 많았다. 종자퇴화는 어느
-  것이 더 진전되었는가?
-
-  A.OPTION창고 완두 종자가 더 퇴화되었다.
-
-  B.OPTION창고 완두 종자가 더 퇴화되었다.
-
-  C.OPTION창고와 OPTION창고 완두 종자의 퇴화는 똑같다.
-
-  D.비교할 수 없다.
-
-  정답: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 완두 종자의 퇴화와 전기전도도 조사의 관계를 이해해야
-  합니다. 종자의 퇴화는 씨앗의 생명력이나 발아력이 감소하는 현상을 말합니다. 이는 보관 상태, 온도, 습도 등 여러 요인에 의해 영향을 받습니다.
-  전기전도도 조사는 종자의 퇴화 정도를 판단하는 데 널리 사용되는 방법 중 하나입니다. 이 방법은 종자에서 침출된 이온의 양을 측정하여 종자의 생체막
-  손상 정도를 판단하는 방법입니다. 즉, 전기전도도가 높으면 종자에서 많은 양의 이온이 침출되었음을 의미하며, 이는 종자의 생체막이 손상되었음을
-  나타냅니다.  , A창고에 보관한 완두 종자의 침출액이 더 많았다는 것은 전기전도도가 높았음을 의미하며, 이는 A창고의 완두 종자가 더 많은 생체막
-  손상을 입었음을 나타냅니다. 이는 A창고의 완두 종자가 더 많이 퇴화되었음을 의미합니다. 따라서, 정답은 (A) 입니다.
-
-
-  질문: 우량종자를 생산하는 방법으로 잘못된 것은?
-
-  A.격리재배를 통하여 이종의 혼입을 막는다.
-
-  B.무병지에서 채종한다.
-
-  C.감자의 바이러스 병을 막기 위해 평지에서 채종한다.
-
-  D.벼 종자는 평야지보다 분지에서 생산된 것이 임실이 좋아서 종자가치가 높다.
-
-  정답: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저 각 선택지에 대해 이해를 해보겠습니다. (A) 선택지는
-  우량종자를 생산하는 방법 중 하나로 격리재배를 통해 이종의 혼입을 막는 방법을 말합니다. 이는 종자의 품질을 보장하기 위해 필요한 과정이므로 올바른
-  방법입니다. (B) 선택지는 무병지에서 채종하는 방법을 말합니다. 무병지는 병원균이 없는 땅을 의미하며, 병원균이 없는 상태에서 채종을 하면 병에
-  강한 우량종자를 얻을 수 있으므로 이 역시 올바른 방법입니다. (C) 선택지는 감자의 바이러스 병을 막기 위해 평지에서 채종한다는 내용입니다.
-  감자는 바이러스 병에 취약한 식물로 알려져 있습니다. 하지만 그것이 평지에서 채종을 해야 한다는 것과 직접적인 연관성은 없습니다. 감자의 바이러스
-  병 예방은 주로 바이러스 자체를 통제하거나, 바이러스에 강한 품종을 선택하는 것 등이 중요하다고 알려져 있습니다. (D) 선택지는 벼 종자는 평야지보다
-  분지에서 생산된 것이 임실이 좋아서 종자가치가 높다는 내용입니다. 벼는 물을 많이 필요로 하는 식물로, 일반적으로 물이 잘 공급되는 분지에서 재배되는
-  것이 좋다고 알려져 있습니다.   이 역시 올바른 방법입니다.  , 각 선택지를 분석한 결과 (C) 선택지인 ''감자의 바이러스 병을 막기 위해
-  평지에서 채종한다.''가 가장 잘못된 방법으로 보입니다. 이는 감자의 바이러스 병 예방과 평지에서의 채종 사이에 직접적인 연관성이 없기 때문입니다.
-  따라서, 정답은 (C) 입니다.
-
-
-  질문: {{question}}
+doc_to_text: '{{question}}

  A.{{A}}

@@ -109,5 +10,74 @@ doc_to_text: '질문: 지하발아형 종자가 아닌 것은?
  D.{{D}}

  정답: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다.'
+fewshot_config:
+  sampler: first_n
+  samples:
+  - A: 콩
+    B: 완두
+    C: 보리
+    D: 옥수수
+    question: '질문: 지하발아형 종자가 아닌 것은?'
+    target: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 지하발아형(상배축신장형) 종자는 배유종자와
+      무배유종자로 나눌 수 있습니다. 배유종자에는 벼, 보리, 밀, 귀리, 옥수수가 포함되며, 무배유종자에는 완두, 잠두, 팥, 상추가 포함됩니다.
+      하지만 콩은 지하발아형 종자가 아니라 지상발아형 종자입니다. 따라서, 정답은 (A) 입니다.
+  - A: 습한 자루에 3∼6 ℃에서 1∼2주 처리
+    B: 습한 모래에 1∼10 ℃에서 3∼4주 처리
+    C: 습한 진흙에 2∼9 ℃에서 2∼3주 처리
+    D: 습한 짚 속에 6∼10 ℃에서 1∼2주 처리
+    question: 종자의 습윤저온층적(濕潤低溫層積) 저장 설명으로 가장 적합한 것은?
+    target: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 종자의 습윤저온층적(濕潤低溫層積)이란, 일정한
+      기간 동안 종자를 습하고 저온의 환경에서 보관하여 종자 내부의 생리적, 생화학적 변화를 일으키는 처리 방법을 말합니다. 이는 종자의 발아를
+      촉진하거나 동조화시키는 데 사용됩니다. 먼저 각 선택지에 대해 검토해보겠습니다. (A) 선택지는 습한 자루에 3∼6 ℃에서 1∼2주 처리하는
+      방법을 제시하고 있습니다. 이 방법은 습윤저온층적에 필요한 습도와 저온을 제공할 수 있지만, 종자의 종류에 따라 처리 기간이 충분하지 않을
+      수 있습니다. (B) 선택지는 습한 모래에 1∼10 ℃에서 3∼4주 처리하는 방법을 제시하고 있습니다. 이 방법은 습윤저온층적에 필요한
+      습도와 저온을 제공하며, 처리 기간도 상대적으로 길어 종자의 변화를 촉진시키는 데 충분할 수 있습니다. (C) 선택지는 습한 진흙에 2∼9
+      ℃에서 2∼3주 처리하는 방법을 제시하고 있습니다. 이 방법은 습윤저온층적에 필요한 습도와 저온을 제공하지만, 진흙은 종자에 부적절한 압력을
+      가하거나 종자를 손상시킬 수 있습니다. (D) 선택지는 습한 짚 속에 6∼10 ℃에서 1∼2주 처리하는 방법을 제시하고 있습니다. 이 방법은
+      습윤저온층적에 필요한 습도를 제공할 수 있지만, 온도 범위가 상대적으로 높고 처리 기간이 짧아 종자의 변화를 촉진시키는 데 충분하지 않을
+      수 있습니다.  , 종자의 습윤저온층적 저장 설명으로 가장 적합한 것은 습한 모래에 1∼10 ℃에서 3∼4주 처리하는 방법인 (B) 선택지일
+      것으로 보입니다. 이 방법은 습윤저온층적에 필요한 조건을 충족시키며, 처리 기간도 종자의 변화를 촉진시키는 데 충분합니다. 따라서, 정답은
+      (B) 입니다.
+  - A: 종자값이 저렴하다.
+    B: 여러 환경조건에 대한 완충능력이 있다.
+    C: 개화기간이 길어 다른 교잡종보다 수분기회가 많아 이삭이 충실해진다.
+    D: 불량 환경조건일 때 종자의 균일도가 단교잡종이나 삼원교잡종 종자보다 낮다.
+    question: 옥수수 복교잡종의 특징이 아닌 것은?
+    target: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 옥수수 복교잡종의 특징에 대해 알아보겠습니다.
+      복교잡종은 두 개의 서로 다른 교잡종을 교배하여 만든 품종으로, 다양한 환경 조건에 대한 완충 능력이 있고, 개화 기간이 길어 다른 교잡종보다
+      수분 기회가 많아 이삭이 충실해지는 특징이 있습니다. 선택지를 하나씩 살펴보겠습니다. (A) 종자값이 저렴하다. - 복교잡종은 두 개의
+      교잡종을 교배하여 만들기 때문에, 단교잡종이나 삼원교잡종에 비해 종자값이 저렴할 수 있습니다. (B) 여러 환경조건에 대한 완충능력이 있다.
+      - 복교잡종은 다양한 환경 조건에 대한 완충 능력이 있어, 불량 환경 조건에서도 비교적 높은 생산량을 유지할 수 있습니다. (C) 개화기간이
+      길어 다른 교잡종보다 수분기회가 많아 이삭이 충실해진다. - 복교잡종은 개화 기간이 길어 다른 교잡종보다 수분 기회가 많기 때문에 이삭이
+      충실해지는 특징이 있습니다. (D) 불량 환경조건일 때 종자의 균일도가 단교잡종이나 삼원교잡종 종자보다 낮다. - 불량 환경 조건에서는
+      복교잡종의 종자 균일도가 단교잡종이나 삼원교잡종 종자보다 낮을 수 있습니다. 따라서, 정답은 (D) 입니다.
+  - A: OPTION창고 완두 종자가 더 퇴화되었다.
+    B: OPTION창고 완두 종자가 더 퇴화되었다.
+    C: OPTION창고와 OPTION창고 완두 종자의 퇴화는 똑같다.
+    D: 비교할 수 없다.
+    question: 완두 종자를 AㆍB 창고에 보관한 후 전기전도도 조사를 실시한 결과, A창고에 보관한 완 두 종자의 침출액이 더 많았다.
+      종자퇴화는 어느 것이 더 진전되었는가?
+    target: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 완두 종자의 퇴화와 전기전도도 조사의
+      관계를 이해해야 합니다. 종자의 퇴화는 씨앗의 생명력이나 발아력이 감소하는 현상을 말합니다. 이는 보관 상태, 온도, 습도 등 여러 요인에
+      의해 영향을 받습니다. 전기전도도 조사는 종자의 퇴화 정도를 판단하는 데 널리 사용되는 방법 중 하나입니다. 이 방법은 종자에서 침출된
+      이온의 양을 측정하여 종자의 생체막 손상 정도를 판단하는 방법입니다. 즉, 전기전도도가 높으면 종자에서 많은 양의 이온이 침출되었음을 의미하며,
+      이는 종자의 생체막이 손상되었음을 나타냅니다.  , A창고에 보관한 완두 종자의 침출액이 더 많았다는 것은 전기전도도가 높았음을 의미하며,
+      이는 A창고의 완두 종자가 더 많은 생체막 손상을 입었음을 나타냅니다. 이는 A창고의 완두 종자가 더 많이 퇴화되었음을 의미합니다. 따라서,
+      정답은 (A) 입니다.
+  - A: 격리재배를 통하여 이종의 혼입을 막는다.
+    B: 무병지에서 채종한다.
+    C: 감자의 바이러스 병을 막기 위해 평지에서 채종한다.
+    D: 벼 종자는 평야지보다 분지에서 생산된 것이 임실이 좋아서 종자가치가 높다.
+    question: 우량종자를 생산하는 방법으로 잘못된 것은?
+    target: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저 각 선택지에 대해 이해를 해보겠습니다.
+      (A) 선택지는 우량종자를 생산하는 방법 중 하나로 격리재배를 통해 이종의 혼입을 막는 방법을 말합니다. 이는 종자의 품질을 보장하기 위해
+      필요한 과정이므로 올바른 방법입니다. (B) 선택지는 무병지에서 채종하는 방법을 말합니다. 무병지는 병원균이 없는 땅을 의미하며, 병원균이
+      없는 상태에서 채종을 하면 병에 강한 우량종자를 얻을 수 있으므로 이 역시 올바른 방법입니다. (C) 선택지는 감자의 바이러스 병을 막기
+      위해 평지에서 채종한다는 내용입니다. 감자는 바이러스 병에 취약한 식물로 알려져 있습니다. 하지만 그것이 평지에서 채종을 해야 한다는 것과
+      직접적인 연관성은 없습니다. 감자의 바이러스 병 예방은 주로 바이러스 자체를 통제하거나, 바이러스에 강한 품종을 선택하는 것 등이 중요하다고
+      알려져 있습니다. (D) 선택지는 벼 종자는 평야지보다 분지에서 생산된 것이 임실이 좋아서 종자가치가 높다는 내용입니다. 벼는 물을 많이
+      필요로 하는 식물로, 일반적으로 물이 잘 공급되는 분지에서 재배되는 것이 좋다고 알려져 있습니다.   이 역시 올바른 방법입니다.  ,
+      각 선택지를 분석한 결과 (C) 선택지인 '감자의 바이러스 병을 막기 위해 평지에서 채종한다.'가 가장 잘못된 방법으로 보입니다. 이는
+      감자의 바이러스 병 예방과 평지에서의 채종 사이에 직접적인 연관성이 없기 때문입니다. 따라서, 정답은 (C) 입니다.
 include: _cot_kmmlu_yaml
 task: kmmlu_hard_cot_agricultural_sciences
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_aviation_engineering_and_maintenance.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_aviation_engineering_and_maintenance.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_biology.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_biology.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_chemical_engineering.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_chemical_engineering.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_chemistry.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_chemistry.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_civil_engineering.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_civil_engineering.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_computer_science.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_computer_science.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_construction.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_construction.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_criminal_law.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_criminal_law.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_ecology.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_ecology.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_economics.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_economics.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_education.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_education.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_electrical_engineering.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_electrical_engineering.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_electronics_engineering.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_electronics_engineering.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_energy_management.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_energy_management.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_environmental_science.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_environmental_science.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_fashion.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_fashion.yaml
--- a/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_food_processing.yaml
+++ b/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_food_processing.yaml