test arc_challenge

6d0c60d7 · Baber · 31631407 · 6d0c60d7
Commit 6d0c60d7 authored Dec 10, 2024 by Baber
Hide whitespace changes
Inline Side-by-side

Showing with 24 additions and 0 deletions

lm_eval/tasks/llama3/base/arc_easy.yaml lm_eval/tasks/llama3/base/arc_easy.yaml +24 -0

No files found.
--- a/lm_eval/tasks/llama3/base/arc_easy.yaml
+++ b/lm_eval/tasks/llama3/base/arc_easy.yaml
+tag:
+  - llama
+task: arc_challenge_chat
+dataset_path: allenai/ai2_arc
+dataset_name: ARC-Challenge
+output_type: multiple_choice
+training_split: train
+validation_split: validation
+test_split: test
+#doc_to_text: "Question: {{question}}\nAnswer:"
+doc_to_text: "Question: {{question.strip()}}\nA. {{choices.text[0]}}\nB. {{choices.text[1]}}\nC. {{choices.text[2]}}{% if choices.text|length > 3 %}\nD. {{choices.text[3]}}{% endif %}\nAnswer:"
+fewshot_delimiter: "\n\n"
+doc_to_target: "{{answerKey}}"
+doc_to_choice: "{{choices.label}}"
+num_fewshot: 25
+metric_list:
+  - metric: acc
+    aggregation: mean
+    higher_is_better: true
+  - metric: acc_norm
+    aggregation: mean
+    higher_is_better: true
+metadata:
+  version: 1.0