Update dataset paths and output path

a69ad956 · Yen-Ting Lin · e15672a4 · a69ad956 · a69ad956 · a69ad956
Commit a69ad956 authored May 27, 2024 by Yen-Ting Lin
6 changed files
--- a/harness_eval.slurm
+++ b/harness_eval.slurm
@@ -57,7 +57,7 @@ lm_eval \
 --tasks $tasks \
 --num_fewshot 0 \
 --batch_size 8 \
--output_path evals \
+--output_path eval_results \
 --write_out \
 --log_samples \
 --verbosity DEBUG \

--- a/lm_eval/tasks/pega/default/_default_template_yaml
+++ b/lm_eval/tasks/pega/default/_default_template_yaml
-dataset_path: yentinglin/legal_benchmark
+dataset_path: yentinglin/PegaEval
 test_split: train
 output_type: multiple_choice
 process_docs: !function utils.process_docs
@@ -9,8 +9,5 @@ metric_list:
  - metric: acc
    aggregation: mean
    higher_is_better: true
-  - metric: acc_norm
-    aggregation: mean
-    higher_is_better: true
 metadata:
  version: 0.1
--- a/lm_eval/tasks/tmlu/default/_default_template_yaml
+++ b/lm_eval/tasks/tmlu/default/_default_template_yaml
@@ -12,8 +12,5 @@ metric_list:
  - metric: acc
    aggregation: mean
    higher_is_better: true
-  - metric: acc_norm
-    aggregation: mean
-    higher_is_better: true
 metadata:
  version: 0.1
--- a/lm_eval/tasks/tmmluplus/default/_default_template_yaml
+++ b/lm_eval/tasks/tmmluplus/default/_default_template_yaml
@@ -12,8 +12,5 @@ metric_list:
  - metric: acc
    aggregation: mean
    higher_is_better: true
-  - metric: acc_norm
-    aggregation: mean
-    higher_is_better: true
 metadata:
  version: 0.1
--- a/lm_eval/tasks/tw_legal/default/_default_template_yaml
+++ b/lm_eval/tasks/tw_legal/default/_default_template_yaml
-dataset_path: yentinglin/PegaEval
+dataset_path: lianghsun/tw-legal-benchmark-v1
 test_split: train
 output_type: multiple_choice
 process_docs: !function utils.process_docs
@@ -9,8 +9,5 @@ metric_list:
  - metric: acc
    aggregation: mean
    higher_is_better: true
-  - metric: acc_norm
-    aggregation: mean
-    higher_is_better: true
 metadata:
  version: 0.1
--- a/lm_eval/tasks/twllm_eval/default/_default_template_yaml
+++ b/lm_eval/tasks/twllm_eval/default/_default_template_yaml
@@ -9,8 +9,5 @@ metric_list:
  - metric: acc
    aggregation: mean
    higher_is_better: true
-  - metric: acc_norm
-    aggregation: mean
-    higher_is_better: true
 metadata:
  version: 0.1