fix do_sample

d684b9eb · Baber · adbfcce1 · d684b9eb · d684b9eb · d684b9eb
Commit d684b9eb authored Dec 18, 2024 by Baber
13 changed files
--- a/lm_eval/tasks/longbench/passage_retrieval_en_e.yaml
+++ b/lm_eval/tasks/longbench/passage_retrieval_en_e.yaml
@@ -10,7 +10,7 @@ doc_to_target: '{{answers}}'
 generation_kwargs:
  max_gen_toks: 32
  temperature: 1
-  do_sample: False
+  do_sample: True
 metric_list:
  - metric: !function metrics.retrieval_score
    aggregation: mean

--- a/lm_eval/tasks/longbench/passage_retrieval_zh.yaml
+++ b/lm_eval/tasks/longbench/passage_retrieval_zh.yaml
@@ -10,7 +10,7 @@ doc_to_target: '{{answers}}'
 generation_kwargs:
  max_gen_toks: 32
  temperature: 1
-  do_sample: False
+  do_sample: True
 metric_list:
  - metric: !function metrics.retrieval_zh_score
    aggregation: mean

--- a/lm_eval/tasks/longbench/qasper.yaml
+++ b/lm_eval/tasks/longbench/qasper.yaml
@@ -10,7 +10,7 @@ doc_to_target: '{{answers}}'
 generation_kwargs:
  max_gen_toks: 128
  temperature: 1
-  do_sample: False
+  do_sample: True
 metric_list:
  - metric: !function metrics.qa_f1_score
    aggregation: mean

--- a/lm_eval/tasks/longbench/qasper_e.yaml
+++ b/lm_eval/tasks/longbench/qasper_e.yaml
@@ -10,7 +10,7 @@ doc_to_target: '{{answers}}'
 generation_kwargs:
  max_gen_toks: 128
  temperature: 1
-  do_sample: False
+  do_sample: True
 metric_list:
  - metric: !function metrics.qa_f1_score
    aggregation: mean

--- a/lm_eval/tasks/longbench/qmsum.yaml
+++ b/lm_eval/tasks/longbench/qmsum.yaml
@@ -10,7 +10,7 @@ doc_to_target: '{{answers}}'
 generation_kwargs:
  max_gen_toks: 512
  temperature: 1
-  do_sample: False
+  do_sample: True
 metric_list:
  - metric: !function metrics.rouge_score
    aggregation: mean

--- a/lm_eval/tasks/longbench/repobench-p.yaml
+++ b/lm_eval/tasks/longbench/repobench-p.yaml
@@ -10,7 +10,7 @@ doc_to_target: '{{answers}}'
 generation_kwargs:
  max_gen_toks: 64
  temperature: 1
-  do_sample: False
+  do_sample: True
 metric_list:
  - metric: !function metrics.code_sim_score
    aggregation: mean

--- a/lm_eval/tasks/longbench/repobench-p_e.yaml
+++ b/lm_eval/tasks/longbench/repobench-p_e.yaml
@@ -10,7 +10,7 @@ doc_to_target: '{{answers}}'
 generation_kwargs:
  max_gen_toks: 64
  temperature: 1
-  do_sample: False
+  do_sample: True
 metric_list:
  - metric: !function metrics.code_sim_score
    aggregation: mean

--- a/lm_eval/tasks/longbench/samsum.yaml
+++ b/lm_eval/tasks/longbench/samsum.yaml
@@ -10,7 +10,7 @@ doc_to_target: '{{answers}}'
 generation_kwargs:
  max_gen_toks: 128
  temperature: 1
-  do_sample: False
+  do_sample: True
 metric_list:
  - metric: !function metrics.rouge_score
    aggregation: mean

--- a/lm_eval/tasks/longbench/samsum_e.yaml
+++ b/lm_eval/tasks/longbench/samsum_e.yaml
@@ -10,7 +10,7 @@ doc_to_target: '{{answers}}'
 generation_kwargs:
  max_gen_toks: 128
  temperature: 1
-  do_sample: False
+  do_sample: True
 metric_list:
  - metric: !function metrics.rouge_score
    aggregation: mean

--- a/lm_eval/tasks/longbench/trec.yaml
+++ b/lm_eval/tasks/longbench/trec.yaml
@@ -10,7 +10,7 @@ doc_to_target: '{{answers}}'
 generation_kwargs:
  max_gen_toks: 64
  temperature: 1
-  do_sample: False
+  do_sample: True
 metric_list:
  - metric: !function metrics.classification_score
    aggregation: mean

--- a/lm_eval/tasks/longbench/trec_e.yaml
+++ b/lm_eval/tasks/longbench/trec_e.yaml
@@ -10,7 +10,7 @@ doc_to_target: '{{answers}}'
 generation_kwargs:
  max_gen_toks: 64
  temperature: 1
-  do_sample: False
+  do_sample: True
 metric_list:
  - metric: !function metrics.classification_score
    aggregation: mean

--- a/lm_eval/tasks/longbench/triviaqa.yaml
+++ b/lm_eval/tasks/longbench/triviaqa.yaml
@@ -10,7 +10,7 @@ doc_to_target: '{{answers}}'
 generation_kwargs:
  max_gen_toks: 32
  temperature: 1
-  do_sample: False
+  do_sample: True
 metric_list:
  - metric: !function metrics.qa_f1_score
    aggregation: mean

--- a/lm_eval/tasks/longbench/triviaqa_e.yaml
+++ b/lm_eval/tasks/longbench/triviaqa_e.yaml
@@ -10,7 +10,7 @@ doc_to_target: '{{answers}}'
 generation_kwargs:
  max_gen_toks: 32
  temperature: 1
-  do_sample: False
+  do_sample: True
 metric_list:
  - metric: !function metrics.qa_f1_score
    aggregation: mean