make RougeScorer only initialized once (#2090)

eeec6dae · Hailey Schoelkopf · GitHub · a0243d54 · eeec6dae · eeec6dae
Unverified Commit eeec6dae authored Jul 12, 2024 by Hailey Schoelkopf Committed by GitHub Jul 12, 2024
Showing with 17 additions and 2 deletions

lm_eval/tasks/tinyBenchmarks/utils_truthfulqa.py lm_eval/tasks/tinyBenchmarks/utils_truthfulqa.py +7 -1

lm_eval/tasks/truthfulqa/utils.py lm_eval/tasks/truthfulqa/utils.py +10 -1

No files found.
--- a/lm_eval/tasks/tinyBenchmarks/utils_truthfulqa.py
+++ b/lm_eval/tasks/tinyBenchmarks/utils_truthfulqa.py
@@ -6,6 +6,8 @@ from rouge_score import rouge_scorer, scoring
 """ This code mirrors the utils of the original truthful_qa task """
+ROUGE_SCORER = None
 def process_results_mc2(doc, results):
    lls, is_greedy = zip(*results)
@@ -153,7 +155,11 @@ def rouge(refs, preds):
        A `list` of predicted `strs`.
    """
    rouge_types = ["rouge1", "rouge2", "rougeLsum"]
-    scorer = rouge_scorer.RougeScorer(rouge_types)
+    global ROUGE_SCORER
+    if ROUGE_SCORER is None:
+        # init RougeScorer once (https://github.com/EleutherAI/lm-evaluation-harness/issues/1692)--rouge_types are constant
+        ROUGE_SCORER = rouge_scorer.RougeScorer(rouge_types)
+    scorer = ROUGE_SCORER
    # Add newlines between sentences to correctly compute `rougeLsum`.
    def _prepare_summary(summary):

--- a/lm_eval/tasks/truthfulqa/utils.py
+++ b/lm_eval/tasks/truthfulqa/utils.py
@@ -4,6 +4,9 @@ import sacrebleu
 from rouge_score import rouge_scorer, scoring
+ROUGE_SCORER = None
 def process_results_mc2(doc, results):
    lls, is_greedy = zip(*results)
@@ -149,8 +152,14 @@ def rouge(refs, preds):
    :param preds:
        A `list` of predicted `strs`.
    """
    rouge_types = ["rouge1", "rouge2", "rougeLsum"]
-    scorer = rouge_scorer.RougeScorer(rouge_types)
+    global ROUGE_SCORER
+    if ROUGE_SCORER is None:
+        # init RougeScorer once (https://github.com/EleutherAI/lm-evaluation-harness/issues/1692)--rouge_types are constant
+        ROUGE_SCORER = rouge_scorer.RougeScorer(rouge_types)
+    scorer = ROUGE_SCORER
    # Add newlines between sentences to correctly compute `rougeLsum`.
    def _prepare_summary(summary):