fix exact match valueError

b91cabae · JessicaOjo · 348e304a · b91cabae
Commit b91cabae authored May 14, 2024 by JessicaOjo
Hide whitespace changes
Inline Side-by-side

Showing with 15 additions and 8 deletions

lm_eval/api/task.py lm_eval/api/task.py +15 -8

No files found.
--- a/lm_eval/api/task.py
+++ b/lm_eval/api/task.py
@@ -1367,16 +1367,23 @@ class ConfigurableTask(Task):
                            result_score = 0.0
                else:
                    try:
-                        result_score = self._metric_fn_list[metric](
+                        if metric == "exact_match":
-                            references=[gold],
+                            result_score = self._metric_fn_list[metric](
-                            predictions=[result],
+                                references=[str(gold)],
-                            **self._metric_fn_kwargs[metric],
+                                predictions=[str(result)],
-                        )
+                                **self._metric_fn_kwargs[metric],
+                            )
+                        else:
+                            result_score = self._metric_fn_list[metric](
+                                references=[gold],
+                                predictions=[result],
+                                **self._metric_fn_kwargs[metric],
+                            )
                    except TypeError as error:  # needed for now in order to use a different interface between our own metrics and HF Evaluate metrics
                        result_score = self._metric_fn_list[metric]([gold, result])
-                    if isinstance(result_score, dict):
+                if isinstance(result_score, dict):
-                        # TODO: this handles the case where HF evaluate returns a dict.
+                    # TODO: this handles the case where HF evaluate returns a dict.
-                        result_score = result_score[metric]
+                    result_score = result_score[metric]
                result_dict[metric] = result_score
        else:
            raise ValueError(