return multiple metrics

d75cbc7a · Baber · 5b159bf9 · d75cbc7a
Commit d75cbc7a authored Jan 10, 2025 by Baber
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 1 deletion

lm_eval/api/task.py lm_eval/api/task.py +4 -1

No files found.
--- a/lm_eval/api/task.py
+++ b/lm_eval/api/task.py
@@ -1561,7 +1561,10 @@ class ConfigurableTask(Task):
                        result_score = self._metric_fn_list[metric]([gold, result])
                    if isinstance(result_score, dict):
                        # TODO: this handles the case where HF evaluate returns a dict.
-                        result_score = result_score[metric]
+                        # result_score = result_score[metric]
+                        for k, v in result_score.items():
+                            result_dict[k] = v
+                        return result_dict
                result_dict[metric] = result_score
        else:
            raise ValueError(