pre-commit format

96dfe976 · lintangsutawika · 3d1b8f43 · 96dfe976 · 96dfe976 · 96dfe976
Commit 96dfe976 authored Jul 03, 2024 by lintangsutawika
Hide whitespace changes
Inline Side-by-side

Showing with 13 additions and 13 deletions

lm_eval/api/task.py lm_eval/api/task.py +6 -6

lm_eval/evaluator.py lm_eval/evaluator.py +4 -4

lm_eval/evaluator_utils.py lm_eval/evaluator_utils.py +3 -3

No files found.
--- a/lm_eval/api/task.py
+++ b/lm_eval/api/task.py
@@ -71,12 +71,12 @@ class GroupConfig(dict):
    group_alias: Optional[str] = None
    task: Optional[Union[str, list]] = None
    tag_to_task: Optional[str] = False
-    aggregate_metric: Optional[
+    aggregate_metric: Optional[Union[List[AggMetricConfig], AggMetricConfig, dict]] = (
-        Union[List[AggMetricConfig], AggMetricConfig, dict]
+        None
-    ] = None
+    )
-    metadata: Optional[
+    metadata: Optional[dict] = (
-        dict
+        None  # by default, not used in the code. allows for users to pass arbitrary info to tasks
-    ] = None  # by default, not used in the code. allows for users to pass arbitrary info to tasks
+    )
    def __getitem__(self, item):
        return getattr(self, item)

--- a/lm_eval/evaluator.py
+++ b/lm_eval/evaluator.py
@@ -688,10 +688,10 @@ def evaluate(
                                    if "N/A" in stderrs:
                                        results[group_or_task][stderr] = "N/A"
                                    else:
-                                        results[group_or_task][
+                                        results[group_or_task][stderr] = (
-                                            stderr
+                                            lm_eval.api.metrics.pooled_sample_stderr(
-                                        ] = lm_eval.api.metrics.pooled_sample_stderr(
+                                                stderrs, sizes
-                                            stderrs, sizes
+                                            )
                                        )
                                        # TODO: allow GroupConfigs to choose which variance formula is used, for back-compatibility
                                        # To use the old (likely incorrect) variance formula, comment out the above and uncomment this line:

--- a/lm_eval/evaluator_utils.py
+++ b/lm_eval/evaluator_utils.py
@@ -344,9 +344,9 @@ def consolidate_results(
                metric_key
            ]
            results[task_output.task_id]["samples"] = task_output.sample_len
-            results[task_output.task_id][
+            results[task_output.task_id][f"{metric}_stderr,{filter_key}"] = (
-                f"{metric}_stderr,{filter_key}"
+                task_output.agg_metrics[f"{metric}_stderr,{filter_key}"]
-            ] = task_output.agg_metrics[f"{metric}_stderr,{filter_key}"]
+            )
    return results, samples, configs, versions, num_fewshot, higher_is_better