fix(planner): don't block agg decode scaling when max_num_batched_tokens is missing (#8196)

Signed-off-by: hongkuanz <hongkuanz@nvidia.com> Co-authored-by: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

fix(planner): don't block agg decode scaling when max_num_batched_tokens is missing (#8196)
Signed-off-by: hongkuanz <hongkuanz@nvidia.com> Co-authored-by: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
d185c881 · Hongkuan Zhou · GitHub · af0ff07c · d185c881
Unverified Commit d185c881 authored Apr 14, 2026 by Hongkuan Zhou Committed by GitHub Apr 14, 2026
Show whitespace changes
Inline Side-by-side

Showing with 9 additions and 5 deletions

components/src/dynamo/planner/core/load_scaling.py components/src/dynamo/planner/core/load_scaling.py +9 -5

No files found.
--- a/components/src/dynamo/planner/core/load_scaling.py
+++ b/components/src/dynamo/planner/core/load_scaling.py
@@ -243,10 +243,11 @@ class LoadScalingMixin:
        d_caps = self._capabilities.decode
        max_tokens = d_caps.max_num_batched_tokens if d_caps else None
        if not max_tokens or max_tokens <= 0:
-            logger.warning("max_num_batched_tokens not available, skipping agg scaling")
+            logger.warning(
-            self._diag_load_reason = "insufficient_data"
+                "max_num_batched_tokens not available, skipping agg prefill scaling"
-            return None
+            )
+            p_desired = None
+        else:
            p_desired = self._agg_prefill_scaling(fpm_stats, num_workers, max_tokens)
        d_desired = self._agg_decode_scaling(fpm_stats, num_workers)
@@ -258,6 +259,9 @@ class LoadScalingMixin:
            desired = p_desired
        elif d_desired is not None and d_desired > num_workers:
            desired = d_desired
+        elif p_desired is None and d_desired is not None and d_desired < num_workers:
+            # Prefill signal unavailable: allow decode-only scale-down.
+            desired = d_desired
        elif (
            p_desired is not None
            and p_desired < num_workers