Let max_num_batched_tokens use human_readable_int for large numbers (#18968)

Signed-off-by: mgoin <mgoin64@gmail.com>

Let max_num_batched_tokens use human_readable_int for large numbers (#18968)
Signed-off-by: mgoin <mgoin64@gmail.com>
2ad6194a · Michael Goin · GitHub · c594cbf5 · 2ad6194a
Unverified Commit 2ad6194a authored May 31, 2025 by Michael Goin Committed by GitHub Jun 01, 2025
Show whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

vllm/engine/arg_utils.py vllm/engine/arg_utils.py +1 -1

No files found.
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -224,7 +224,7 @@ def get_kwargs(cls: ConfigType) -> dict[str, Any]:
        elif contains_type(type_hints, int):
            kwargs[name]["type"] = int
            # Special case for large integers
-            if name in {"max_model_len"}:
+            if name in {"max_model_len", "max_num_batched_tokens"}:
                kwargs[name]["type"] = human_readable_int
        elif contains_type(type_hints, float):
            kwargs[name]["type"] = float