update arg_utils.py

746d9b40 · zhuwenwen · fcfc474d · 746d9b40
Commit 746d9b40 authored Apr 09, 2025 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 8 additions and 1 deletion

vllm/engine/arg_utils.py vllm/engine/arg_utils.py +8 -1

No files found.
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -184,6 +184,7 @@ class EngineArgs:
    logits_processor_pattern: Optional[str] = None
    speculative_config: Optional[Dict[str, Any]] = None
+    num_speculative_heads: Optional[int] = None
    qlora_adapter_name_or_path: Optional[str] = None
    show_hidden_metrics_for_version: Optional[str] = None
@@ -793,6 +794,12 @@ class EngineArgs:
                            default=None,
                            help='The configurations for speculative decoding.'
                            ' Should be a JSON string.')
+        parser.add_argument(
+            '--num-speculative-heads',
+            type=int,
+            default=EngineArgs.num_speculative_heads,
+            help='The number of speculative heads to sample from '
+                 'the draft model in speculative decoding.')
        parser.add_argument('--model-loader-extra-config',
                            type=nullable_str,
                            default=EngineArgs.model_loader_extra_config,
@@ -1745,4 +1752,4 @@ def _engine_args_parser():
 def _async_engine_args_parser():
    return AsyncEngineArgs.add_cli_args(FlexibleArgumentParser(),
                                        async_args_only=True)
\ No newline at end of file