add server zero overhead engine

024e595d · lizhigong · 08c4bafa · 024e595d · 024e595d · 024e595d
Commit 024e595d authored Mar 26, 2025 by lizhigong
3 changed files
--- a/vllm/engine/async_llm_engine.py
+++ b/vllm/engine/async_llm_engine.py
@@ -280,6 +280,8 @@ class _AsyncLLMEngine(LLMEngine):
        """
        # these are cached outputs from previous iterations. None if on first
        # iteration
+        if self.zero_overhead:
+            return self.zero_overhead_step()
        cached_outputs = self.cached_scheduler_outputs[virtual_engine]
        seq_group_metadata_list = cached_outputs.seq_group_metadata_list
        scheduler_outputs = cached_outputs.scheduler_outputs

--- a/vllm/model_executor/layers/ops/update_input.py
+++ b/vllm/model_executor/layers/ops/update_input.py
--- a/vllm/worker/model_runner.py
+++ b/vllm/worker/model_runner.py
@@ -60,7 +60,7 @@ from vllm.worker.model_runner_base import (
    _init_attn_metadata_from_tensor_dict,
    _init_sampling_metadata_from_tensor_dict)
-from vllm.model_executor.layers.ops.update_input import UpdateInputTokens
+from vllm.model_executor.layers.update_input import UpdateInputTokens
 if TYPE_CHECKING:
    from vllm.attention.backends.abstract import AttentionBackend