Fix hanging when prompt exceeds limit (#1029)

e21d7687 · 陈序 · GitHub · ff36139f · e21d7687 · e21d7687
Unverified Commit e21d7687 authored Sep 17, 2023 by 陈序 Committed by GitHub Sep 17, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 10 additions and 13 deletions

vllm/core/scheduler.py vllm/core/scheduler.py +1 -1

vllm/engine/llm_engine.py vllm/engine/llm_engine.py +9 -12

No files found.
--- a/vllm/core/scheduler.py
+++ b/vllm/core/scheduler.py
@@ -175,7 +175,7 @@ class Scheduler:
                num_curr_seqs += num_new_seqs
                scheduled.append(seq_group)
-            if scheduled:
+            if scheduled or ignored_seq_groups:
                scheduler_outputs = SchedulerOutputs(
                    scheduled_seq_groups=scheduled,
                    prompt_run=True,

--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
@@ -294,14 +294,12 @@ class LLMEngine:
    def _schedule(
        self
    ) -> Tuple[List[SequenceGroupMetadata], SchedulerOutputs,
-               Optional[List[RequestOutput]]]:
+               List[RequestOutput]]:
        seq_group_metadata_list, scheduler_outputs = self.scheduler.schedule()
-        if scheduler_outputs.is_empty():
+        return seq_group_metadata_list, scheduler_outputs, [
-            return seq_group_metadata_list, scheduler_outputs, [
+            RequestOutput.from_seq_group(seq_group)
-                RequestOutput.from_seq_group(seq_group)
+            for seq_group in scheduler_outputs.ignored_seq_groups
-                for seq_group in scheduler_outputs.ignored_seq_groups
+        ]
-            ]
-        return seq_group_metadata_list, scheduler_outputs, None
    def _check_beam_search_early_stopping(
        self,
@@ -545,10 +543,9 @@ class LLMEngine:
        and updates the scheduler with the model outputs. Finally, it decodes
        the sequences and returns the newly generated results.
        """
-        (seq_group_metadata_list, scheduler_outputs,
+        seq_group_metadata_list, scheduler_outputs, ignored = self._schedule()
-         early_return) = self._schedule()
+        if scheduler_outputs.is_empty():
-        if early_return is not None:
+            return ignored
-            return early_return
        # Execute the model.
        output = self._run_workers(
@@ -559,7 +556,7 @@ class LLMEngine:
            blocks_to_copy=scheduler_outputs.blocks_to_copy,
        )
-        return self._process_model_outputs(output, scheduler_outputs)
+        return self._process_model_outputs(output, scheduler_outputs) + ignored
    def _log_system_stats(
        self,