SERVING -> RUNNING

a2a9869c · Woosuk Kwon · 46958cf9 · a2a9869c · a2a9869c
Commit a2a9869c authored Feb 12, 2023 by Woosuk Kwon
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

cacheflow/master/block_manager.py cacheflow/master/block_manager.py +1 -1

cacheflow/sequence.py cacheflow/sequence.py +1 -1

No files found.
--- a/cacheflow/master/block_manager.py
+++ b/cacheflow/master/block_manager.py
@@ -95,7 +95,7 @@ class BlockSpaceManager:
        # Simple heuristic: If there is at least one free block
        # for each sequence, we can append.
        num_free_gpu_blocks = self.gpu_allocator.get_num_free_blocks()
-        num_seqs = seq_group.num_seqs(status=SequenceStatus.SERVING)
+        num_seqs = seq_group.num_seqs(status=SequenceStatus.RUNNING)
        return num_seqs <= num_free_gpu_blocks

    def append(self, seq: Sequence) -> Optional[Tuple[int, int]]:

--- a/cacheflow/sequence.py
+++ b/cacheflow/sequence.py
@@ -7,7 +7,7 @@ from cacheflow.decoding import DecodingParams

 class SequenceStatus(enum.Enum):
    PENDING = enum.auto()
-    SERVING = enum.auto()
+    RUNNING = enum.auto()
    SWAPPED = enum.auto()
    FINISHED = enum.auto()