Minor

fdd0f2f4 · Woosuk Kwon · 7f985166 · fdd0f2f4 · fdd0f2f4 · fdd0f2f4
Commit fdd0f2f4 authored Feb 23, 2023 by Woosuk Kwon
Showing with 4 additions and 3 deletions

cacheflow/master/scheduler.py cacheflow/master/scheduler.py +1 -1

cacheflow/models/sample.py cacheflow/models/sample.py +2 -2

cacheflow/worker/worker.py cacheflow/worker/worker.py +1 -0

No files found.
--- a/cacheflow/master/scheduler.py
+++ b/cacheflow/master/scheduler.py
@@ -216,7 +216,7 @@ class Scheduler:
                    self.block_manager.fork(parent_seq, seq)

                # Append a new token to the sequence.
-                seq.append(next_token)
+                seq.append([next_token])

                # Check if the sequence has generated a stop token.
                if next_token in stop_token_ids:

--- a/cacheflow/models/sample.py
+++ b/cacheflow/models/sample.py
@@ -13,7 +13,7 @@ class Sampler(nn.Module):
        embedding: torch.Tensor,
    ) -> None:
        super().__init__()
-        self.embedding = embedding.t()  # [hidden_size, vocab_size]
+        self.embedding = embedding  # [vocab_size, hidden_size]

    def forward(
        self,
@@ -31,7 +31,7 @@ class Sampler(nn.Module):
        hidden_states = hidden_states[last_token_indicies]

        # Get the logits for the next tokens.
-        logits = torch.matmul(hidden_states, self.embedding)
+        logits = torch.matmul(hidden_states, self.embedding.t())

        # Sample the next tokens.
        # TODO(woosuk): Implement other sampling methods.

--- a/cacheflow/worker/worker.py
+++ b/cacheflow/worker/worker.py
@@ -165,6 +165,7 @@ class Worker:
        output = self.model(
            input_ids=input_tokens,
            positions=input_positions,
+            kv_caches=self.gpu_cache,
            input_metadata=input_metadata,
            cache_events=cache_events,
        )