Fix OpenAI server completion_tokens referenced before assignment (#1996)

1aa13615 · Jin Shang · GitHub · fe470ae5 · 1aa13615
Unverified Commit 1aa13615 authored Dec 10, 2023 by Jin Shang Committed by GitHub Dec 09, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 4 deletions

vllm/entrypoints/openai/api_server.py vllm/entrypoints/openai/api_server.py +3 -4

No files found.
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -332,8 +332,7 @@ async def create_chat_completion(request: ChatCompletionRequest,
                    # Send token-by-token response for each request.n
                    delta_text = output.text[len(previous_texts[i]):]
                    previous_texts[i] = output.text
-                    completion_tokens = len(output.token_ids)
+                    previous_num_tokens[i] = len(output.token_ids)
-                    previous_num_tokens[i] = completion_tokens
                    choice_data = ChatCompletionResponseStreamChoice(
                        index=i,
                        delta=DeltaMessage(content=delta_text),
@@ -351,8 +350,8 @@ async def create_chat_completion(request: ChatCompletionRequest,
                    prompt_tokens = len(res.prompt_token_ids)
                    final_usage = UsageInfo(
                        prompt_tokens=prompt_tokens,
-                        completion_tokens=completion_tokens,
+                        completion_tokens=previous_num_tokens[i],
-                        total_tokens=prompt_tokens + completion_tokens,
+                        total_tokens=prompt_tokens + previous_num_tokens[i],
                    )
                    choice_data = ChatCompletionResponseStreamChoice(
                        index=i, delta=[], finish_reason=output.finish_reason)