[Bugfix] Fixing max token error message for openai compatible server (#4016)

d3c8180a · Jack Gordley · GitHub · 62b8aebc · d3c8180a
Unverified Commit d3c8180a authored Apr 23, 2024 by Jack Gordley Committed by GitHub Apr 23, 2024
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 0 deletions

vllm/entrypoints/openai/serving_engine.py vllm/entrypoints/openai/serving_engine.py +6 -0

No files found.
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -206,6 +206,12 @@ class OpenAIServing:
        token_num = len(input_ids)

        if request.max_tokens is None:
+            if token_num >= self.max_model_len:
+                raise ValueError(
+                    f"This model's maximum context length is "
+                    f"{self.max_model_len} tokens. However, you requested "
+                    f"{token_num} tokens in the messages, "
+                    f"Please reduce the length of the messages.", )
            request.max_tokens = self.max_model_len - token_num

        if token_num + request.max_tokens > self.max_model_len: