Fix openai protocols and pass top_k, min_p (#2499)

361ea8d9 · Lianmin Zheng · GitHub · 33c5ff28 · 361ea8d9 · 361ea8d9
Unverified Commit 361ea8d9 authored Dec 17, 2024 by Lianmin Zheng Committed by GitHub Dec 17, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 13 additions and 5 deletions

python/sglang/srt/openai_api/adapter.py python/sglang/srt/openai_api/adapter.py +4 -0

python/sglang/srt/openai_api/protocol.py python/sglang/srt/openai_api/protocol.py +9 -5

No files found.
--- a/python/sglang/srt/openai_api/adapter.py
+++ b/python/sglang/srt/openai_api/adapter.py
@@ -510,6 +510,8 @@ def v1_generate_request(
                "stop": request.stop,
                "stop_token_ids": request.stop_token_ids,
                "top_p": request.top_p,
+                "top_k": request.top_k,
+                "min_p": request.min_p,
                "presence_penalty": request.presence_penalty,
                "frequency_penalty": request.frequency_penalty,
                "repetition_penalty": request.repetition_penalty,
@@ -926,6 +928,8 @@ def v1_chat_generate_request(
            "stop": stop,
            "stop_token_ids": request.stop_token_ids,
            "top_p": request.top_p,
+            "top_k": request.top_k,
+            "min_p": request.min_p,
            "presence_penalty": request.presence_penalty,
            "frequency_penalty": request.frequency_penalty,
            "repetition_penalty": request.repetition_penalty,

--- a/python/sglang/srt/openai_api/protocol.py
+++ b/python/sglang/srt/openai_api/protocol.py
@@ -166,17 +166,19 @@ class CompletionRequest(BaseModel):
    temperature: float = 1.0
    top_p: float = 1.0
    user: Optional[str] = None
-    lora_path: Optional[Union[List[Optional[str]], Optional[str]]] = None
    # Extra parameters for SRT backend only and will be ignored by OpenAI models.
-    json_schema: Optional[str] = None
+    top_k: int = -1
-    regex: Optional[str] = None
+    min_p: float = 0.0
    min_tokens: int = 0
+    regex: Optional[str] = None
+    json_schema: Optional[str] = None
    repetition_penalty: float = 1.0
    stop_token_ids: Optional[List[int]] = None
    no_stop_trim: bool = False
    ignore_eos: bool = False
    skip_special_tokens: bool = True
+    lora_path: Optional[Union[List[Optional[str]], Optional[str]]] = None
 class CompletionResponseChoice(BaseModel):
@@ -276,14 +278,16 @@ class ChatCompletionRequest(BaseModel):
    user: Optional[str] = None
    # Extra parameters for SRT backend only and will be ignored by OpenAI models.
-    lora_path: Optional[Union[List[Optional[str]], Optional[str]]] = None
+    top_k: int = -1
-    regex: Optional[str] = None
+    min_p: float = 0.0
    min_tokens: int = 0
+    regex: Optional[str] = None
    repetition_penalty: float = 1.0
    stop_token_ids: Optional[List[int]] = None
    no_stop_trim: bool = False
    ignore_eos: bool = False
    skip_special_tokens: bool = True
+    lora_path: Optional[Union[List[Optional[str]], Optional[str]]] = None
 class ChatMessage(BaseModel):