add custom server params (#1868)

60dc62dc · Roy · GitHub · 0f90effc · 60dc62dc · 60dc62dc
Unverified Commit 60dc62dc authored Dec 04, 2023 by Roy Committed by GitHub Dec 03, 2023
Showing with 9 additions and 0 deletions

vllm/entrypoints/openai/api_server.py vllm/entrypoints/openai/api_server.py +4 -0

vllm/entrypoints/openai/protocol.py vllm/entrypoints/openai/protocol.py +4 -0

vllm/sampling_params.py vllm/sampling_params.py +1 -0

No files found.
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -253,8 +253,10 @@ async def create_chat_completion(request: ChatCompletionRequest,
            n=request.n,
            presence_penalty=request.presence_penalty,
            frequency_penalty=request.frequency_penalty,
+            repetition_penalty=request.repetition_penalty,
            temperature=request.temperature,
            top_p=request.top_p,
+            min_p=request.min_p,
            stop=request.stop,
            stop_token_ids=request.stop_token_ids,
            max_tokens=request.max_tokens,
@@ -497,9 +499,11 @@ async def create_completion(request: CompletionRequest, raw_request: Request):
            best_of=request.best_of,
            presence_penalty=request.presence_penalty,
            frequency_penalty=request.frequency_penalty,
+            repetition_penalty=request.repetition_penalty,
            temperature=request.temperature,
            top_p=request.top_p,
            top_k=request.top_k,
+            min_p=request.min_p,
            stop=request.stop,
            stop_token_ids=request.stop_token_ids,
            ignore_eos=request.ignore_eos,

--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -75,6 +75,8 @@ class ChatCompletionRequest(BaseModel):
    spaces_between_special_tokens: Optional[bool] = True
    add_generation_prompt: Optional[bool] = True
    echo: Optional[bool] = False
+    repetition_penalty: Optional[float] = 1.0
+    min_p: Optional[float] = 0.0


 class CompletionRequest(BaseModel):
@@ -102,6 +104,8 @@ class CompletionRequest(BaseModel):
    stop_token_ids: Optional[List[int]] = Field(default_factory=list)
    skip_special_tokens: Optional[bool] = True
    spaces_between_special_tokens: Optional[bool] = True
+    repetition_penalty: Optional[float] = 1.0
+    min_p: Optional[float] = 0.0


 class LogProbs(BaseModel):

--- a/vllm/sampling_params.py
+++ b/vllm/sampling_params.py
@@ -149,6 +149,7 @@ class SamplingParams:
                # Zero temperature means greedy sampling.
                self.top_p = 1.0
                self.top_k = -1
+                self.min_p = 0.0
                self._verify_greedy_sampling()

    def _verify_args(self) -> None: