[Frontend] Expose revision arg in OpenAI server (#8501)

837c1968 · lewtun · GitHub · a091e2da · 837c1968
Unverified Commit 837c1968 authored Sep 16, 2024 by lewtun Committed by GitHub Sep 16, 2024
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 2 deletions

vllm/entrypoints/openai/api_server.py vllm/entrypoints/openai/api_server.py +4 -2

No files found.
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -69,8 +69,10 @@ _running_tasks: Set[asyncio.Task] = set()


 def model_is_embedding(model_name: str, trust_remote_code: bool,
-                       quantization: Optional[str]) -> bool:
+                       quantization: Optional[str],
+                       revision: Optional[str]) -> bool:
    return ModelConfig(model=model_name,
+                       revision=revision,
                       tokenizer=model_name,
                       tokenizer_mode="auto",
                       trust_remote_code=trust_remote_code,
@@ -130,7 +132,7 @@ async def build_async_engine_client_from_engine_args(
    # If manually triggered or embedding model, use AsyncLLMEngine in process.
    # TODO: support embedding model via RPC.
    if (model_is_embedding(engine_args.model, engine_args.trust_remote_code,
-                           engine_args.quantization)
+                           engine_args.quantization, engine_args.revision)
            or disable_frontend_multiprocessing):
        engine_client = AsyncLLMEngine.from_engine_args(
            engine_args, usage_context=UsageContext.OPENAI_API_SERVER)