[Frontend] Separate OpenAI Batch Runner usage from API Server (#4851)

5e0391c0 · Alex Wu · GitHub · dbc0754d · 5e0391c0 · 5e0391c0
Unverified Commit 5e0391c0 authored May 16, 2024 by Alex Wu Committed by GitHub May 17, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 1 deletion

vllm/entrypoints/openai/run_batch.py vllm/entrypoints/openai/run_batch.py +1 -1

vllm/usage/usage_lib.py vllm/usage/usage_lib.py +1 -0

No files found.
--- a/vllm/entrypoints/openai/run_batch.py
+++ b/vllm/entrypoints/openai/run_batch.py
@@ -101,7 +101,7 @@ async def main(args):
    engine_args = AsyncEngineArgs.from_cli_args(args)
    engine = AsyncLLMEngine.from_engine_args(
-        engine_args, usage_context=UsageContext.OPENAI_API_SERVER)
+        engine_args, usage_context=UsageContext.OPENAI_BATCH_RUNNER)
    # When using single vLLM without engine_use_ray
    model_config = await engine.get_model_config()

--- a/vllm/usage/usage_lib.py
+++ b/vllm/usage/usage_lib.py
@@ -90,6 +90,7 @@ class UsageContext(str, Enum):
    LLM_CLASS = "LLM_CLASS"
    API_SERVER = "API_SERVER"
    OPENAI_API_SERVER = "OPENAI_API_SERVER"
+    OPENAI_BATCH_RUNNER = "OPENAI_BATCH_RUNNER"
    ENGINE_CONTEXT = "ENGINE_CONTEXT"