[Fix] Change /generate response-type to json for non-streaming (#374)

be54f8e5 · Nicolas Frenay · GitHub · b396cb49 · be54f8e5
Unverified Commit be54f8e5 authored Jul 06, 2023 by Nicolas Frenay Committed by GitHub Jul 06, 2023
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

vllm/entrypoints/api_server.py vllm/entrypoints/api_server.py +2 -2

No files found.
--- a/vllm/entrypoints/api_server.py
+++ b/vllm/entrypoints/api_server.py
@@ -3,7 +3,7 @@ import json
 from typing import AsyncGenerator
 from fastapi import BackgroundTasks, FastAPI, Request
-from fastapi.responses import Response, StreamingResponse
+from fastapi.responses import JSONResponse, Response, StreamingResponse
 import uvicorn
 from vllm.engine.arg_utils import AsyncEngineArgs
@@ -64,7 +64,7 @@ async def generate(request: Request) -> Response:
    prompt = final_output.prompt
    text_outputs = [prompt + output.text for output in final_output.outputs]
    ret = {"text": text_outputs}
-    return Response(content=json.dumps(ret))
+    return JSONResponse(ret)
 if __name__ == "__main__":