Added simple /models endpoint to work with frontends that don't allow bypass check like Openweb-ui

b1bff2a4 · RodriMora · de7e892f · b1bff2a4
Commit b1bff2a4 authored Feb 07, 2025 by RodriMora
Hide whitespace changes
Inline Side-by-side

Showing with 11 additions and 3 deletions

ktransformers/server/api/openai/endpoints/chat.py ktransformers/server/api/openai/endpoints/chat.py +11 -3

No files found.
--- a/ktransformers/server/api/openai/endpoints/chat.py
+++ b/ktransformers/server/api/openai/endpoints/chat.py
@@ -10,8 +10,16 @@ from ktransformers.server.backend.base import BackendInterfaceBase
 router = APIRouter()
+models = [
+    {"id": "0", "name": "ktranformers-model"},
+]
-@router.post('/chat/completions',tags=['openai'])
+@router.get('/models', tags=['openai'])
+async def list_models():
+    return models
+@router.post('/chat/completions', tags=['openai'])
 async def chat_completion(request:Request,create:ChatCompletionCreate):
    id = str(uuid4())
@@ -23,12 +31,12 @@ async def chat_completion(request:Request,create:ChatCompletionCreate):
    if create.stream:
        async def inner():
            chunk = ChatCompletionChunk(id=id,object='chat.completion.chunk',created=int(time()))
-            async for token in interface.inference(input_message,id):     
+            async for token in interface.inference(input_message,id):
                chunk.set_token(token)
                yield chunk
        return chat_stream_response(request,inner())
    else:
        comp = ChatCompletionObject(id=id,object='chat.completion.chunk',created=int(time()))
-        async for token in interface.inference(input_message,id):     
+        async for token in interface.inference(input_message,id):
            comp.append_token(token)
        return comp