Merge pull request #761 from kvcache-ai/fix-server-bug

fix ollama api temperature bug

Merge pull request #761 from kvcache-ai/fix-server-bug
fix ollama api temperature bug
bb54b68e · wang jiahao · GitHub · 69382e58 · 7cdf8139 · bb54b68e
Unverified Commit bb54b68e authored Mar 02, 2025 by wang jiahao Committed by GitHub Mar 02, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

ktransformers/server/backend/interfaces/ktransformers.py ktransformers/server/backend/interfaces/ktransformers.py +1 -1

No files found.
--- a/ktransformers/server/backend/interfaces/ktransformers.py
+++ b/ktransformers/server/backend/interfaces/ktransformers.py
@@ -227,7 +227,7 @@ class KTransformersInterface(TransformersInterface):
        device = self.device_map.get("blk.0.self_attn", {}).get("generate_device", "cuda:0")
        return torch.tensor([self.seq_length - 1], device=device)
    
-    async def inference(self, local_messages, thread_id: str, temperature: Optional[float], top_p: Optional[float]):
+    async def inference(self, local_messages, thread_id: str, temperature: Optional[float] = None, top_p: Optional[float] = None):
        async with self._infer_lock:
            async for v in super().inference(local_messages, thread_id, temperature, top_p):
                yield v