Merge pull request #1296 from kvcache-ai/fix-workspace-buffer

fix flashinfer float_workspace_buffer small

Merge pull request #1296 from kvcache-ai/fix-workspace-buffer
fix flashinfer float_workspace_buffer small
4e015ccc · wang jiahao · GitHub · 02948bc1 · e8e83308 · 4e015ccc
Unverified Commit 4e015ccc authored May 14, 2025 by wang jiahao Committed by GitHub May 14, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

ktransformers/server/backend/interfaces/balance_serve.py ktransformers/server/backend/interfaces/balance_serve.py +2 -2

No files found.
--- a/ktransformers/server/backend/interfaces/balance_serve.py
+++ b/ktransformers/server/backend/interfaces/balance_serve.py
@@ -195,13 +195,13 @@ class Engine:
        self.block_num = inference_context.k_cache[0].size(1)
+        self.model_runner = ModelRunner(self.model, self.device, self.args.use_cuda_graph, page_size = args.page_size, block_num=self.block_num)
        #@TODO add config
        if config.architectures[0] == "Qwen2MoeForCausalLM" or config.architectures[0] == "Qwen3MoeForCausalLM":
-            self.model.init_wrapper(self.args.use_cuda_graph, self.device, Config().chunk_size, args.max_batch_size, self.block_num) # TODO: 1024 is a magic number(max_batch_tokens)
+            self.model.init_wrapper(self.args.use_cuda_graph, self.device, max(self.model_runner.cuda_graphs), args.max_batch_size, self.block_num) 
        else:
            self.model.init_wrapper(self.args.use_cuda_graph, self.device, args.max_batch_size, self.block_num)
-        self.model_runner = ModelRunner(self.model, self.device, self.args.use_cuda_graph, page_size = args.page_size, block_num=self.block_num)
        self.sampler = Sampler()
        self.query_manager = QueryManager(device = self.device, page_size = args.page_size)