[Fix] Remove divisibility requirement between num_kv_heads and tp_size in bailing_moe (#26876)

Signed-off-by: vito.yy <vito.yy@antgroup.com>

[Fix] Remove divisibility requirement between num_kv_heads and tp_size in bailing_moe (#26876)
Signed-off-by: vito.yy <vito.yy@antgroup.com>
5c3bae1a · ant-yy · GitHub · 5210dc39 · 5c3bae1a
Unverified Commit 5c3bae1a authored Oct 15, 2025 by ant-yy Committed by GitHub Oct 15, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 2 deletions

vllm/model_executor/models/bailing_moe.py vllm/model_executor/models/bailing_moe.py +1 -2

No files found.
--- a/vllm/model_executor/models/bailing_moe.py
+++ b/vllm/model_executor/models/bailing_moe.py
@@ -86,13 +86,12 @@ class BailingAttention(nn.Module):
        tp_size = get_tensor_model_parallel_world_size()
        assert self.total_num_heads % tp_size == 0
-        assert self.total_kv_heads % tp_size == 0
        assert self.total_num_heads >= self.total_kv_heads
        self.num_heads = self.total_num_heads // tp_size
        self.head_dim = config.head_dim or (self.hidden_size // self.total_num_heads)
        self.q_size_per_rank = self.head_dim * self.num_heads
-        self.num_kv_heads = self.total_kv_heads // tp_size
+        self.num_kv_heads = max(1, self.total_kv_heads // tp_size)
        self.kv_size_per_rank = self.num_kv_heads * self.head_dim
        self.scale = self.head_dim**-0.5
        self.use_qk_norm = getattr(config, "use_qk_norm", False)