use 'max_active_experts' for moe lora input size (#33197)

Signed-off-by: gnovack <gnovack@amazon.com>

use 'max_active_experts' for moe lora input size (#33197)
Signed-off-by: gnovack <gnovack@amazon.com>
a532c838 · gnovack · GitHub · 1e5ad9b7 · a532c838 · a532c838
Unverified Commit a532c838 authored Feb 26, 2026 by gnovack Committed by GitHub Feb 27, 2026
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 0 deletions

tests/lora/test_moe_lora_align_sum.py tests/lora/test_moe_lora_align_sum.py +2 -0

vllm/lora/punica_wrapper/punica_gpu.py vllm/lora/punica_wrapper/punica_gpu.py +2 -0

No files found.
--- a/tests/lora/test_moe_lora_align_sum.py
+++ b/tests/lora/test_moe_lora_align_sum.py
@@ -47,6 +47,8 @@ def test_moe_lora_align_block_size(
    # compute paddings
    max_num_tokens_padded = topk_ids.numel() + num_experts * (block_size - 1)
    max_num_tokens_padded = round_up(max_num_tokens_padded, block_size)
+    if topk_ids.numel() < num_experts:
+        max_num_tokens_padded = topk_ids.numel() * block_size
    max_num_m_blocks = CEILDIV(max_num_tokens_padded, block_size)

    # init output tensors

--- a/vllm/lora/punica_wrapper/punica_gpu.py
+++ b/vllm/lora/punica_wrapper/punica_gpu.py
@@ -351,6 +351,8 @@ class PunicaWrapperGPU(PunicaWrapperBase):
            max_num_tokens_padded = topk_ids.numel() + num_experts * (block_size - 1)
            if pad_sorted_ids:
                max_num_tokens_padded = round_up(max_num_tokens_padded, block_size)
+            if topk_ids.numel() < num_experts:
+                max_num_tokens_padded = topk_ids.numel() * block_size
            sorted_ids = torch.empty(
                (max_loras * max_num_tokens_padded,),
                dtype=torch.int32,