[BugFix][XPU] fix lora ops bgmv_expand size not match (#39989)

Signed-off-by: Ma, Liangliang <liangliang.ma@intel.com> Co-authored-by: Kunshang Ji <kunshang.ji@intel.com>

[BugFix][XPU] fix lora ops bgmv_expand size not match (#39989)
Signed-off-by: Ma, Liangliang <liangliang.ma@intel.com> Co-authored-by: Kunshang Ji <kunshang.ji@intel.com>
898beca5 · Liangliang Ma · GitHub · 629d45ea · 898beca5
Unverified Commit 898beca5 authored Apr 20, 2026 by Liangliang Ma Committed by GitHub Apr 20, 2026
Hide whitespace changes
Inline Side-by-side

Showing with 36 additions and 3 deletions

vllm/lora/ops/xpu_ops/lora_ops.py vllm/lora/ops/xpu_ops/lora_ops.py +36 -3

No files found.
--- a/vllm/lora/ops/xpu_ops/lora_ops.py
+++ b/vllm/lora/ops/xpu_ops/lora_ops.py
@@ -27,9 +27,42 @@ def bgmv_expand(
    lora_indices_tensor: torch.Tensor,
    add_inputs: bool = True,
 ) -> None:
-    torch.ops._xpu_C.bgmv_expand(
+    weight_out_dim = lora_b_weights.size(-2)
-        output_tensor, inputs, lora_b_weights, lora_indices_tensor, add_inputs
+    output_dim = output_tensor.size(1)
-    )
+    if weight_out_dim == output_dim:
+        torch.ops._xpu_C.bgmv_expand(
+            output_tensor,
+            inputs,
+            lora_b_weights,
+            lora_indices_tensor,
+            add_inputs,
+        )
+    elif weight_out_dim < output_dim:
+        # LoRA weight output dim can be smaller than the output tensor
+        # (e.g. vocab_size vs padded logits). Use expand_slice to write
+        # only the matching portion, mirroring torch_ops common_len logic.
+        torch.ops._xpu_C.bgmv_expand_slice(
+            output_tensor,
+            inputs,
+            lora_b_weights,
+            lora_indices_tensor,
+            0,
+            weight_out_dim,
+            add_inputs,
+        )
+    else:
+        # Weight output dim larger than output tensor: truncate weights.
+        lora_b_weights = lora_b_weights[..., :output_dim, :].contiguous()
+        torch.ops._xpu_C.bgmv_expand_slice(
+            output_tensor,
+            inputs,
+            lora_b_weights,
+            lora_indices_tensor,
+            0,
+            output_dim,
+            add_inputs,
+        )
 def bgmv_expand_slice(