[LoRA] Make LoRA respect `language_model_only` (#37375)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>

[LoRA] Make LoRA respect `language_model_only` (#37375)
Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
8c31f47c · Jee Jee Li · GitHub · 26180124 · 8c31f47c · 8c31f47c
Unverified Commit 8c31f47c authored Mar 18, 2026 by Jee Jee Li Committed by GitHub Mar 18, 2026
Show whitespace changes
Inline Side-by-side

Showing with 14 additions and 3 deletions

vllm/lora/model_manager.py vllm/lora/model_manager.py +13 -1

vllm/lora/ops/triton_ops/fused_moe_lora_fp8_op.py vllm/lora/ops/triton_ops/fused_moe_lora_fp8_op.py +1 -2

No files found.
--- a/vllm/lora/model_manager.py
+++ b/vllm/lora/model_manager.py
@@ -161,9 +161,9 @@ class LoRAModelManager:
            device=self.device,
            lora_config=self.lora_config,
        )
        lm_prefix = self.mm_mapping.language_model[0]
        self.punica_wrapper_mapping[lm_prefix] = llm_punica_wrapper
        if self.lora_config.enable_tower_connector_lora:
            self.supports_tower_connector_lora = self.supports_mm and hasattr(
                self.model, "get_num_mm_encoder_tokens"
@@ -171,6 +171,18 @@ class LoRAModelManager:
        if not self.supports_tower_connector_lora:
            return
+        if (
+            vllm_config.model_config.multimodal_config
+            and vllm_config.model_config.multimodal_config.language_model_only
+        ):
+            if self.supports_tower_connector_lora:
+                logger.warning(
+                    "Disabling `enable_tower_connector_lora` because the multimodal "
+                    "model is configured to initialize the language model only."
+                )
+                self.supports_tower_connector_lora = False
+            return
        logger.warning(
            "LoRA for the tower and connector of multimodal models is "
            "experimental and may contain bugs. Please report any related issues on "

--- a/vllm/lora/ops/triton_ops/fused_moe_lora_fp8_op.py
+++ b/vllm/lora/ops/triton_ops/fused_moe_lora_fp8_op.py
@@ -10,11 +10,10 @@ from vllm.distributed import (
    tensor_model_parallel_all_gather,
    tensor_model_parallel_all_reduce,
 )
+from vllm.lora.ops.triton_ops.utils import supports_pdl
 from vllm.triton_utils import tl, triton
 from vllm.utils.torch_utils import direct_register_custom_op
-from .utils import supports_pdl
 @triton.jit
 def _get_lora_id(