add contiguous+rmsnorm to replace triton_

dc54fefe · zhuwenwen · 944a8aab · dc54fefe
Commit dc54fefe authored Nov 07, 2025 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 1 deletion

vllm/model_executor/models/deepseek_v2.py vllm/model_executor/models/deepseek_v2.py +4 -1

No files found.
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -624,7 +624,10 @@ class DeepseekV2MLAAttention(nn.Module):
                q = self.q_proj(hidden_states)[0]
            kv_c, k_pe = self.kv_a_proj_with_mqa(hidden_states)[0].split(
                [self.kv_lora_rank, self.qk_rope_head_dim], dim=-1)
-            kv_c_normed = self.kv_a_layernorm(kv_c.contiguous())
+            if envs.VLLM_USE_LIGHTOP:
+                kv_c_normed = self.kv_a_layernorm.forward_cuda_opt(kv_c)
+            else:
+                kv_c_normed = self.kv_a_layernorm(kv_c.contiguous())
            q = q.view(-1, self.num_local_heads, self.qk_head_dim)
            # Add head dim of 1 to k_pe