MLA模块CRQ融合分支增加rms_cuda_opt

8c646ebe · wujl5 · 22a14b84 · 8c646ebe
Commit 8c646ebe authored Nov 20, 2025 by wujl5
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 1 deletion

vllm/model_executor/models/deepseek_v2.py vllm/model_executor/models/deepseek_v2.py +4 -1

No files found.
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -651,7 +651,10 @@ class DeepseekV2MLAAttention(nn.Module):
                q = self.q_proj(hidden_states)[0]
            kv_c, k_pe = self.kv_a_proj_with_mqa(hidden_states)[0].split(
                [self.kv_lora_rank, self.qk_rope_head_dim], dim=-1)
-            kv_c_normed = self.kv_a_layernorm(kv_c.contiguous())
+            if envs.VLLM_USE_LIGHTOP:
+                kv_c_normed = self.kv_a_layernorm.forward_cuda_opt(kv_c)
+            else: 
+                kv_c_normed = self.kv_a_layernorm(kv_c.contiguous())

            q = q.view(-1, self.num_local_heads, self.qk_head_dim)
            k_pe = k_pe.unsqueeze(1)