update VLLM_USE_OPT_CAT

4d97c5fc · zhuwenwen · 8d2cac26 · 4d97c5fc · 4d97c5fc · 4d97c5fc
Commit 4d97c5fc authored Sep 24, 2025 by zhuwenwen
4 changed files
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -1094,15 +1094,15 @@ environment_variables: dict[str, Callable[[], Any]] = {
    "VLLM_USE_GLOBAL_CACHE13":
        lambda: (os.environ.get("VLLM_USE_GLOBAL_CACHE13", "False").lower() in
                 ("true", "1")),
-    # vLLM will use global cache for moe
+    # vLLM will use lightop for deepseek-v3
    "VLLM_USE_LIGHTOP":
        lambda: (os.environ.get("VLLM_USE_LIGHTOP", "False").lower() in
                 ("true", "1")),
-    # vLLM will use global cache for moe
+    # vLLM will use opt cat for deepseek-v3
    "VLLM_USE_OPT_CAT":
-        lambda: (os.environ.get("VLLM_USE_OPT_CAT", "True").lower() in
+        lambda: (os.environ.get("VLLM_USE_OPT_CAT", "False").lower() in
                 ("true", "1")),  
-    # vLLM will use opt merge_aatn_states,not triton
+    # vLLM will use opt merge_aatn_states, not triton
    "VLLM_USE_MERGE_ATTN_STATES_OPT":
        lambda: (os.environ.get("VLLM_USE_MERGE_ATTN_STATES_OPT", "True").lower() in
                 ("true", "1")),  

--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -1442,8 +1442,8 @@ class FusedMoE(torch.nn.Module):
        if current_platform.is_tpu():
            return self.forward_impl(hidden_states, router_logits)
        else:
-            return torch.ops.vllm.moe_forward(hidden_states, router_logits, shared_output,
+            return torch.ops.vllm.moe_forward(hidden_states, router_logits,
-                                              self.layer_name)
+                                              self.layer_name, shared_output)
    def forward_impl_chunked(self, full_hidden_states: torch.Tensor,
                             full_router_logits: torch.Tensor):

--- a/vllm/model_executor/model_loader/utils.py
+++ b/vllm/model_executor/model_loader/utils.py
@@ -247,6 +247,8 @@ def get_model_architecture(
            if (architectures == ['DeepseekV3ForCausalLM'] or architectures == ['DeepSeekMTPModel']):
                if not envs.is_set("VLLM_USE_LIGHTOP"):
                    os.environ['VLLM_USE_LIGHTOP'] = '1'
+                if not envs.is_set("VLLM_USE_OPT_CAT"):
+                    os.environ['VLLM_USE_OPT_CAT'] = '1'
            if os.getenv('GEMM_PAD') != '1': 
                os.environ['GEMM_PAD'] = '0'

--- a/vllm/v1/attention/backends/mla/test_concat.py
+++ b/vllm/v1/attention/backends/mla/test_concat.py
@@ -7,7 +7,7 @@ import torch
 import math
 import vllm.envs as envs
-if envs.VLLM_USE_LIGHTOP:
+if envs.VLLM_USE_OPT_CAT:
    from lightop import ds_cat
 def test_concat_Acc_prefill(shape_pair, dim):