update VLLM_USE_FUSED_RMS_ROPE=0 (default)

for qwen3, VLLM_USE_FUSED_RMS_ROPE=1 (default)

update VLLM_USE_FUSED_RMS_ROPE=0 (default)
for qwen3, VLLM_USE_FUSED_RMS_ROPE=1 (default)
0d5dd2da · zhuwenwen · 25e16eea · 0d5dd2da · 0d5dd2da
Commit 0d5dd2da authored Jan 21, 2026 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 1 deletion

vllm/envs.py vllm/envs.py +1 -1

vllm/model_executor/model_loader/utils.py vllm/model_executor/model_loader/utils.py +4 -0

No files found.
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -1309,7 +1309,7 @@ environment_variables: dict[str, Callable[[], Any]] = {
    # vLLM will use fused RMS + RoPE kernel
    "VLLM_USE_FUSED_RMS_ROPE":
-        lambda: (os.environ.get("VLLM_USE_FUSED_RMS_ROPE", "True").lower() in
+        lambda: (os.environ.get("VLLM_USE_FUSED_RMS_ROPE", "False").lower() in
                 ("true", "1")),
    # vLLM will use Marlin W16A16 kernel for MoE experts
    "VLLM_USE_MARLIN_W16A16_MOE":

--- a/vllm/model_executor/model_loader/utils.py
+++ b/vllm/model_executor/model_loader/utils.py
@@ -287,6 +287,8 @@ def get_model_architecture(
                        os.environ['VLLM_USE_FUSE_SILU_AND_MUL'] = '1'
                    if not envs.is_set("VLLM_USE_OPT_RESHAPE_AND_CACHE"):
                        os.environ['VLLM_USE_OPT_RESHAPE_AND_CACHE'] = '1'
+                    if not envs.is_set("VLLM_USE_FUSED_RMS_ROPE"):
+                        os.environ['VLLM_USE_FUSED_RMS_ROPE'] = '1'
            if architectures in [['DeepseekV32ForCausalLM']]:
                if not envs.is_set("VLLM_USE_V32_ENCODE"):
@@ -334,6 +336,8 @@ def get_model_architecture(
                        os.environ['VLLM_USE_FUSE_SILU_AND_MUL'] = '1'
                    if not envs.is_set("VLLM_USE_OPT_RESHAPE_AND_CACHE"):
                        os.environ['VLLM_USE_OPT_RESHAPE_AND_CACHE'] = '1'
+                    if not envs.is_set("VLLM_USE_FUSED_RMS_ROPE"):
+                        os.environ['VLLM_USE_FUSED_RMS_ROPE'] = '1'
            if architectures in [['DeepseekV32ForCausalLM']]:
                if not envs.is_set("VLLM_USE_V32_ENCODE"):