update VLLM_USE_FUSED_RMS_ROPE=0 (default)

for qwen3, VLLM_USE_FUSED_RMS_ROPE=1 (default)

update VLLM_USE_FUSED_RMS_ROPE=0 (default)
for qwen3, VLLM_USE_FUSED_RMS_ROPE=1 (default)
80a6b121 · zhuwenwen · ba73bd6f · 80a6b121 · 80a6b121
Commit 80a6b121 authored Jan 21, 2026 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 1 deletion

vllm/envs.py vllm/envs.py +1 -1

vllm/model_executor/model_loader/utils.py vllm/model_executor/model_loader/utils.py +4 -0

No files found.
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -1686,7 +1686,7 @@ environment_variables: dict[str, Callable[[], Any]] = {
                ("true", "1")),
    # vLLM will use fused RMS + RoPE kernel
    "VLLM_USE_FUSED_RMS_ROPE":
-        lambda: (os.environ.get("VLLM_USE_FUSED_RMS_ROPE", "True").lower() in
+        lambda: (os.environ.get("VLLM_USE_FUSED_RMS_ROPE", "False").lower() in
                 ("true", "1")),
    # vLLM will use fast token id copy
    "VLLM_V1_FAST_TOKEN_ID_COPY":

--- a/vllm/model_executor/model_loader/utils.py
+++ b/vllm/model_executor/model_loader/utils.py
@@ -210,6 +210,8 @@ def _get_model_architecture(
                        os.environ['VLLM_USE_FUSE_SILU_AND_MUL'] = '1'
                    if not envs.is_set("VLLM_USE_OPT_RESHAPE_AND_CACHE"):
                        os.environ['VLLM_USE_OPT_RESHAPE_AND_CACHE'] = '1'
+                    if not envs.is_set("VLLM_USE_FUSED_RMS_ROPE"):
+                        os.environ['VLLM_USE_FUSED_RMS_ROPE'] = '1'

            if architectures in [['DeepseekV32ForCausalLM']]:
                if not envs.is_set("VLLM_USE_V32_ENCODE"):
@@ -237,6 +239,8 @@ def _get_model_architecture(
                        os.environ['VLLM_USE_FUSE_SILU_AND_MUL'] = '1'
                    if not envs.is_set("VLLM_USE_OPT_RESHAPE_AND_CACHE"):
                        os.environ['VLLM_USE_OPT_RESHAPE_AND_CACHE'] = '1'
+                    if not envs.is_set("VLLM_USE_FUSED_RMS_ROPE"):
+                        os.environ['VLLM_USE_FUSED_RMS_ROPE'] = '1'
            
            if architectures in [['DeepseekV32ForCausalLM']]:
                if not envs.is_set("VLLM_USE_V32_ENCODE"):