update VLLM_USE_TOPK_RENORM

6fa116fb · zhuwenwen · fb35feea · 6fa116fb · 6fa116fb
Commit 6fa116fb authored Jan 20, 2026 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

vllm/envs.py vllm/envs.py +1 -1

vllm/model_executor/layers/fused_moe/fused_moe.py vllm/model_executor/layers/fused_moe/fused_moe.py +1 -1

No files found.
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -1683,7 +1683,7 @@ environment_variables: dict[str, Callable[[], Any]] = {
    # vLLM will use optimized topk_softmax + renormalize
    "VLLM_USE_TOPK_RENORM":
        lambda:
-        (os.environ.get("VLLM_USE_TOPK_RENORM", "False").lower() in
+        (os.environ.get("VLLM_USE_TOPK_RENORM", "True").lower() in
                ("true", "1")),
    # vLLM will use fused RMS + RoPE kernel
    "VLLM_USE_FUSED_RMS_ROPE":

--- a/vllm/model_executor/layers/fused_moe/fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -1363,7 +1363,7 @@ def vllm_topk_softmax(topk_weights: torch.Tensor, topk_indices: torch.Tensor,
                      token_expert_indices: torch.Tensor,
                      gating_output: torch.Tensor,
                      renormalize: bool) -> tuple[torch.Tensor, ...]:
-    if envs.VLLM_USE_TOPK_RENORM:
+    if envs.VLLM_USE_TOPK_RENORM and renormalize is True:
        from lightop import op as op
        op.topk_softmax(
            topk_weights,