[perf] use optimized topk_softmax + renormalize (lightop)

e9e95d0f · zhuwenwen · 06e16a27 · e9e95d0f
Commit e9e95d0f authored Feb 04, 2026 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 18 additions and 7 deletions

vllm/model_executor/layers/fused_moe/router/fused_topk_router.py ...del_executor/layers/fused_moe/router/fused_topk_router.py +18 -7

No files found.
--- a/vllm/model_executor/layers/fused_moe/router/fused_topk_router.py
+++ b/vllm/model_executor/layers/fused_moe/router/fused_topk_router.py
@@ -9,6 +9,8 @@ from vllm._aiter_ops import rocm_aiter_ops
 from vllm.distributed.eplb.eplb_state import EplbLayerState
 from vllm.model_executor.layers.fused_moe.config import RoutingMethodType
 from vllm.model_executor.layers.fused_moe.router.base_router import BaseRouter
+import vllm.envs as envs
+from lightop import op as op
 def vllm_topk_softmax(
@@ -18,6 +20,15 @@ def vllm_topk_softmax(
    gating_output: torch.Tensor,
    renormalize: bool = False,
 ) -> tuple[torch.Tensor, ...]:
+    if envs.VLLM_USE_TOPK_RENORM and renormalize is True:
+        op.topk_softmax(
+            topk_weights,
+            topk_indices,
+            token_expert_indices,
+            gating_output,
+            renormalize,
+        )
+    else:
        ops.topk_softmax(
            topk_weights,
            topk_indices,