[Perf] Optimize FusedMoEModularKernel output tensor using torch.empty (#35794)

Signed-off-by: Xin Yang <xyangx@amazon.com>

[Perf] Optimize FusedMoEModularKernel output tensor using torch.empty (#35794)
Signed-off-by: Xin Yang <xyangx@amazon.com>
f9170209 · Xin Yang · GitHub · 86483ca7 · f9170209
Unverified Commit f9170209 authored Mar 05, 2026 by Xin Yang Committed by GitHub Mar 05, 2026
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

vllm/model_executor/layers/fused_moe/modular_kernel.py vllm/model_executor/layers/fused_moe/modular_kernel.py +1 -1

No files found.
--- a/vllm/model_executor/layers/fused_moe/modular_kernel.py
+++ b/vllm/model_executor/layers/fused_moe/modular_kernel.py
@@ -1519,7 +1519,7 @@ class FusedMoEKernelModularImpl:
            assert not disable_inplace()
            output = hidden_states
        else:
-            output = torch.zeros_like(hidden_states)
+            output = torch.empty_like(hidden_states)
        local_num_experts = w1.size(0)
        if global_num_experts == -1: