[ROCm][Bugfix]: Only save unpadded sizes for shared_experts in MoERunner to...

[ROCm][Bugfix]: Only save unpadded sizes for shared_experts in MoERunner to fix rmsnorm pad fusion (#34636) Signed-off-by: Rohan138 <rohanpotdar138@gmail.com>

[ROCm][Bugfix]: Only save unpadded sizes for shared_experts in MoERunner to...
[ROCm][Bugfix]: Only save unpadded sizes for shared_experts in MoERunner to fix rmsnorm pad fusion (#34636) Signed-off-by: Rohan138 <rohanpotdar138@gmail.com>
ded333fb · Rohan Potdar · GitHub · 9d7577b2 · ded333fb
Unverified Commit ded333fb authored Feb 20, 2026 by Rohan Potdar Committed by GitHub Feb 20, 2026
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 3 deletions

vllm/model_executor/layers/fused_moe/runner/default_moe_runner.py ...el_executor/layers/fused_moe/runner/default_moe_runner.py +6 -3

No files found.
--- a/vllm/model_executor/layers/fused_moe/runner/default_moe_runner.py
+++ b/vllm/model_executor/layers/fused_moe/runner/default_moe_runner.py
@@ -384,8 +384,11 @@ class DefaultMoERunner(MoERunner):
    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
        # For latent MoE: save ORIGINAL hidden_states before transform
        # (shared_experts need original dimension, routed experts use transformed)
+        if self.shared_experts is not None:
            original_hidden_states = hidden_states
            original_hidden_dim = hidden_states.shape[-1]
+        else:
+            original_hidden_states = None

        # Apply transform for routed experts (e.g., latent projection for latent MoE)
        hidden_states = self.apply_routed_input_transform(hidden_states)
@@ -407,7 +410,7 @@ class DefaultMoERunner(MoERunner):
            self._encode_layer_name(),
        )

-        if isinstance(fused_output, tuple):
+        if self.shared_experts is not None:
            orig_hidden_dims = [original_hidden_dim, transformed_hidden_dim]
        else:
            orig_hidden_dims = [transformed_hidden_dim]