[`SwitchTransformer`] Significant performance improvement on MoE blocks (#31173)

* SwitchTransformer MoE layer performance improvement * make fixup * comments about shapes * make fixup

[`SwitchTransformer`] Significant performance improvement on MoE blocks (#31173)
* SwitchTransformer MoE layer performance improvement * make fixup * comments about shapes * make fixup
9b85e405 · Ranggi Hwang · GitHub · 8177aa0e · 9b85e405
Unverified Commit 9b85e405 authored Jun 06, 2024 by Ranggi Hwang Committed by GitHub Jun 06, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 11 additions and 3 deletions

src/transformers/models/switch_transformers/modeling_switch_transformers.py ...odels/switch_transformers/modeling_switch_transformers.py +11 -3

No files found.
--- a/src/transformers/models/switch_transformers/modeling_switch_transformers.py
+++ b/src/transformers/models/switch_transformers/modeling_switch_transformers.py
@@ -294,9 +294,17 @@ class SwitchTransformersSparseMLP(nn.Module):
        # can be unchanged from one layer to another. That is why the hidden states are cloned before updating only the seleced ones.

        next_states = hidden_states.clone()
-        for idx, expert in enumerate(self.experts.values()):
-            token_indices = router_mask[:, :, idx].bool()
-            next_states[token_indices] = expert(hidden_states[token_indices]).to(next_states.dtype)
+
+        router_mask = router_mask.bool()
+        batch_size, seq_len, num_experts = router_mask.shape
+        idx_mask = router_mask.transpose(1, 2).reshape(batch_size * seq_len, num_experts).sum(dim=0)
+        idx_mask = torch.nonzero(idx_mask, as_tuple=True)[
+            0
+        ].tolist()  # length: number of "activated" expert / value: index
+        for idx in idx_mask:
+            next_states[router_mask[:, :, idx]] = getattr(self.experts, "expert_{}".format(idx))(
+                hidden_states[router_mask[:, :, idx]]
+            )

        hidden_states = router_probs * next_states
        return hidden_states, (router_logits, expert_index)