Fix switch transformer mixed precision issue (#27220)

* Fix mixed precision error for switch transformer * Fixup

Fix switch transformer mixed precision issue (#27220)
* Fix mixed precision error for switch transformer * Fixup
f13f544a · Shiyu Li · GitHub · db69bd88 · f13f544a · f13f544a
Unverified Commit f13f544a authored Nov 03, 2023 by Shiyu Li Committed by GitHub Nov 03, 2023
2 changed files
--- a/src/transformers/models/gptsan_japanese/modeling_gptsan_japanese.py
+++ b/src/transformers/models/gptsan_japanese/modeling_gptsan_japanese.py
@@ -286,7 +286,7 @@ class GPTSanJapaneseSparseMLP(nn.Module):
        next_states = hidden_states.clone()
        for idx, expert in enumerate(self.experts.values()):
            token_indices = router_mask[:, :, idx].bool()
-            next_states[token_indices] = expert(hidden_states[token_indices])
+            next_states[token_indices] = expert(hidden_states[token_indices]).to(next_states.dtype)
        hidden_states = router_probs * next_states
        return hidden_states, (router_logits, expert_index)

--- a/src/transformers/models/switch_transformers/modeling_switch_transformers.py
+++ b/src/transformers/models/switch_transformers/modeling_switch_transformers.py
@@ -318,7 +318,7 @@ class SwitchTransformersSparseMLP(nn.Module):
        next_states = hidden_states.clone()
        for idx, expert in enumerate(self.experts.values()):
            token_indices = router_mask[:, :, idx].bool()
-            next_states[token_indices] = expert(hidden_states[token_indices])
+            next_states[token_indices] = expert(hidden_states[token_indices]).to(next_states.dtype)
        hidden_states = router_probs * next_states
        return hidden_states, (router_logits, expert_index)