Create the return value on device to avoid unnecessary copying from CPU (#26151)

97f439ae · mksit · GitHub · 42791a57 · 97f439ae
Unverified Commit 97f439ae authored Sep 18, 2023 by mksit Committed by GitHub Sep 18, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

src/transformers/models/switch_transformers/modeling_switch_transformers.py ...odels/switch_transformers/modeling_switch_transformers.py +1 -1

No files found.
--- a/src/transformers/models/switch_transformers/modeling_switch_transformers.py
+++ b/src/transformers/models/switch_transformers/modeling_switch_transformers.py
@@ -779,7 +779,7 @@ class SwitchTransformersBlock(nn.Module):
        if isinstance(hidden_states, tuple):
            hidden_states, router_tuple = hidden_states
        else:
-            router_tuple = (torch.tensor([0], device=hidden_states.device),)
+            router_tuple = (torch.zeros((1,), device=hidden_states.device, dtype=torch.int64),)

        # clamp inf values to enable fp16 training
        if hidden_states.dtype == torch.float16 and torch.isinf(hidden_states).any():