Broadcast parameters from rank 0 just to be safe

604d423b · Thor Johnsen · bc98827b · 604d423b
Commit 604d423b authored Mar 20, 2020 by Thor Johnsen
Show whitespace changes
Inline Side-by-side

Showing with 1 addition and 0 deletions

apex/contrib/optimizers/distributed_fused_adam.py apex/contrib/optimizers/distributed_fused_adam.py +1 -0

No files found.
--- a/apex/contrib/optimizers/distributed_fused_adam.py
+++ b/apex/contrib/optimizers/distributed_fused_adam.py
@@ -89,6 +89,7 @@ class DistributedFusedAdam(torch.optim.Optimizer):
        self._grads_info = []
        for group in self.param_groups:
            for p in group['params']:
+                torch.distributed.broadcast(p,0)
                if not p.requires_grad:
                    continue
                p_grads_size = p.numel()