[novograd] move exp_avg_sq to param device in load_state_dict (#459)

53eae198 · Deyu Fu · mcarilli · dec4fdd6 · 53eae198
Commit 53eae198 authored Aug 29, 2019 by Deyu Fu Committed by mcarilli Aug 29, 2019
Hide whitespace changes
Inline Side-by-side

Showing with 8 additions and 0 deletions

apex/optimizers/fused_novograd.py apex/optimizers/fused_novograd.py +8 -0

No files found.
--- a/apex/optimizers/fused_novograd.py
+++ b/apex/optimizers/fused_novograd.py
@@ -95,6 +95,14 @@ class FusedNovoGrad(torch.optim.Optimizer):
        else:
            super(FusedNovoGrad, self).zero_grad()
+    def load_state_dict(self, state_dict):
+        super(FusedNovoGrad, self).load_state_dict(state_dict)
+        # in case exp_avg_sq is not on the same device as params, move it there
+        for group in self.param_groups:
+            if len(group['params']) > 0:
+                group['exp_avg_sq'][0] = group['exp_avg_sq'][0].to(group['params'][0].device)
+                group['exp_avg_sq'][1] = group['exp_avg_sq'][1].to(group['params'][0].device)
    def step(self, closure=None):
        """Performs a single optimization step.