[fix] compute the grad norm in fp32 (#520)

8dc2030b · Benjamin Lefaudeux · GitHub · 82986ca0 · 8dc2030b
Unverified Commit 8dc2030b authored Mar 15, 2021 by Benjamin Lefaudeux Committed by GitHub Mar 15, 2021
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 1 deletion

fairscale/optim/utils.py fairscale/optim/utils.py +2 -1

No files found.
--- a/fairscale/optim/utils.py
+++ b/fairscale/optim/utils.py
@@ -120,5 +120,6 @@ def calc_grad_norm(parameters: List[torch.nn.Parameter], p: float) -> torch.Tens
    if p == inf:
        local_norm = max(par.grad.detach().abs().max() for par in parameters)  # type: ignore
    else:
-        local_norm = torch.norm(torch.stack([torch.norm(par.grad.detach(), p) for par in parameters]), p)  # type: ignore
+        # Compute the norm in full precision no matter what
+        local_norm = torch.norm(torch.stack([torch.norm(par.grad.detach(), p, dtype=torch.float32) for par in parameters]), p).to(dtype=parameters[0].dtype)  # type: ignore
    return local_norm