[FSDP] Upstream fairseq big changes (#956)

* made gradient predivide factor configurable * fix lints Co-authored-by: Your Name <you@example.com>

[FSDP] Upstream fairseq big changes (#956)
* made gradient predivide factor configurable * fix lints Co-authored-by: Your Name <you@example.com>
1bc96fa8 · Christopher Dewan · GitHub · 3c24beb9 · 1bc96fa8
Unverified Commit 1bc96fa8 authored Mar 16, 2022 by Christopher Dewan Committed by GitHub Mar 16, 2022
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 1 deletion

fairscale/nn/data_parallel/fully_sharded_data_parallel.py fairscale/nn/data_parallel/fully_sharded_data_parallel.py +4 -1

No files found.
--- a/fairscale/nn/data_parallel/fully_sharded_data_parallel.py
+++ b/fairscale/nn/data_parallel/fully_sharded_data_parallel.py
@@ -331,6 +331,7 @@ class FullyShardedDataParallel(nn.Module):
        cpu_offload: bool = False,
        offload_config: Optional[OffloadConfig] = None,
        state_dict_on_rank_0_only: bool = False,
+        gradient_predivide_factor: Optional[float] = None,
    ):
        try:
            import torch._C
@@ -399,7 +400,9 @@ class FullyShardedDataParallel(nn.Module):
        # Experimental feature for now. Use at your own risk.
        self.ssd_offload = True if offload_config and offload_config.offload_type == "ssd_offload" else False
-        self.gradient_predivide_factor: float = self._get_gradient_predivide_factor(self.world_size)
+        self.gradient_predivide_factor: float = gradient_predivide_factor or self._get_gradient_predivide_factor(
+            self.world_size
+        )
        self.gradient_postdivide_factor: float = self.world_size / self.gradient_predivide_factor
        self.numel_padded_per_param: List[int] = []