many edits; working towards first draft.

2c3cb9fc · Lawrence McAfee · 867105c2 · 2c3cb9fc · 2c3cb9fc
Commit 2c3cb9fc authored Mar 24, 2022 by Lawrence McAfee
Expand all Hide whitespace changes
Inline Side-by-side

Showing with 456 additions and 271 deletions

megatron/optimizer/distrib_optimizer.py megatron/optimizer/distrib_optimizer.py +426 -259

megatron/optimizer/optimizer.py megatron/optimizer/optimizer.py +30 -12

No files found.
--- a/megatron/optimizer/distrib_optimizer.py
+++ b/megatron/optimizer/distrib_optimizer.py
--- a/megatron/optimizer/optimizer.py
+++ b/megatron/optimizer/optimizer.py
@@ -323,6 +323,22 @@ class MixedPrecisionOptimizer(MegatronOptimizer):
        self._copy_model_params_to_main_params()
+    # >>>
+    # def zero_grad(self, set_to_none=True):
+    #     """We only need to zero the model related parameters, i.e.,
+    #     float16_groups & fp32_from_fp32_groups. We additionally zero
+    #     fp32_from_float16_groups as a memory optimization to reduce
+    #     fragmentation; in the case of set_to_none==True, the space
+    #     used by this field can be safely deallocated at this point."""
+    #     for group in self.float16_groups:
+    #         _zero_grad_group_helper(group, set_to_none)
+    #     for group in self.fp32_from_float16_groups:
+    #         _zero_grad_group_helper(group, set_to_none)
+    #     for group in self.fp32_from_fp32_groups:
+    #         _zero_grad_group_helper(group, set_to_none)
+    # <<<
    def _unscale_main_grads_and_check_for_nan(self):
        # Collect main grads.
@@ -552,18 +568,20 @@ class Float16OptimizerWithFloat16Params(MixedPrecisionOptimizer):
        self.optimizer.load_state_dict(self.optimizer.state_dict())
-    def zero_grad(self, set_to_none=True):
+    # >>>
-        """We only need to zero the model related parameters, i.e.,
+    # def zero_grad(self, set_to_none=True):
-        float16_groups & fp32_from_fp32_groups. We additionally zero
+    #     """We only need to zero the model related parameters, i.e.,
-        fp32_from_float16_groups as a memory optimization to reduce
+    #     float16_groups & fp32_from_fp32_groups. We additionally zero
-        fragmentation; in the case of set_to_none==True, the space
+    #     fp32_from_float16_groups as a memory optimization to reduce
-        used by this field can be safely deallocated at this point."""
+    #     fragmentation; in the case of set_to_none==True, the space
-        for group in self.float16_groups:
+    #     used by this field can be safely deallocated at this point."""
-            _zero_grad_group_helper(group, set_to_none)
+    #     for group in self.float16_groups:
-        for group in self.fp32_from_float16_groups:
+    #         _zero_grad_group_helper(group, set_to_none)
-            _zero_grad_group_helper(group, set_to_none)
+    #     for group in self.fp32_from_float16_groups:
-        for group in self.fp32_from_fp32_groups:
+    #         _zero_grad_group_helper(group, set_to_none)
-            _zero_grad_group_helper(group, set_to_none)
+    #     for group in self.fp32_from_fp32_groups:
+    #         _zero_grad_group_helper(group, set_to_none)
+    # <<<
    def _collect_main_grad_data_for_unscaling(self):