Merge branch 'fix_grad_scalar_warning' into 'main'

fixed grad scalar warning for bf16 See merge request ADLR/megatron-lm!442

Merge branch 'fix_grad_scalar_warning' into 'main'
fixed grad scalar warning for bf16 See merge request ADLR/megatron-lm!442
d63c2541 · Jared Casper · 91384a5a · aaa5715a · d63c2541 · d63c2541
Commit d63c2541 authored Aug 16, 2022 by Jared Casper
Show whitespace changes
Inline Side-by-side

Showing with 7 additions and 5 deletions

megatron/optimizer/distrib_optimizer.py megatron/optimizer/distrib_optimizer.py +3 -2

megatron/optimizer/optimizer.py megatron/optimizer/optimizer.py +4 -3

No files found.
--- a/megatron/optimizer/distrib_optimizer.py
+++ b/megatron/optimizer/distrib_optimizer.py
@@ -449,6 +449,7 @@ class DistributedOptimizer(MixedPrecisionOptimizer):
        # Grad scaler.
        if 'grad_scaler' not in state_dict:
+            if self.fp16:
                print_rank_0('***WARNING*** found an old checkpoint, will not '
                             'load grad scaler ...')
        else:

--- a/megatron/optimizer/optimizer.py
+++ b/megatron/optimizer/optimizer.py
@@ -679,7 +679,8 @@ class Float16OptimizerWithFloat16Params(MixedPrecisionOptimizer):
        self.optimizer.load_state_dict(state_dict[optimizer_key])
        # Grad scaler.
-        if self.fp16 and 'grad_scaler' not in state_dict:
+        if 'grad_scaler' not in state_dict:
+            if self.fp16:
                print_rank_0('***WARNING*** found an old checkpoint, will not '
                             'load grad scaler ...')
        else: