Merge branch 'fix_grad_scalar_warning' into 'main'

fixed grad scalar warning so it only prints it for fp16 See merge request ADLR/megatron-lm!441

Merge branch 'fix_grad_scalar_warning' into 'main'
fixed grad scalar warning so it only prints it for fp16 See merge request ADLR/megatron-lm!441
91384a5a · Jared Casper · d2073912 · 27bc1338 · 91384a5a
Commit 91384a5a authored Aug 15, 2022 by Jared Casper
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

megatron/optimizer/optimizer.py megatron/optimizer/optimizer.py +1 -1

No files found.
--- a/megatron/optimizer/optimizer.py
+++ b/megatron/optimizer/optimizer.py
@@ -679,7 +679,7 @@ class Float16OptimizerWithFloat16Params(MixedPrecisionOptimizer):
        self.optimizer.load_state_dict(state_dict[optimizer_key])

        # Grad scaler.
-        if 'grad_scaler' not in state_dict:
+        if self.fp16 and 'grad_scaler' not in state_dict:
            print_rank_0('***WARNING*** found an old checkpoint, will not '
                         'load grad scaler ...')
        else: