address review comments

798b6a64 · Vijay Korthikanti · b037a69e · 798b6a64
Commit 798b6a64 authored Jan 20, 2022 by Vijay Korthikanti
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 1 deletion

megatron/checkpointing.py megatron/checkpointing.py +3 -1

No files found.
--- a/megatron/checkpointing.py
+++ b/megatron/checkpointing.py
@@ -65,6 +65,8 @@ def check_checkpoint_args(checkpoint_args):
        _compare('make_vocab_size_divisible_by')
        _compare('padded_vocab_size')
        _compare('tokenizer_type')
+    if args.data_parallel_random_init:
+        _compare('data_parallel_random_init')
    if get_checkpoint_version() < 3.0:
        _compare('tensor_model_parallel_size',
                 old_arg_name='model_parallel_size')
@@ -72,7 +74,6 @@ def check_checkpoint_args(checkpoint_args):
        _compare('tensor_model_parallel_size')
        _compare('pipeline_model_parallel_size')

-
 def ensure_directory_exists(filename):
    """Build filename's path if it does not already exists."""
    dirname = os.path.dirname(filename)
@@ -408,6 +409,7 @@ def load_checkpoint(model, optimizer, lr_scheduler, load_arg='load', strict=True
            if 'rng_state' in state_dict:
                # access rng_state for data parallel rank
                if args.data_parallel_random_init:
+
                    rng_state = state_dict['rng_state'][mpu.get_data_parallel_rank()]
                else:
                    rng_state = state_dict['rng_state'][0]