Don't require an even divide of layers in target model.

96d19aae · Jared Casper · 4147bec2 · 96d19aae
Commit 96d19aae authored Feb 07, 2022 by Jared Casper
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 6 deletions

tools/checkpoint_saver_megatron.py tools/checkpoint_saver_megatron.py +1 -6

No files found.
--- a/tools/checkpoint_saver_megatron.py
+++ b/tools/checkpoint_saver_megatron.py
@@ -148,11 +148,6 @@ def save_checkpoint(queue, args):

    # Transformer layers
    #-------------------
-    if md.num_layers % args.target_pipeline_parallel_size != 0:
-        print("Source number of layers is not divisible by target pipeline parallel size")
-        exit(1)
-    layers_per_rank = md.num_layers // args.target_pipeline_parallel_size
-    assert layers_per_rank == len(models[0].language_model.encoder.layers)
    for pp_rank in range(args.target_pipeline_parallel_size):
        # For later pipeline parallel ranks, make the new models
        if pp_rank > 0:
@@ -160,7 +155,7 @@ def save_checkpoint(queue, args):
            post_process = pp_rank == args.target_pipeline_parallel_size - 1
            models = get_models(args.target_tensor_parallel_size, md.params_dtype, False, post_process)

-        for layer in range(layers_per_rank):
+        for layer in range(len(models[0].language_model.encoder.layers)):
            # get full tensors
            input_layernorm_weight = queue_get()
            input_layernorm_bias = queue_get()