working with interleaving

804ed2e6 · Lawrence McAfee · a06af061 · 804ed2e6 · 804ed2e6 · 804ed2e6
Commit 804ed2e6 authored Jan 24, 2022 by Lawrence McAfee
Hide whitespace changes
Inline Side-by-side

Showing with 24 additions and 7 deletions

megatron/arguments.py megatron/arguments.py +1 -1

megatron/mpu/initialize.py megatron/mpu/initialize.py +3 -3

megatron/schedules.py megatron/schedules.py +20 -3

No files found.
--- a/megatron/arguments.py
+++ b/megatron/arguments.py
@@ -147,7 +147,7 @@ def parse_args(extra_args_provider=None, defaults={},
        #     args.num_layers_per_virtual_pipeline_stage
        # <<<
        args.virtual_pipeline_model_parallel_size = \
-            (args.num_layers // transformer_pipeline_size) // \
+            (args.num_layers // args.transformer_pipeline_model_parallel_size) // \
            args.num_layers_per_virtual_pipeline_stage
        # >>>
        # from lutil import pax

--- a/megatron/mpu/initialize.py
+++ b/megatron/mpu/initialize.py
@@ -350,13 +350,13 @@ def get_num_layers(args, is_encoder_and_decoder_model):
            #     get_pipeline_model_parallel_world_size()
            # )
            # <<<
-            assert args.num_layers % transformer_pipeline_size == 0, \
+            assert args.num_layers % args.transformer_pipeline_model_parallel_size == 0, \
-                'num_layers must be divisible by transformer_pipeline_size'
+                'num_layers must be divisible by transformer_pipeline_model_parallel_size'
            num_layers = (
                0
                if args.standalone_embed_stage
                and get_pipeline_model_parallel_rank() == 0 else
-                args.num_layers // transformer_pipeline_size
+                args.num_layers // args.transformer_pipeline_model_parallel_size
            )
    else:
        num_layers = args.num_layers

--- a/megatron/schedules.py
+++ b/megatron/schedules.py
@@ -40,9 +40,26 @@ def get_forward_backward_func():
            #     "pipeline size" : args.pipeline_model_parallel_size,
            # })
            # <<<
-            assert get_num_microbatches() % args.pipeline_model_parallel_size == 0, \
+            # >>>
-                'number of microbatches is not divisible by pipeline-parallel ' \
+            # assert get_num_microbatches() % args.pipeline_model_parallel_size == 0, \
-                'size when using interleaved schedule'
+            #     'number of microbatches is not divisible by pipeline-parallel ' \
+            #     'size when using interleaved schedule'
+            # assert get_num_microbatches() % \
+            #     args.transformer_pipeline_model_parallel_size == 0, \
+            #     'number of microbatches (%d) is not divisible by transformer-' \
+            #     'pipeline-model-parallel-size (%d) when using interleaved ' \
+            #     'schedule' % (
+            #         get_num_microbatches(),
+            #         args.transformer_pipeline_model_parallel_size,
+            #     )
+            assert get_num_microbatches() % \
+                args.pipeline_model_parallel_size == 0, \
+                'number of microbatches (%d) is not divisible by pipeline-' \
+                'model-parallel-size (%d) when using interleaved schedule' % (
+                    get_num_microbatches(),
+                    args.pipeline_model_parallel_size,
+                )
+            # <<<
        else:
            forward_backward_func = forward_backward_pipelining_without_interleaving
    else: