patch for megatron core_v0.12.0

aa2c6708 · dongcl · cf5d3189 · aa2c6708
Commit aa2c6708 authored May 19, 2025 by dongcl
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 0 deletions

pretrain_gpt.py pretrain_gpt.py +6 -0

No files found.
--- a/pretrain_gpt.py
+++ b/pretrain_gpt.py
@@ -16,6 +16,9 @@ from megatron.core.enums import ModelType
 from megatron.core.datasets.blended_megatron_dataset_builder import BlendedMegatronDatasetBuilder
 from megatron.core.datasets.gpt_dataset import GPTDatasetConfig
 from megatron.core.datasets.gpt_dataset import MockGPTDataset, GPTDataset
+from megatron.core.models.gpt.heterogeneous.heterogeneous_layer_specs import (
+    get_gpt_heterogeneous_layer_spec,
+)
 from megatron.core.rerun_state_machine import get_rerun_state_machine
 import megatron.legacy.model
 from megatron.core.models.gpt import GPTModel
@@ -35,6 +38,7 @@ from megatron.core.models.gpt.gpt_layer_specs import (
    get_gpt_layer_with_transformer_engine_spec,
    get_gpt_mtp_block_spec,
 )
+from megatron.core.transformer.transformer_block import TransformerBlockSubmodules
 from dcu_megatron import megatron_adaptor
@@ -98,6 +102,8 @@ def model_provider(pre_process=True, post_process=True) -> Union[GPTModel, megat
            if args.num_experts:
                # Define the decoder block spec
                transformer_layer_spec = get_gpt_decoder_block_spec(config, use_transformer_engine=use_te, normalization=args.normalization)
+            elif args.heterogeneous_layers_config_path is not None:
+                transformer_layer_spec = get_gpt_heterogeneous_layer_spec(config, use_te)
            else:
                # Define the decoder layer spec
                if use_te: