Merge branch 'core' of ssh://gitlab-master.nvidia.com:12051/ADLR/megatron-lm into core

136cf036 · shanmugamr · b69e2195 · 6d417896 · 136cf036 · 136cf036
Commit 136cf036 authored Oct 06, 2022 by shanmugamr
Hide whitespace changes
Inline Side-by-side

Showing with 6 additions and 7 deletions

megatron/core/parallel_state.py megatron/core/parallel_state.py +6 -0

megatron/core/tensor_parallel/random.py megatron/core/tensor_parallel/random.py +0 -7

No files found.
--- a/megatron/core/parallel_state.py
+++ b/megatron/core/parallel_state.py
@@ -296,6 +296,12 @@ def set_pipeline_model_parallel_rank(rank):
    _MPU_PIPELINE_MODEL_PARALLEL_RANK = rank
+def set_pipeline_model_parallel_split_rank(rank):
+    """Set pipeline model parallel split rank."""
+    global _MPU_PIPELINE_MODEL_PARALLEL_SPLIT_RANK
+    _MPU_PIPELINE_MODEL_PARALLEL_SPLIT_RANK = rank
 def get_tensor_model_parallel_rank():
    """Return my rank for the tensor model parallel group."""
    global _MPU_TENSOR_MODEL_PARALLEL_RANK

--- a/megatron/core/tensor_parallel/random.py
+++ b/megatron/core/tensor_parallel/random.py
@@ -163,13 +163,6 @@ def model_parallel_cuda_manual_seed(seed):
    # Data parallel gets the original seed.
    data_parallel_seed = seed
-    if torch.distributed.get_rank() == 0:
-        print('> initializing model parallel cuda seeds on global rank {}, '
-              'model parallel rank {}, and data parallel rank {} with '
-              'model parallel seed: {} and data parallel seed: {}'.format(
-                  torch.distributed.get_rank(), get_tensor_model_parallel_rank(),
-                  get_data_parallel_rank(), tensor_model_parallel_seed,
-                  data_parallel_seed), flush=True)
    _CUDA_RNG_STATE_TRACKER.reset()
    # Set the default state.
    torch.cuda.manual_seed(data_parallel_seed)