Merge branch 'main' into github-main

aed2f75e · Jared Casper · 8aa4619f · f32a638d · aed2f75e · aed2f75e
Commit aed2f75e authored Apr 11, 2021 by Jared Casper
20 changed files
--- a/megatron/model/classification.py
+++ b/megatron/model/classification.py
--- a/megatron/model/distributed.py
+++ b/megatron/model/distributed.py
--- a/megatron/model/enums.py
+++ b/megatron/model/enums.py
+# coding=utf-8
+# Copyright (c) 2020, NVIDIA CORPORATION.  All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import enum
+
+class LayerType(enum.Enum):
+    encoder = 1
+    decoder = 2
+ 
+class AttnType(enum.Enum):
+    self_attn = 1
+    cross_attn = 2
+
+class AttnMaskType(enum.Enum):
+    padding = 1
+    causal = 2
--- a/megatron/model/fused_layer_norm.py
+++ b/megatron/model/fused_layer_norm.py
--- a/megatron/model/fused_softmax.py
+++ b/megatron/model/fused_softmax.py
--- a/megatron/model/gpt_model.py
+++ b/megatron/model/gpt_model.py
--- a/megatron/model/language_model.py
+++ b/megatron/model/language_model.py
--- a/megatron/model/module.py
+++ b/megatron/model/module.py
--- a/megatron/model/multiple_choice.py
+++ b/megatron/model/multiple_choice.py
--- a/megatron/model/realm_model.py
+++ b/megatron/model/realm_model.py
@@ -6,11 +6,12 @@ from megatron.checkpointing import get_checkpoint_tracker_filename, get_checkpoi
 from megatron.model import BertModel
 from .module import MegatronModule
 from megatron import mpu
+from megatron.model.enums import AttnMaskType
 from megatron.model.utils import get_linear_layer
 from megatron.model.utils import init_method_normal
 from megatron.model.language_model import get_language_model
 from megatron.model.utils import scaled_init_method_normal
-from megatron.model.bert_model import bert_attention_mask_func, bert_extended_attention_mask, bert_position_ids
+from megatron.model.bert_model import bert_extended_attention_mask, bert_position_ids


 def general_ict_model_provider(only_query_model=False, only_block_model=False):
@@ -156,9 +157,9 @@ class IREncoderBertModel(MegatronModule):
                                                       args.num_layers)

        self.language_model, self._language_model_key = get_language_model(
-            attention_mask_func=bert_attention_mask_func,
            num_tokentypes=num_tokentypes,
            add_pooler=True,
+            encoder_attn_mask_type=AttnMaskType.padding,
            init_method=init_method,
            scaled_init_method=scaled_init_method)


--- a/megatron/model/transformer.py
+++ b/megatron/model/transformer.py
--- a/megatron/model/utils.py
+++ b/megatron/model/utils.py
@@ -39,6 +39,11 @@ def scaled_init_method_normal(sigma, num_layers):
    return init_


+def attention_mask_func(attention_scores, attention_mask):
+    attention_scores.masked_fill_(attention_mask, -10000.0)
+    return attention_scores
+
+
 def get_linear_layer(rows, columns, init_method):
    """Simple linear layer with weight initialization."""
    layer = torch.nn.Linear(rows, columns)

--- a/megatron/model/vit_model.py
+++ b/megatron/model/vit_model.py
--- a/megatron/mpu/__init__.py
+++ b/megatron/mpu/__init__.py
@@ -38,13 +38,15 @@ from .initialize import get_pipeline_model_parallel_next_rank
 from .initialize import get_pipeline_model_parallel_prev_rank
 from .initialize import get_tensor_model_parallel_world_size, set_tensor_model_parallel_world_size
 from .initialize import get_pipeline_model_parallel_world_size, set_pipeline_model_parallel_world_size
+from .initialize import get_virtual_pipeline_model_parallel_rank, set_virtual_pipeline_model_parallel_rank
 from .initialize import initialize_model_parallel
 from .initialize import model_parallel_is_initialized

 from .layers import ColumnParallelLinear
 from .layers import RowParallelLinear
 from .layers import VocabParallelEmbedding
-from .layers import (set_defaults_if_not_set_tensor_model_parallel_attributes,
+from .layers import (set_tensor_model_parallel_attributes,
+                     set_defaults_if_not_set_tensor_model_parallel_attributes,
                     copy_tensor_model_parallel_attributes)
                     
 from .mappings import copy_to_tensor_model_parallel_region
@@ -57,6 +59,8 @@ from .random import get_cuda_rng_tracker
 from .random import init_checkpointed_activations_memory_buffer
 from .random import model_parallel_cuda_manual_seed
 from .random import reset_checkpointed_activations_memory_buffer
+from .random import gather_split_1d_tensor
+from .random import split_tensor_into_1d_equal_chunks

 from .utils import divide
 from .utils import split_tensor_along_last_dim
--- a/megatron/mpu/data.py
+++ b/megatron/mpu/data.py
@@ -20,7 +20,7 @@ from .initialize import get_tensor_model_parallel_rank
 from .initialize import get_tensor_model_parallel_src_rank


-_MAX_DATA_DIM = 4
+_MAX_DATA_DIM = 5


 def _check_data_types(keys, data, target_dtype):

--- a/megatron/mpu/initialize.py
+++ b/megatron/mpu/initialize.py
--- a/megatron/mpu/layers.py
+++ b/megatron/mpu/layers.py
--- a/megatron/optimizer/__init__.py
+++ b/megatron/optimizer/__init__.py
--- a/megatron/optimizer/clip_grads.py
+++ b/megatron/optimizer/clip_grads.py
--- a/megatron/optimizer/optimizer.py
+++ b/megatron/optimizer/optimizer.py