Use set_tensor_model_parallel_attributes in bert_model as well.

c4c68dce · Jared Casper · bdd47d64 · c4c68dce · c4c68dce
Commit c4c68dce authored Jan 25, 2021 by Jared Casper
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 4 deletions

megatron/model/bert_model.py megatron/model/bert_model.py +1 -3

megatron/mpu/__init__.py megatron/mpu/__init__.py +2 -1

No files found.
--- a/megatron/model/bert_model.py
+++ b/megatron/model/bert_model.py
@@ -78,9 +78,7 @@ class BertLMHead(MegatronModule):
        args = get_args()
        self.bias = torch.nn.Parameter(torch.zeros(mpu_vocab_size))
-        self.bias.tensor_model_parallel = True
+        mpu.set_tensor_model_parallel_attributes(self.bias, True, 0, 1)
-        self.bias.partition_dim = 0
-        self.bias.partition_stride = 1
        self.parallel_output = parallel_output
        self.dense = get_linear_layer(hidden_size, hidden_size, init_method)

--- a/megatron/mpu/__init__.py
+++ b/megatron/mpu/__init__.py
@@ -44,7 +44,8 @@ from .initialize import model_parallel_is_initialized
 from .layers import ColumnParallelLinear
 from .layers import RowParallelLinear
 from .layers import VocabParallelEmbedding
-from .layers import (set_defaults_if_not_set_tensor_model_parallel_attributes,
+from .layers import (set_tensor_model_parallel_attributes,
+                     set_defaults_if_not_set_tensor_model_parallel_attributes,
                     copy_tensor_model_parallel_attributes)
 from .mappings import copy_to_tensor_model_parallel_region