[PyTorch] Set flags in norm modules for Mcore sequence-parallel support (#1528)

Set flag in norm modules for Mcore sequence-parallel support Signed-off-by: Tim Moon <tmoon@nvidia.com>

[PyTorch] Set flags in norm modules for Mcore sequence-parallel support (#1528)
Set flag in norm modules for Mcore sequence-parallel support Signed-off-by: Tim Moon <tmoon@nvidia.com>
4b523d29 · Tim Moon · GitHub · d3efaebb · 4b523d29 · 4b523d29
Unverified Commit 4b523d29 authored Feb 28, 2025 by Tim Moon Committed by GitHub Feb 28, 2025
Showing with 5 additions and 0 deletions

transformer_engine/pytorch/module/layernorm.py transformer_engine/pytorch/module/layernorm.py +3 -0

transformer_engine/pytorch/module/rmsnorm.py transformer_engine/pytorch/module/rmsnorm.py +2 -0

No files found.
--- a/transformer_engine/pytorch/module/layernorm.py
+++ b/transformer_engine/pytorch/module/layernorm.py
@@ -104,6 +104,9 @@ class LayerNorm(_LayerNormOp):

        # Flag for sequence parallelism (custom Megatron-LM integration)
        self.sequence_parallel: Optional[bool] = sequence_parallel
+        if sequence_parallel is not None:
+            self.weight.sequence_parallel = sequence_parallel
+            self.bias.sequence_parallel = sequence_parallel

    def reset_layer_norm_parameters(self) -> None:
        """Init LN params"""

--- a/transformer_engine/pytorch/module/rmsnorm.py
+++ b/transformer_engine/pytorch/module/rmsnorm.py
@@ -108,6 +108,8 @@ class RMSNorm(_RMSNormOp):

        # Flag for sequence parallelism (custom Megatron-LM integration)
        self.sequence_parallel: Optional[bool] = sequence_parallel
+        if sequence_parallel is not None:
+            self.weight.sequence_parallel = sequence_parallel

    def reset_rms_norm_parameters(self) -> None:
        """Deprecated"""