Merge branch 'develop_v2.7' of...

Merge branch 'develop_v2.7' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine into release_v2.7

Merge branch 'develop_v2.7' of...
Merge branch 'develop_v2.7' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine into release_v2.7
79fa3eba · yuguo · 117f9059 · b15412aa · 79fa3eba
Commit 79fa3eba authored Sep 19, 2025 by yuguo
Hide whitespace changes
Inline Side-by-side

Showing with 17 additions and 8 deletions

transformer_engine/pytorch/module/layernorm_mlp.py transformer_engine/pytorch/module/layernorm_mlp.py +17 -8

No files found.
--- a/transformer_engine/pytorch/module/layernorm_mlp.py
+++ b/transformer_engine/pytorch/module/layernorm_mlp.py
@@ -80,6 +80,12 @@ from ..cpp_extensions import (
 from ..export import is_in_onnx_export_mode, assert_warmed_up
 from ...debug.pytorch.debug_state import TEDebugState
+try:
+    from lightop import rmsnorm_forward, rmsnorm_backward
+    enable_lightop = True
+except ImportError:
+    enable_lightop = False
 __all__ = ["LayerNormMLP"]
@@ -1264,14 +1270,17 @@ class _LayerNormMLP(torch.autograd.Function):
                    ctx.zero_centered_gamma,
                )
            elif ctx.normalization == "RMSNorm":
-                dgrad, dgamma = tex.rmsnorm_bwd(
+                if enable_lightop and (rsigma.dtype is torch.bfloat16 or rsigma.dtype is torch.float16):
-                    dgrad,
+                    dgrad, dgamma = rmsnorm_backward(dgrad, inputmat, rsigma, ln_weight)
-                    inputmat,
+                else:
-                    rsigma,
+                    dgrad, dgamma = tex.rmsnorm_bwd(
-                    ln_weight,
+                        dgrad,
-                    ctx.bwd_ln_sm_margin,
+                        inputmat,
-                    ctx.zero_centered_gamma,
+                        rsigma,
-                )
+                        ln_weight,
+                        ctx.bwd_ln_sm_margin,
+                        ctx.zero_centered_gamma,
+                    )
                dbeta = None
        clear_tensor_data(mu, rsigma)