add lightop rmsnorm

4f79b7a9 · panning · a207db1d · 4f79b7a9 · 4f79b7a9
Commit 4f79b7a9 authored Apr 08, 2025 by panning
Showing with 38 additions and 18 deletions

transformer_engine/pytorch/module/_common.py transformer_engine/pytorch/module/_common.py +19 -10

transformer_engine/pytorch/module/layernorm_linear.py transformer_engine/pytorch/module/layernorm_linear.py +19 -8

No files found.
--- a/transformer_engine/pytorch/module/_common.py
+++ b/transformer_engine/pytorch/module/_common.py
@@ -15,6 +15,13 @@ from .. import cpp_extensions as tex
 from ..constants import TE_DType
 from ..utils import get_default_init_method
 from ..tensor.float8_tensor import Float8Tensor
+import warnings
+try:
+    from lightop import rmsnorm_forward,rmsnorm_backward
+    enable_lightop = True
+except ImportError:
+    enable_lightop = False
+    warnings.warn("Failed to import lightop module. Falling back to alternative implementation.", UserWarning)
 def _get_normalization_func(normalization: str, forward: bool):
@@ -81,16 +88,18 @@ def apply_normalization(
    normalization_func = _get_normalization_func(normalization, True)
    inputs = (inputmat, ln_weight) if ln_bias is None else (inputmat, ln_weight, ln_bias)
+    if enable_lightop and (ln_bias is None):
-    return normalization_func(
+        return rmsnorm_forward(inputmat, ln_weight,ln_out,eps,True)
-        *inputs,
+    else:
-        eps,
+        return normalization_func(
-        ln_out,
+            *inputs,
-        output_quantizer,
+            eps,
-        TE_DType[output_dtype] if output_dtype in TE_DType else output_dtype,
+            ln_out,
-        fwd_ln_sm_margin,
+            output_quantizer,
-        zero_centered_gamma,
+            TE_DType[output_dtype] if output_dtype in TE_DType else output_dtype,
-    )
+            fwd_ln_sm_margin,
+            zero_centered_gamma,
+        )
 class _NoopCatFunc(torch.autograd.Function):

--- a/transformer_engine/pytorch/module/layernorm_linear.py
+++ b/transformer_engine/pytorch/module/layernorm_linear.py
@@ -61,6 +61,13 @@ from ..cpu_offload import is_cpu_offload_enabled, set_offloading_param
 from ..cpp_extensions import (
    general_gemm,
 )
+import warnings
+try:
+    from lightop import rmsnorm_forward,rmsnorm_backward
+    enable_lightop = True
+except ImportError:
+    enable_lightop = False
+    warnings.warn("Failed to import lightop module. Falling back to alternative implementation.", UserWarning)
 __all__ = ["LayerNormLinear"]
@@ -757,14 +764,18 @@ class _LayerNormLinear(torch.autograd.Function):
                )
                dgrad = dgrad.reshape(inputmat.size())
            elif ctx.normalization == "RMSNorm":
-                dgrad, dgamma = tex.rmsnorm_bwd(
+                if enable_lightop:
-                    dgrad,
+                    dgrad, dgamma =rmsnorm_backward(dgrad,inputmat,rsigma,ln_weight)
-                    inputmat,
+                else:
-                    rsigma,
-                    ln_weight,
+                    dgrad, dgamma = tex.rmsnorm_bwd(
-                    ctx.bwd_ln_sm_margin,
+                        dgrad,
-                    ctx.zero_centered_gamma,
+                        inputmat,
-                )
+                        rsigma,
+                        ln_weight,
+                        ctx.bwd_ln_sm_margin,
+                        ctx.zero_centered_gamma,
+                    )
                dgrad = dgrad.reshape(inputmat.size())
                dbeta = None
            nvtx_range_pop(f"{nvtx_label}.norm")