[PyTorch] fix fuse_wgrad_accumulation in LayerNormMLP backward (#1618)

* [PyTorch] fix general_gemm argument out_dtype in LayerNormMLP backward Signed-off-by: Markus Schnoes <markus.schnoes@gmx.de> * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci --------- Signed-off-by: Markus Schnoes <markus.schnoes@gmx.de> Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

[PyTorch] fix fuse_wgrad_accumulation in LayerNormMLP backward (#1618)
* [PyTorch] fix general_gemm argument out_dtype in LayerNormMLP backward Signed-off-by: Markus Schnoes <markus.schnoes@gmx.de> * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci --------- Signed-off-by: Markus Schnoes <markus.schnoes@gmx.de> Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
77d64552 · Marks101 · GitHub · cf9a7c2f · 77d64552
Unverified Commit 77d64552 authored Apr 01, 2025 by Marks101 Committed by GitHub Mar 31, 2025
Show whitespace changes
Inline Side-by-side

Showing with 10 additions and 2 deletions

transformer_engine/pytorch/module/layernorm_mlp.py transformer_engine/pytorch/module/layernorm_mlp.py +10 -2

No files found.
--- a/transformer_engine/pytorch/module/layernorm_mlp.py
+++ b/transformer_engine/pytorch/module/layernorm_mlp.py
@@ -734,7 +734,11 @@ class _LayerNormMLP(torch.autograd.Function):
                    act_out,
                    grad_output,
                    get_workspace(),
-                    out_dtype=ctx.activation_dtype,
+                    out_dtype=(
+                        fc2_weight.main_grad.dtype
+                        if ctx.fuse_wgrad_accumulation
+                        else ctx.activation_dtype
+                    ),
                    quantization_params=None,  # wgrad in high precision
                    layout="NT",
                    grad=True,
@@ -894,7 +898,11 @@ class _LayerNormMLP(torch.autograd.Function):
                    ln_out_total,
                    dact,
                    get_workspace(),
-                    out_dtype=ctx.activation_dtype,
+                    out_dtype=(
+                        fc1_weight.main_grad.dtype
+                        if ctx.fuse_wgrad_accumulation
+                        else ctx.activation_dtype
+                    ),
                    layout="NT",
                    grad=fuse_gemm_and_bias_fc1_wgrad,
                    bias=fc1_bias if fuse_gemm_and_bias_fc1_wgrad else None,