Disable UB bulk wgrad when weights are frozen (#702)

Signed-off-by: Jaemin Choi <jaeminc@nvidia.com> Co-authored-by: Jaemin Choi <jaeminc@nvidia.com>

Disable UB bulk wgrad when weights are frozen (#702)
Signed-off-by: Jaemin Choi <jaeminc@nvidia.com> Co-authored-by: Jaemin Choi <jaeminc@nvidia.com>
b0f65354 · Jaemin Choi · GitHub · 3f8baf95 · b0f65354 · b0f65354
Unverified Commit b0f65354 authored Mar 05, 2024 by Jaemin Choi Committed by GitHub Mar 05, 2024
Showing with 2 additions and 2 deletions

transformer_engine/pytorch/module/layernorm_linear.py transformer_engine/pytorch/module/layernorm_linear.py +1 -1

transformer_engine/pytorch/module/layernorm_mlp.py transformer_engine/pytorch/module/layernorm_mlp.py +1 -1

No files found.
--- a/transformer_engine/pytorch/module/layernorm_linear.py
+++ b/transformer_engine/pytorch/module/layernorm_linear.py
@@ -355,7 +355,7 @@ class _LayerNormLinear(torch.autograd.Function):

            if ctx.ub_bulk_wgrad:
                tp_world_size = get_distributed_world_size(ctx.tp_group)
-                if tp_world_size == 1:
+                if tp_world_size == 1 or not weight.requires_grad:
                    ctx.ub_bulk_wgrad = False

            # Column Parallel Linear

--- a/transformer_engine/pytorch/module/layernorm_mlp.py
+++ b/transformer_engine/pytorch/module/layernorm_mlp.py
@@ -604,7 +604,7 @@ class _LayerNormMLP(torch.autograd.Function):

            if ctx.ub_bulk_wgrad:
                tp_world_size = get_distributed_world_size(ctx.tp_group)
-                if tp_world_size == 1:
+                if tp_world_size == 1 or not fc1_weight.requires_grad:
                    ctx.ub_bulk_wgrad = False
            # Column Parallel Linear
            # Overlap input AG with dgrad