[PyTorch] Fix pipeline parallel execution by using cloned scale inverse tensors (#659)

Use cloned scale_inv for fp8 cast Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

[PyTorch] Fix pipeline parallel execution by using cloned scale inverse tensors (#659)
Use cloned scale_inv for fp8 cast Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
91d52ac7 · Kirthi Shankar Sivamani · GitHub · d9eb1991 · 91d52ac7 · 91d52ac7
Unverified Commit 91d52ac7 authored Feb 08, 2024 by Kirthi Shankar Sivamani Committed by GitHub Feb 08, 2024
Showing with 6 additions and 6 deletions

transformer_engine/pytorch/module/layernorm_linear.py transformer_engine/pytorch/module/layernorm_linear.py +2 -2

transformer_engine/pytorch/module/layernorm_mlp.py transformer_engine/pytorch/module/layernorm_mlp.py +4 -4

No files found.
--- a/transformer_engine/pytorch/module/layernorm_linear.py
+++ b/transformer_engine/pytorch/module/layernorm_linear.py
@@ -484,9 +484,9 @@ class _LayerNormLinear(torch.autograd.Function):
                        )
                        clear_tensor_data(ln_out_total_t, grad_output_t)
                    else:
-                        ln_out_total_c = tex.cast_from_fp8(
+                        ln_out_total_c = torch.ops.tex_ts.cast_from_fp8_ts(
                            ln_out_total,
-                            ctx.fp8_meta["scaling_fwd"],
+                            fwd_scale_inverses,
                            tex.FP8FwdTensors.GEMM1_INPUT,
                            fp8_dtype_forward,
                            TE_DType[ctx.activation_dtype],

--- a/transformer_engine/pytorch/module/layernorm_mlp.py
+++ b/transformer_engine/pytorch/module/layernorm_mlp.py
@@ -676,9 +676,9 @@ class _LayerNormMLP(torch.autograd.Function):
                    clear_tensor_data(fc1_out)
                else:
                    if fc2_weight.requires_grad:
-                        gelu_out_c = tex.cast_from_fp8(
+                        gelu_out_c = torch.ops.tex_ts.cast_from_fp8_ts(
                            gelu_out,
-                            ctx.fp8_meta["scaling_fwd"],
+                            fwd_scale_inverses,
                            tex.FP8FwdTensors.GEMM2_INPUT,
                            fp8_dtype_forward,
                            TE_DType[ctx.activation_dtype],
@@ -875,9 +875,9 @@ class _LayerNormMLP(torch.autograd.Function):
                        )
                        clear_tensor_data(ln_out_total_t, dgelu_t)
                    else:
-                        ln_out_total_c = tex.cast_from_fp8(
+                        ln_out_total_c = torch.ops.tex_ts.cast_from_fp8_ts(
                            ln_out_total,
-                            ctx.fp8_meta["scaling_fwd"],
+                            fwd_scale_inverses,
                            tex.FP8FwdTensors.GEMM1_INPUT,
                            fp8_dtype_forward,
                            TE_DType[ctx.activation_dtype],