Use jit_fuser for bias-dropout-add fusion (#589)

* Use jit_fuser for bias-dropout-add fusion Signed-off-by: Jaemin Choi <jaeminc@nvidia.com> * Use jit_fuser for CP FA kernel Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Jaemin Choi <jaeminc@nvidia.com> Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> Co-authored-by: Jaemin Choi <jaeminc@nvidia.com> Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

Use jit_fuser for bias-dropout-add fusion (#589)
* Use jit_fuser for bias-dropout-add fusion Signed-off-by: Jaemin Choi <jaeminc@nvidia.com> * Use jit_fuser for CP FA kernel Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Jaemin Choi <jaeminc@nvidia.com> Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> Co-authored-by: Jaemin Choi <jaeminc@nvidia.com> Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
7ce7dfe5 · Jaemin Choi · GitHub · 696ad6c4 · 7ce7dfe5 · 7ce7dfe5
Unverified Commit 7ce7dfe5 authored Jan 08, 2024 by Jaemin Choi Committed by GitHub Jan 08, 2024
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 4 deletions

transformer_engine/pytorch/attention.py transformer_engine/pytorch/attention.py +2 -2

transformer_engine/pytorch/jit.py transformer_engine/pytorch/jit.py +2 -2

No files found.
--- a/transformer_engine/pytorch/attention.py
+++ b/transformer_engine/pytorch/attention.py
@@ -402,7 +402,7 @@ def flash_attn_p2p_communicate(rank, send_tensor, send_dst,
    return send_recv_reqs
-@torch.jit.script
+@jit_fuser
 def flash_attn_fwd_out_correction(out, out_per_step, softmax_lse, softmax_lse_per_step):
    """Merge partial outputs of each step in Flash Attention with context parallelism"""
    softmax_lse_corrected_exp = torch.exp(softmax_lse_per_step - softmax_lse).transpose(1, 2)
@@ -411,7 +411,7 @@ def flash_attn_fwd_out_correction(out, out_per_step, softmax_lse, softmax_lse_pe
    out.add_(out_corrected)
-@torch.jit.script
+@jit_fuser
 def flash_attn_fwd_softmax_lse_correction(softmax_lse, softmax_lse_per_step):
    """Merge softmax stats of each step in Flash Attention with context parallelism"""
    softmax_lse.exp_()

--- a/transformer_engine/pytorch/jit.py
+++ b/transformer_engine/pytorch/jit.py
@@ -134,7 +134,7 @@ def get_bias_dropout_add(training: bool) -> Callable:
    return _bias_dropout_add
-@torch.jit.script
+@jit_fuser
 def bias_dropout_add_fused_train_(
    x: torch.Tensor, bias: torch.Tensor, residual: torch.Tensor, prob: float
 ) -> torch.Tensor:
@@ -151,7 +151,7 @@ def bias_dropout_add_fused_train(
            return bias_dropout_add_fused_train_(x, bias, residual, prob)
-@torch.jit.script
+@jit_fuser
 def bias_dropout_add_fused_inference_(
    x: torch.Tensor, bias: torch.Tensor, residual: torch.Tensor, prob: float
 ) -> torch.Tensor: