TP communication overlap with userbuffers (#147)

* Port initial changes Co-authored-by: Sangkug Lym <slym@nvidia.com> Co-authored-by: Vasudevan Rengasamy <vrengasamy@nvidia.com> Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * readd FA include for PyTorch Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Re-enable sm_70 + cleanup Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * LICENSE, cleanup header Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * 5k -> 173 errors Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * license and fixes in userbuffers-host Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * next round fixes Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * final cpp cleanup Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * pylinting Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix from linting Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Turn off default async amax reduction (#148) Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * remove unused code path Signed-off-by: Sangkug Lym <slym@nvidia.com> * cleanup Macros Signed-off-by: Sangkug Lym <slym@nvidia.com> * fix conflict resolution bug Signed-off-by: Sangkug Lym <slym@nvidia.com> * Fix gencode flags in setup (#145) * Fix gencode flags based on cuda version Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * review suggestions Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * revert append_nvcc_threads change Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Change overlap config dict error message Signed-off-by: Sangkug Lym <slym@nvidia.com> * simplify ub initialization Signed-off-by: Sangkug Lym <slym@nvidia.com> * lint Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix sanity imports Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * cpplint Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix TensorFlow build Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix TE macros in public header Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix lint Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * More fixes Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * compiles with and w/o MPI Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fixes for python side annotations for conditional compile Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * link gdrAPI only when MPI found Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix comments for dummy var Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Fix linking Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Review comments Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * load MPI before TE Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Add Py side argument checks Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * remove unused code and catch silent failures Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Fix cpp tests Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix find_lib path for tests Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> Signed-off-by: Sangkug Lym <slym@nvidia.com> Co-authored-by: Sangkug Lym <slym@nvidia.com> Co-authored-by: Vasudevan Rengasamy <vrengasamy@nvidia.com>

TP communication overlap with userbuffers (#147)
* Port initial changes Co-authored-by: Sangkug Lym <slym@nvidia.com> Co-authored-by: Vasudevan Rengasamy <vrengasamy@nvidia.com> Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * readd FA include for PyTorch Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Re-enable sm_70 + cleanup Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * LICENSE, cleanup header Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * 5k -> 173 errors Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * license and fixes in userbuffers-host Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * next round fixes Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * final cpp cleanup Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * pylinting Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix from linting Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Turn off default async amax reduction (#148) Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * remove unused code path Signed-off-by: Sangkug Lym <slym@nvidia.com> * cleanup Macros Signed-off-by: Sangkug Lym <slym@nvidia.com> * fix conflict resolution bug Signed-off-by: Sangkug Lym <slym@nvidia.com> * Fix gencode flags in setup (#145) * Fix gencode flags based on cuda version Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * review suggestions Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * revert append_nvcc_threads change Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Change overlap config dict error message Signed-off-by: Sangkug Lym <slym@nvidia.com> * simplify ub initialization Signed-off-by: Sangkug Lym <slym@nvidia.com> * lint Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix sanity imports Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * cpplint Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix TensorFlow build Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix TE macros in public header Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix lint Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * More fixes Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * compiles with and w/o MPI Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fixes for python side annotations for conditional compile Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * link gdrAPI only when MPI found Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix comments for dummy var Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Fix linking Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Review comments Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * load MPI before TE Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Add Py side argument checks Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * remove unused code and catch silent failures Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Fix cpp tests Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix find_lib path for tests Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> Signed-off-by: Sangkug Lym <slym@nvidia.com> Co-authored-by: Sangkug Lym <slym@nvidia.com> Co-authored-by: Vasudevan Rengasamy <vrengasamy@nvidia.com>
18da4e88 · Kirthi Shankar Sivamani · GitHub · 7bb2af35 · 18da4e88 · 18da4e88
Unverified Commit 18da4e88 authored Apr 19, 2023 by Kirthi Shankar Sivamani Committed by GitHub Apr 19, 2023
4 changed files
--- a/transformer_engine/pytorch/csrc/ts_fp8_op.cpp
+++ b/transformer_engine/pytorch/csrc/ts_fp8_op.cpp
@@ -121,7 +121,8 @@ at::Tensor te_gemm_ts(at::Tensor A,
          workspace,
          workspaceSize_arg,
          accumulate_arg,
-          use_split_accumulator_arg);
+          use_split_accumulator_arg,
+          0);
  return D;
 }


--- a/transformer_engine/pytorch/module.py
+++ b/transformer_engine/pytorch/module.py
--- a/transformer_engine/pytorch/transformer.py
+++ b/transformer_engine/pytorch/transformer.py
@@ -15,6 +15,7 @@ import torch

 from flash_attn.flash_attn_interface import flash_attn_unpadded_func

+import transformer_engine_extensions as tex
 from transformer_engine.pytorch.module import LayerNormLinear, Linear, LayerNormMLP, LayerNorm
 from transformer_engine.pytorch.jit import (
    set_jit_fusion_options,
@@ -495,6 +496,10 @@ class MultiHeadAttention(torch.nn.Module):
        fuse_qkv_params: bool = False,
        zero_centered_gamma: bool = False,
        qkv_weight_interleaved: bool = True,
+        ub_bulk_wgrad: bool = False,
+        ub_bulk_dgrad: bool = False,
+        ub_split_rs: bool = False,
+        ub_split_ag: bool = False,
        bias: bool = True,
    ) -> None:
        super().__init__()
@@ -547,6 +552,9 @@ class MultiHeadAttention(torch.nn.Module):
                    return_layernorm_output=return_layernorm_output,
                    parameters_split=("query_", "key_", "value_") if not fuse_qkv_params else None,
                    zero_centered_gamma=zero_centered_gamma,
+                    ub_bulk_wgrad=ub_bulk_wgrad,
+                    ub_bulk_dgrad=ub_bulk_dgrad,
+                    ub_split_ag=ub_split_ag,
                    **common_gemm_kwargs,
                )
            else:
@@ -572,6 +580,9 @@ class MultiHeadAttention(torch.nn.Module):
                    parallel_mode=qkv_parallel_mode,
                    return_layernorm_output=return_layernorm_output,
                    zero_centered_gamma=zero_centered_gamma,
+                    ub_bulk_wgrad=ub_bulk_wgrad,
+                    ub_bulk_dgrad=ub_bulk_dgrad,
+                    ub_split_ag=ub_split_ag,
                    **common_gemm_kwargs,
                )
            else:
@@ -616,6 +627,8 @@ class MultiHeadAttention(torch.nn.Module):
            bias=bias,
            return_bias=True,
            parallel_mode="row" if set_parallel_mode else None,
+            ub_split_rs=ub_split_rs,
+            ub_split_ag=ub_split_ag,
            **common_gemm_kwargs,
        )

@@ -911,6 +924,12 @@ class TransformerLayer(torch.nn.Module):
             `set_tensor_parallel_group(tp_group)` method on the initialized module before the
             forward pass to supply the tensor parallel group needed for tensor and sequence
             parallel collectives.
+    ub_bulk_wgrad: bool, default = False
+             Bulk overlap UserBuffer ReduceScatter | WGRAD GEMM
+    ub_bulk_dgrad: bool, default = False
+             Bulk overlap UserBuffer AllGather | DGRAD GEMM
+    ub_split_ag: bool, default = False
+             Split pipelined overlap UserBuffer AllGather -> GEMM

    Optimization parameters
    -----------------------
@@ -970,6 +989,7 @@ class TransformerLayer(torch.nn.Module):
        fuse_qkv_params: bool = False,
        zero_centered_gamma: bool = False,
        qkv_weight_interleaved: bool = True,
+        ub_tp_comm_overlap: bool = False,
        bias: bool = True,
    ) -> None:
        super().__init__()
@@ -980,6 +1000,16 @@ class TransformerLayer(torch.nn.Module):
            category=DeprecationWarning,
        )

+        if ub_tp_comm_overlap:
+            assert (
+                tex.userbuf_comm_available()
+            ), "Userbuffer communication backend not available."
+
+        ub_tp_comm_overlap = ub_tp_comm_overlap and bool(int(os.getenv("NVTE_UB_OVERLAP", "1")))
+        ub_bulk_wgrad = ub_tp_comm_overlap and bool(int(os.getenv("NVTE_UB_BULK_WGRAD", "1")))
+        ub_bulk_dgrad = ub_tp_comm_overlap and bool(int(os.getenv("NVTE_UB_BULK_DGRAD", "1")))
+        ub_split_ag = ub_tp_comm_overlap and bool(int(os.getenv("NVTE_UB_SPLIT_AG", "1")))
+        ub_split_rs = ub_tp_comm_overlap and bool(int(os.getenv("NVTE_UB_SPLIT_RS", "1")))
        bias_dropout_fusion = bool(int(os.getenv("NVTE_BIAS_DROPOUT_FUSION", "1")))
        self.layer_number = layer_number
        self.output_layernorm = output_layernorm
@@ -1037,6 +1067,10 @@ class TransformerLayer(torch.nn.Module):
            "fuse_qkv_params": fuse_qkv_params,
            "zero_centered_gamma": zero_centered_gamma,
            "qkv_weight_interleaved" : qkv_weight_interleaved,
+            "ub_bulk_wgrad" : ub_bulk_wgrad,
+            "ub_bulk_dgrad" : ub_bulk_dgrad,
+            "ub_split_ag" : ub_split_ag,
+            "ub_split_rs" : ub_split_rs,
        }

        self.self_attention = MultiHeadAttention(
@@ -1080,6 +1114,10 @@ class TransformerLayer(torch.nn.Module):
            micro_batch_size=micro_batch_size,
            set_parallel_mode=set_parallel_mode,
            zero_centered_gamma=zero_centered_gamma,
+            ub_bulk_wgrad=ub_bulk_wgrad,
+            ub_bulk_dgrad=ub_bulk_dgrad,
+            ub_split_rs=ub_split_rs,
+            ub_split_ag=ub_split_ag,
        )

        self.hidden_dropout = hidden_dropout

--- a/transformer_engine/tensorflow/csrc/extensions.cu
+++ b/transformer_engine/tensorflow/csrc/extensions.cu
@@ -568,7 +568,7 @@ py::object TFE_Py_TeGemm_wrapper(
  nvte_cublas_gemm(a_tensor.data(), b_tensor.data(), d_tensor.data(),
                   bias_tensor.data(), gelu_input_tensor.data(), transa,
                   transb, grad, workspace_tensor.data(), accumulate,
-                   use_split_accumulate, stream);
+                   use_split_accumulate, 0, stream);

  auto d_eager = CreateTensor(d_ptr, d_shape, otype);
  if (use_gelu && !grad) {