Faster `--fast_multihead_attn` build (#1245)

* merge .so files * odr * fix build * update import * apply psf/black with max line length of 120 * update * fix * update * build fixed again but undefined symbol again * fix 2, still layer norm grad is undefined * remove unused cpp files * without layer_norm.cuh, import works * import fast_multihead_attn works... but why? Was unnecessary `#include "layer_norm.cuh"` was the culprit causing .shared objects not to be able to link `HostApplyLayerNorm` and `HostLayerNormGradient`? * clean up layer norm

Faster `--fast_multihead_attn` build (#1245)
* merge .so files * odr * fix build * update import * apply psf/black with max line length of 120 * update * fix * update * build fixed again but undefined symbol again * fix 2, still layer norm grad is undefined * remove unused cpp files * without layer_norm.cuh, import works * import fast_multihead_attn works... but why? Was unnecessary `#include "layer_norm.cuh"` was the culprit causing .shared objects not to be able to link `HostApplyLayerNorm` and `HostLayerNormGradient`? * clean up layer norm
7ec8ed67 · Masaki Kozuki · GitHub · ed94d0bb · 7ec8ed67 · 7ec8ed67
Unverified Commit 7ec8ed67 authored Dec 14, 2021 by Masaki Kozuki Committed by GitHub Dec 14, 2021
14 changed files
--- a/apex/contrib/csrc/multihead_attn/self_multihead_attn_norm_add_cuda.cu
+++ b/apex/contrib/csrc/multihead_attn/self_multihead_attn_norm_add_cuda.cu
@@ -11,10 +11,10 @@
 #include <ATen/cuda/CUDAContext.h>
 #include <torch/extension.h>
-#include "dropout.h"
+#include "dropout.cuh"
-#include "layer_norm.h"
+#include "layer_norm.cuh"
-#include "softmax.h"
+#include "softmax.cuh"
-#include "strided_batched_gemm.h"
+#include "strided_batched_gemm.cuh"
 namespace multihead_attn {
 namespace self_norm_add {
@@ -363,7 +363,7 @@ std::vector<torch::Tensor> bwd_cuda(
  // Fused Layer Norm Bwd with Residual Add
  HostLayerNormGradient<half, float>(
      static_cast<const half *>(input_lin_grads.data_ptr()),
-      static_cast<half const *>(output_grads.data_ptr()),
+      static_cast<const half *>(output_grads.data_ptr()),
      static_cast<const float *>(lyr_nrm_mean.data_ptr()),
      static_cast<const float *>(lyr_nrm_invvar.data_ptr()), inputs,
      static_cast<int>(batches),   // n1

--- a/apex/contrib/csrc/multihead_attn/softmax.h
+++ b/apex/contrib/csrc/multihead_attn/softmax.h
 #pragma once
-#include "philox.h"
+#include "philox.cuh"
 #include <ATen/CUDAGeneratorImpl.h>
 #include <ATen/cuda/CUDAGraphsUtils.cuh>
 #include <curand_kernel.h>
@@ -15,6 +15,14 @@ namespace {
 template <typename Datatype, int ELEMENTS_PER_LDG>
 __device__ __inline__ void copy_vector(Datatype *dst, const Datatype *src);
+template <typename Datatype, int ELEMENTS_PER_LDG>
+__device__ __inline__ void apply_mask(Datatype *dst, Datatype value,
+                                      const uint8_t *src);
+template <typename Datatype, int ELEMENTS_PER_LDG>
+__device__ __inline__ void apply_additive_mask(Datatype *dst,
+                                               const Datatype *additive_mask);
 template <>
 __device__ __inline__ void copy_vector<__half, 1>(__half *dst,
                                                  const __half *src) {
@@ -43,10 +51,6 @@ __device__ __inline__ void copy_vector<uint8_t, 4>(uint8_t *dst,
  *((half2 *)dst) = *((half2 *)src);
 }
-template <typename Datatype, int ELEMENTS_PER_LDG>
-__device__ __inline__ void apply_mask(Datatype *dst, Datatype value,
-                                      const uint8_t *src);
 template <>
 __device__ __inline__ void apply_mask<__half, 1>(__half *dst, __half value,
                                                 const uint8_t *src) {
@@ -54,14 +58,13 @@ __device__ __inline__ void apply_mask<__half, 1>(__half *dst, __half value,
    *dst = value;
  }
 }
-template <typename Datatype, int ELEMENTS_PER_LDG>
-__device__ __inline__ void apply_additive_mask(Datatype *dst,
-                                               const Datatype *additive_mask);
 template <>
 __device__ __inline__ void
 apply_additive_mask<__half, 1>(__half *dst, const __half *additive_mask) {
  *dst += *additive_mask;
 }
 template <>
 __device__ __inline__ void
 apply_additive_mask<__half, 4>(__half *dst, const __half *additive_mask) {
@@ -70,7 +73,6 @@ apply_additive_mask<__half, 4>(__half *dst, const __half *additive_mask) {
  *(dst + 2) += *(additive_mask + 2);
  *(dst + 3) += *(additive_mask + 3);
 }
-} // namespace
 ////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
 // Warp Softmax forward
@@ -3132,3 +3134,4 @@ bool dispatch_masked_softmax_backward(output_t *grad_input, const input_t *grad,
  }
  return false;
 }
+} // namespace
--- a/apex/contrib/csrc/multihead_attn/strided_batched_gemm.h
+++ b/apex/contrib/csrc/multihead_attn/strided_batched_gemm.h
+#pragma once
 #include <iostream>
 #include <vector>
@@ -14,6 +15,7 @@
 #include "cutlass/gemm/gemm.h"
 #include "cutlass/gemm/wmma_gemm_traits.h"
+namespace {
 cublasOperation_t convertTransToCublasOperation(char trans) {
  if (trans == 't')
    return CUBLAS_OP_T;
@@ -47,6 +49,7 @@ void CublasStridedBatchedGemm(
      CUDA_R_16F, (int)ldc, strideC, (int)batchCount, CUDA_R_32F, algo));
  // THCublasCheck(cublasSetMathMode(handle, CUBLAS_DEFAULT_MATH));
 }
+} // namespace
 template <cutlass::MatrixLayout::Kind A_LAYOUT,
          cutlass::MatrixLayout::Kind B_LAYOUT, int SRC_A, int SRC_B, int DST_C>
@@ -153,6 +156,7 @@ void CutlassGemm_FP32Accum(cudaStream_t stream, long m, long n, long k,
  } while (batchesLeft > 0);
 }
+namespace {
 void gemm_switch_fp32accum(char transa, char transb, long m,
                           long n, long k, float alpha, const half *a, long lda,
                           long strideA, const half *b, long ldb, long strideB,
@@ -632,3 +636,4 @@ void HgemmStridedBatched(char transa, char transb, long m,
                        b, ldb, strideB, beta, c, ldc, strideC, batchCount);
 }
+} // namespace
--- a/apex/contrib/csrc/transducer/transducer_joint_kernel.cu
+++ b/apex/contrib/csrc/transducer/transducer_joint_kernel.cu
@@ -9,7 +9,7 @@
 #include <ATen/cuda/CUDAGraphsUtils.cuh>
 #include <c10/macros/Macros.h>
-#include "philox.h"
+#include "philox.cuh"
 // Warp reduce kernels to reduce N groups of data into N numbers, where N = warpSize / width.
 // width should be a power of 2 and should be less than warpSize.

--- a/apex/contrib/multihead_attn/encdec_multihead_attn.py
+++ b/apex/contrib/multihead_attn/encdec_multihead_attn.py
@@ -5,16 +5,17 @@ from torch import nn
 from torch.nn import Parameter
 import torch.nn.functional as F
-from .encdec_multihead_attn_func               import encdec_attn_func
+from .encdec_multihead_attn_func import encdec_attn_func
-from .fast_encdec_multihead_attn_func          import fast_encdec_attn_func
+from .fast_encdec_multihead_attn_func import fast_encdec_attn_func
 from .fast_encdec_multihead_attn_norm_add_func import fast_encdec_attn_norm_add_func
-from apex.normalization.fused_layer_norm       import FusedLayerNorm
+from apex.normalization.fused_layer_norm import FusedLayerNorm
-if hasattr(torch._C, '_jit_set_profiling_executor') :
+if hasattr(torch._C, "_jit_set_profiling_executor"):
    torch._C._jit_set_profiling_executor(False)
-if hasattr(torch._C, '_jit_set_profiling_mode') :
+if hasattr(torch._C, "_jit_set_profiling_mode"):
    torch._C._jit_set_profiling_mode(False)
 @torch.jit.script
 def jit_dropout_add(x, residual, prob, is_training):
    # type: (Tensor, Tensor, float, bool) -> Tensor
@@ -28,7 +29,8 @@ class EncdecMultiheadAttn(nn.Module):
    See "Attention Is All You Need" for more details.
    """
-    def __init__(self, embed_dim, num_heads, dropout=0., bias=False, include_norm_add=False, impl='fast'):
+    def __init__(self, embed_dim, num_heads, dropout=0.0, bias=False, include_norm_add=False, impl="fast"):
        super().__init__()
        self.embed_dim = embed_dim
        self.num_heads = num_heads
@@ -38,43 +40,49 @@ class EncdecMultiheadAttn(nn.Module):
        self.bias = bias
        self.include_norm_add = include_norm_add
        self.impl = impl
-        self.scaling = self.head_dim**-0.5
+        self.scaling = self.head_dim ** -0.5
-        self.in_proj_weight_q    = Parameter(torch.Tensor(embed_dim, embed_dim))
+        self.in_proj_weight_q = Parameter(torch.Tensor(embed_dim, embed_dim))
-        self.in_proj_weight_kv   = Parameter(torch.Tensor(2*embed_dim, embed_dim))
+        self.in_proj_weight_kv = Parameter(torch.Tensor(2 * embed_dim, embed_dim))
-        self.out_proj_weight     = Parameter(torch.Tensor(embed_dim, embed_dim))
+        self.out_proj_weight = Parameter(torch.Tensor(embed_dim, embed_dim))
        if self.bias:
-            assert impl != 'fast', "ERROR! The Fast implementation does not support biases!"
+            assert impl != "fast", "ERROR! The Fast implementation does not support biases!"
-            self.in_proj_bias_q  = Parameter(torch.Tensor(embed_dim))
+            self.in_proj_bias_q = Parameter(torch.Tensor(embed_dim))
-            self.in_proj_bias_kv = Parameter(torch.Tensor(2*embed_dim))
+            self.in_proj_bias_kv = Parameter(torch.Tensor(2 * embed_dim))
-            self.out_proj_bias   = Parameter(torch.Tensor(embed_dim))
+            self.out_proj_bias = Parameter(torch.Tensor(embed_dim))
        else:
-            self.register_parameter('in_proj_bias_q', None)
+            self.register_parameter("in_proj_bias_q", None)
-            self.register_parameter('in_proj_bias_kv', None)
+            self.register_parameter("in_proj_bias_kv", None)
-            self.in_proj_bias_q  = None
+            self.in_proj_bias_q = None
            self.in_proj_bias_kv = None
-            self.out_proj_bias   = None
+            self.out_proj_bias = None
        if self.include_norm_add:
-            if impl == 'fast':
+            if impl == "fast":
                self.lyr_nrm_gamma_weights = Parameter(torch.Tensor(embed_dim))
-                self.lyr_nrm_beta_weights  = Parameter(torch.Tensor(embed_dim))
+                self.lyr_nrm_beta_weights = Parameter(torch.Tensor(embed_dim))
-                self.lyr_nrm               = None
+                self.lyr_nrm = None
            else:
-                self.register_parameter('lyr_norm_gamma_weights', None)
+                self.register_parameter("lyr_norm_gamma_weights", None)
-                self.register_parameter('lyr_norm_beta_weights', None)
+                self.register_parameter("lyr_norm_beta_weights", None)
                self.lyr_nrm_gamma_weights = None
-                self.lyr_nrm_beta_weights  = None
+                self.lyr_nrm_beta_weights = None
                self.lyr_nrm = FusedLayerNorm(embed_dim)
        self.reset_parameters()
        if self.include_norm_add:
-            if   impl == 'fast'    : self.attn_func = fast_encdec_attn_norm_add_func
+            if impl == "fast":
-            elif impl == 'default' : self.attn_func = encdec_attn_func
+                self.attn_func = fast_encdec_attn_norm_add_func
-            else :                   assert False, "Unsupported impl: {} !".format(impl)
+            elif impl == "default":
+                self.attn_func = encdec_attn_func
+            else:
+                assert False, "Unsupported impl: {} !".format(impl)
        else:
-            if   impl == 'fast'    : self.attn_func = fast_encdec_attn_func
+            if impl == "fast":
-            elif impl == 'default' : self.attn_func = encdec_attn_func
+                self.attn_func = fast_encdec_attn_func
-            else :                   assert False, "Unsupported impl: {} !".format(impl)
+            elif impl == "default":
+                self.attn_func = encdec_attn_func
+            else:
+                assert False, "Unsupported impl: {} !".format(impl)
    def reset_parameters(self):
        nn.init.xavier_uniform_(self.in_proj_weight_q)
@@ -85,11 +93,11 @@ class EncdecMultiheadAttn(nn.Module):
        nn.init.xavier_uniform_(self.in_proj_weight_kv, gain=math.sqrt(1.5))
        nn.init.xavier_uniform_(self.out_proj_weight)
        if self.bias:
-            nn.init.constant_(self.in_proj_bias_q, 0.)
+            nn.init.constant_(self.in_proj_bias_q, 0.0)
-            nn.init.constant_(self.in_proj_bias_kv, 0.)
+            nn.init.constant_(self.in_proj_bias_kv, 0.0)
-            nn.init.constant_(self.out_proj_bias, 0.)
+            nn.init.constant_(self.out_proj_bias, 0.0)
        if self.include_norm_add:
-            if self.impl == 'fast' :
+            if self.impl == "fast":
                nn.init.ones_(self.lyr_nrm_gamma_weights)
                nn.init.zeros_(self.lyr_nrm_beta_weights)
            else:
@@ -106,7 +114,7 @@ class EncdecMultiheadAttn(nn.Module):
        """
        if key_padding_mask is not None:
-            assert (attn_mask is None), "ERROR attn_mask and key_padding_mask should not be both defined!"
+            assert attn_mask is None, "ERROR attn_mask and key_padding_mask should not be both defined!"
            mask = key_padding_mask
        elif attn_mask is not None:
            mask = attn_mask
@@ -114,28 +122,73 @@ class EncdecMultiheadAttn(nn.Module):
            mask = None
        if self.include_norm_add:
-            if self.impl == 'fast':
+            if self.impl == "fast":
-                outputs = self.attn_func(attn_mask is not None, is_training, self.num_heads, query, key,
+                outputs = self.attn_func(
-                                         self.lyr_nrm_gamma_weights, self.lyr_nrm_beta_weights,
+                    attn_mask is not None,
-                                         self.in_proj_weight_q, self.in_proj_weight_kv, self.out_proj_weight, mask, self.dropout)
+                    is_training,
+                    self.num_heads,
+                    query,
+                    key,
+                    self.lyr_nrm_gamma_weights,
+                    self.lyr_nrm_beta_weights,
+                    self.in_proj_weight_q,
+                    self.in_proj_weight_kv,
+                    self.out_proj_weight,
+                    mask,
+                    self.dropout,
+                )
            else:
                lyr_nrm_results = self.lyr_nrm(query)
-                outputs = self.attn_func(attn_mask is not None, is_training, self.num_heads, self.scaling, lyr_nrm_results, key,
+                outputs = self.attn_func(
-                                         self.in_proj_weight_q, self.in_proj_weight_kv, self.out_proj_weight,
+                    attn_mask is not None,
-                                         self.in_proj_bias_q, self.in_proj_bias_kv, self.out_proj_bias,
+                    is_training,
-                                         mask, self.dropout)
+                    self.num_heads,
+                    self.scaling,
+                    lyr_nrm_results,
+                    key,
+                    self.in_proj_weight_q,
+                    self.in_proj_weight_kv,
+                    self.out_proj_weight,
+                    self.in_proj_bias_q,
+                    self.in_proj_bias_kv,
+                    self.out_proj_bias,
+                    mask,
+                    self.dropout,
+                )
                if is_training:
                    outputs = jit_dropout_add(outputs, query, self.dropout, is_training)
                else:
                    outputs = outputs + query
        else:
-            if self.impl == 'fast':
+            if self.impl == "fast":
-                outputs = self.attn_func(attn_mask is not None, is_training, self.num_heads, query, key,
+                outputs = self.attn_func(
-                                         self.in_proj_weight_q, self.in_proj_weight_kv, self.out_proj_weight, mask, self.dropout)
+                    attn_mask is not None,
+                    is_training,
+                    self.num_heads,
+                    query,
+                    key,
+                    self.in_proj_weight_q,
+                    self.in_proj_weight_kv,
+                    self.out_proj_weight,
+                    mask,
+                    self.dropout,
+                )
            else:
-                outputs = self.attn_func(attn_mask is not None, is_training, self.num_heads, self.scaling, query, key,
+                outputs = self.attn_func(
-                                         self.in_proj_weight_q, self.in_proj_weight_kv, self.out_proj_weight,
+                    attn_mask is not None,
-                                         self.in_proj_bias_q, self.in_proj_bias_kv, self.out_proj_bias,
+                    is_training,
-                                         mask, self.dropout)
+                    self.num_heads,
+                    self.scaling,
+                    query,
+                    key,
+                    self.in_proj_weight_q,
+                    self.in_proj_weight_kv,
+                    self.out_proj_weight,
+                    self.in_proj_bias_q,
+                    self.in_proj_bias_kv,
+                    self.out_proj_bias,
+                    mask,
+                    self.dropout,
+                )
-        return outputs,None
+        return outputs, None
--- a/apex/contrib/multihead_attn/encdec_multihead_attn_func.py
+++ b/apex/contrib/multihead_attn/encdec_multihead_attn_func.py
--- a/apex/contrib/multihead_attn/fast_encdec_multihead_attn_func.py
+++ b/apex/contrib/multihead_attn/fast_encdec_multihead_attn_func.py
 import torch
-import fast_encdec_multihead_attn
+import fast_multihead_attn
 class FastEncdecAttnFunc(torch.autograd.Function):
    @staticmethod
-    def forward(ctx, use_time_mask, is_training, heads, inputs_q, inputs_kv, input_weights_q, input_weights_kv, output_weights, pad_mask, dropout_prob):
+    def forward(
-        heads_t        = torch.tensor([heads])
+        ctx,
+        use_time_mask,
+        is_training,
+        heads,
+        inputs_q,
+        inputs_kv,
+        input_weights_q,
+        input_weights_kv,
+        output_weights,
+        pad_mask,
+        dropout_prob,
+    ):
+        heads_t = torch.tensor([heads])
        dropout_prob_t = torch.tensor([dropout_prob])
-        null_tensor    = torch.tensor([])
+        null_tensor = torch.tensor([])
-        use_mask       = (pad_mask is not None)
+        use_mask = pad_mask is not None
-        input_lin_q_results,                                            \
+        (
-        input_lin_kv_results,                                           \
+            input_lin_q_results,
-        softmax_results,                                                \
+            input_lin_kv_results,
-        dropout_results,                                                \
+            softmax_results,
-        dropout_mask,                                                   \
+            dropout_results,
-        matmul2_results,                                                \
+            dropout_mask,
-        outputs =                                                       \
+            matmul2_results,
-            fast_encdec_multihead_attn.forward(                         \
+            outputs,
-                              use_mask,                                 \
+        ) = fast_multihead_attn.encdec_multihead_attn_forward(
-                              use_time_mask,                            \
+            use_mask,
-                              is_training,                              \
+            use_time_mask,
-                              heads,                                    \
+            is_training,
-                              inputs_q,                                 \
+            heads,
-                              inputs_kv,                                \
+            inputs_q,
-                              input_weights_q,                          \
+            inputs_kv,
-                              input_weights_kv,                         \
+            input_weights_q,
-                              output_weights,                           \
+            input_weights_kv,
-                              pad_mask if use_mask else null_tensor,    \
+            output_weights,
-                              dropout_prob)
+            pad_mask if use_mask else null_tensor,
+            dropout_prob,
+        )
-        ctx.save_for_backward(heads_t,                                  \
+        ctx.save_for_backward(
-                              matmul2_results,                          \
+            heads_t,
-                              dropout_results,                          \
+            matmul2_results,
-                              softmax_results,                          \
+            dropout_results,
-                              input_lin_q_results,                      \
+            softmax_results,
-                              input_lin_kv_results,                     \
+            input_lin_q_results,
-                              inputs_q,                                 \
+            input_lin_kv_results,
-                              inputs_kv,                                \
+            inputs_q,
-                              input_weights_q,                          \
+            inputs_kv,
-                              input_weights_kv,                         \
+            input_weights_q,
-                              output_weights,                           \
+            input_weights_kv,
-                              dropout_mask,                             \
+            output_weights,
-                              dropout_prob_t)
+            dropout_mask,
+            dropout_prob_t,
+        )
        return outputs.detach()
    @staticmethod
    def backward(ctx, output_grads):
-        heads_t,                                                        \
+        (
-        matmul2_results,                                                \
+            heads_t,
-        dropout_results,                                                \
+            matmul2_results,
-        softmax_results,                                                \
+            dropout_results,
-        input_lin_q_results,                                            \
+            softmax_results,
-        input_lin_kv_results,                                           \
+            input_lin_q_results,
-        inputs_q,                                                       \
+            input_lin_kv_results,
-        inputs_kv,                                                      \
+            inputs_q,
-        input_weights_q,                                                \
+            inputs_kv,
-        input_weights_kv,                                               \
+            input_weights_q,
-        output_weights,                                                 \
+            input_weights_kv,
-        dropout_mask,                                                   \
+            output_weights,
-        dropout_prob_t      = ctx.saved_tensors
+            dropout_mask,
+            dropout_prob_t,
+        ) = ctx.saved_tensors
+        (
+            input_q_grads,
+            input_kv_grads,
+            input_weight_q_grads,
+            input_weight_kv_grads,
+            output_weight_grads,
+        ) = fast_multihead_attn.encdec_multihead_attn_backward(
+            heads_t[0],
+            output_grads,
+            matmul2_results,
+            dropout_results,
+            softmax_results,
+            input_lin_q_results,
+            input_lin_kv_results,
+            inputs_q,
+            inputs_kv,
+            input_weights_q,
+            input_weights_kv,
+            output_weights,
+            dropout_mask,
+            dropout_prob_t[0],
+        )
-        input_q_grads,                                                  \
+        return (
-        input_kv_grads,                                                 \
+            None,
-        input_weight_q_grads,                                           \
+            None,
-        input_weight_kv_grads,                                          \
+            None,
-        output_weight_grads =                                           \
+            input_q_grads,
-            fast_encdec_multihead_attn.backward(                        \
+            input_kv_grads,
-                              heads_t[0],                               \
+            input_weight_q_grads,
-                              output_grads,                             \
+            input_weight_kv_grads,
-                              matmul2_results,                          \
+            output_weight_grads,
-                              dropout_results,                          \
+            None,
-                              softmax_results,                          \
+            None,
-                              input_lin_q_results,                      \
+        )
-                              input_lin_kv_results,                     \
-                              inputs_q,                                 \
-                              inputs_kv,                                \
-                              input_weights_q,                          \
-                              input_weights_kv,                         \
-                              output_weights,                           \
-                              dropout_mask,                             \
-                              dropout_prob_t[0])
-        return None, None, None, input_q_grads, input_kv_grads, input_weight_q_grads, input_weight_kv_grads, output_weight_grads, None, None
 fast_encdec_attn_func = FastEncdecAttnFunc.apply
--- a/apex/contrib/multihead_attn/fast_encdec_multihead_attn_norm_add_func.py
+++ b/apex/contrib/multihead_attn/fast_encdec_multihead_attn_norm_add_func.py
@@ -6,125 +6,154 @@
 # can be found in the PATENTS file in the same directory.
 import torch
-import fast_encdec_multihead_attn_norm_add
+import fast_multihead_attn
 class FastEncdecAttnNormAddFunc(torch.autograd.Function):
    @staticmethod
-    def forward(ctx, use_time_mask, is_training, heads, inputs_q, inputs_kv, lyr_nrm_gamma_weights, lyr_nrm_beta_weights, input_weights_q, input_weights_kv, output_weights, pad_mask, dropout_prob):
+    def forward(
-        heads_t        = torch.tensor([heads])
+        ctx,
+        use_time_mask,
+        is_training,
+        heads,
+        inputs_q,
+        inputs_kv,
+        lyr_nrm_gamma_weights,
+        lyr_nrm_beta_weights,
+        input_weights_q,
+        input_weights_kv,
+        output_weights,
+        pad_mask,
+        dropout_prob,
+    ):
+        heads_t = torch.tensor([heads])
        dropout_prob_t = torch.tensor([dropout_prob])
-        null_tensor    = torch.tensor([])
+        null_tensor = torch.tensor([])
-        use_mask       = (pad_mask is not None)
+        use_mask = pad_mask is not None
-        lyr_nrm_results,                                                \
+        (
-        lyr_nrm_mean,                                                   \
+            lyr_nrm_results,
-        lyr_nrm_invvar,                                                 \
+            lyr_nrm_mean,
-        input_lin_q_results,                                            \
+            lyr_nrm_invvar,
-        input_lin_kv_results,                                           \
+            input_lin_q_results,
-        softmax_results,                                                \
+            input_lin_kv_results,
-        dropout_results,                                                \
+            softmax_results,
-        dropout_mask,                                                   \
+            dropout_results,
-        matmul2_results,                                                \
+            dropout_mask,
-        dropout_add_mask,                                               \
+            matmul2_results,
-        outputs =                                                       \
+            dropout_add_mask,
-            fast_encdec_multihead_attn_norm_add.forward(                \
+            outputs,
-                              use_mask,                                 \
+        ) = fast_multihead_attn.encdec_multihead_attn_norm_add_forward(
-                              use_time_mask,                            \
+            use_mask,
-                              is_training,                              \
+            use_time_mask,
-                              heads,                                    \
+            is_training,
-                              inputs_q,                                 \
+            heads,
-                              inputs_kv,                                \
+            inputs_q,
-                              lyr_nrm_gamma_weights,                    \
+            inputs_kv,
-                              lyr_nrm_beta_weights,                     \
+            lyr_nrm_gamma_weights,
-                              input_weights_q,                          \
+            lyr_nrm_beta_weights,
-                              input_weights_kv,                         \
+            input_weights_q,
-                              output_weights,                           \
+            input_weights_kv,
-                              pad_mask if use_mask else null_tensor,    \
+            output_weights,
-                              dropout_prob)
+            pad_mask if use_mask else null_tensor,
+            dropout_prob,
+        )
-        ctx.save_for_backward(heads_t,                                  \
+        ctx.save_for_backward(
-                              matmul2_results,                          \
+            heads_t,
-                              dropout_results,                          \
+            matmul2_results,
-                              softmax_results,                          \
+            dropout_results,
-                              input_lin_q_results,                      \
+            softmax_results,
-                              input_lin_kv_results,                     \
+            input_lin_q_results,
-                              lyr_nrm_results,                          \
+            input_lin_kv_results,
-                              lyr_nrm_mean,                             \
+            lyr_nrm_results,
-                              lyr_nrm_invvar,                           \
+            lyr_nrm_mean,
-                              inputs_q,                                 \
+            lyr_nrm_invvar,
-                              inputs_kv,                                \
+            inputs_q,
-                              lyr_nrm_gamma_weights,                    \
+            inputs_kv,
-                              lyr_nrm_beta_weights,                     \
+            lyr_nrm_gamma_weights,
-                              input_weights_q,                          \
+            lyr_nrm_beta_weights,
-                              input_weights_kv,                         \
+            input_weights_q,
-                              output_weights,                           \
+            input_weights_kv,
-                              dropout_mask,                             \
+            output_weights,
-                              dropout_add_mask,                         \
+            dropout_mask,
-                              dropout_prob_t)
+            dropout_add_mask,
+            dropout_prob_t,
+        )
        return outputs.detach()
    @staticmethod
    def backward(ctx, output_grads):
-        heads_t,                                                        \
+        (
-        matmul2_results,                                                \
+            heads_t,
-        dropout_results,                                                \
+            matmul2_results,
-        softmax_results,                                                \
+            dropout_results,
-        input_lin_q_results,                                            \
+            softmax_results,
-        input_lin_kv_results,                                           \
+            input_lin_q_results,
-        lyr_nrm_results,                                                \
+            input_lin_kv_results,
-        lyr_nrm_mean,                                                   \
+            lyr_nrm_results,
-        lyr_nrm_invvar,                                                 \
+            lyr_nrm_mean,
-        inputs_q,                                                       \
+            lyr_nrm_invvar,
-        inputs_kv,                                                      \
+            inputs_q,
-        lyr_nrm_gamma_weights,                                          \
+            inputs_kv,
-        lyr_nrm_beta_weights,                                           \
+            lyr_nrm_gamma_weights,
-        input_weights_q,                                                \
+            lyr_nrm_beta_weights,
-        input_weights_kv,                                               \
+            input_weights_q,
-        output_weights,                                                 \
+            input_weights_kv,
-        dropout_mask,                                                   \
+            output_weights,
-        dropout_add_mask,                                               \
+            dropout_mask,
-        dropout_prob_t         = ctx.saved_tensors
+            dropout_add_mask,
+            dropout_prob_t,
+        ) = ctx.saved_tensors
+        (
+            input_q_grads,
+            input_kv_grads,
+            lyr_nrm_gamma_grads,
+            lyr_nrm_beta_grads,
+            input_weight_q_grads,
+            input_weight_kv_grads,
+            output_weight_grads,
+        ) = fast_multihead_attn.encdec_multihead_attn_norm_add_backward(
+            heads_t[0],
+            output_grads,
+            matmul2_results,
+            dropout_results,
+            softmax_results,
+            input_lin_q_results,
+            input_lin_kv_results,
+            lyr_nrm_results,
+            lyr_nrm_mean,
+            lyr_nrm_invvar,
+            inputs_q,
+            inputs_kv,
+            lyr_nrm_gamma_weights,
+            lyr_nrm_beta_weights,
+            input_weights_q,
+            input_weights_kv,
+            output_weights,
+            dropout_mask,
+            dropout_add_mask,
+            dropout_prob_t[0],
+        )
-        input_q_grads,                                                  \
+        # import pdb; pdb.set_trace()
-        input_kv_grads,                                                 \
+        return (
-        lyr_nrm_gamma_grads,                                            \
+            None,
-        lyr_nrm_beta_grads,                                             \
+            None,
-        input_weight_q_grads,                                           \
+            None,
-        input_weight_kv_grads,                                          \
+            input_q_grads,
-        output_weight_grads    =                                        \
+            input_kv_grads,
-            fast_encdec_multihead_attn_norm_add.backward(               \
+            lyr_nrm_gamma_grads,
-                              heads_t[0],                               \
+            lyr_nrm_beta_grads,
-                              output_grads,                             \
+            input_weight_q_grads,
-                              matmul2_results,                          \
+            input_weight_kv_grads,
-                              dropout_results,                          \
+            output_weight_grads,
-                              softmax_results,                          \
+            None,
-                              input_lin_q_results,                      \
+            None,
-                              input_lin_kv_results,                     \
+        )
-                              lyr_nrm_results,                          \
-                              lyr_nrm_mean,                             \
-                              lyr_nrm_invvar,                           \
-                              inputs_q,                                 \
-                              inputs_kv,                                \
-                              lyr_nrm_gamma_weights,                    \
-                              lyr_nrm_beta_weights,                     \
-                              input_weights_q,                          \
-                              input_weights_kv,                         \
-                              output_weights,                           \
-                              dropout_mask,                             \
-                              dropout_add_mask,                         \
-                              dropout_prob_t[0])
-        #import pdb; pdb.set_trace()
-        return None, None, None,                                        \
-               input_q_grads,                                           \
-               input_kv_grads,                                          \
-               lyr_nrm_gamma_grads,                                     \
-               lyr_nrm_beta_grads,                                      \
-               input_weight_q_grads,                                    \
-               input_weight_kv_grads,                                   \
-               output_weight_grads,                                     \
-               None, None
 fast_encdec_attn_norm_add_func = FastEncdecAttnNormAddFunc.apply
--- a/apex/contrib/multihead_attn/fast_self_multihead_attn_func.py
+++ b/apex/contrib/multihead_attn/fast_self_multihead_attn_func.py
--- a/apex/contrib/multihead_attn/fast_self_multihead_attn_norm_add_func.py
+++ b/apex/contrib/multihead_attn/fast_self_multihead_attn_norm_add_func.py
 import torch
-import fast_self_multihead_attn_norm_add
+import fast_multihead_attn
 class FastSelfAttnNormAddFunc(torch.autograd.Function):
    @staticmethod
-    def forward(ctx, use_time_mask, is_training, heads, inputs, lyr_nrm_gamma_weights, lyr_nrm_beta_weights, input_weights, output_weights, pad_mask, dropout_prob):
+    def forward(
-        heads_t        = torch.tensor([heads])
+        ctx,
+        use_time_mask,
+        is_training,
+        heads,
+        inputs,
+        lyr_nrm_gamma_weights,
+        lyr_nrm_beta_weights,
+        input_weights,
+        output_weights,
+        pad_mask,
+        dropout_prob,
+    ):
+        heads_t = torch.tensor([heads])
        dropout_prob_t = torch.tensor([dropout_prob])
-        null_tensor    = torch.tensor([])
+        null_tensor = torch.tensor([])
-        use_mask       = (pad_mask is not None)
+        use_mask = pad_mask is not None
-        lyr_nrm_results,                                                \
+        (
-        lyr_nrm_mean,                                                   \
+            lyr_nrm_results,
-        lyr_nrm_invvar,                                                 \
+            lyr_nrm_mean,
-        input_lin_results,                                              \
+            lyr_nrm_invvar,
-        softmax_results,                                                \
+            input_lin_results,
-        dropout_results,                                                \
+            softmax_results,
-        dropout_mask,                                                   \
+            dropout_results,
-        matmul2_results,                                                \
+            dropout_mask,
-        dropout_add_mask,                                               \
+            matmul2_results,
-        outputs =                                                       \
+            dropout_add_mask,
-             fast_self_multihead_attn_norm_add.forward(                 \
+            outputs,
-                              use_mask,                                 \
+        ) = fast_multihead_attn.self_attn_norm_add_forward(
-                              use_time_mask,                            \
+            use_mask,
-                              is_training,                              \
+            use_time_mask,
-                              heads,                                    \
+            is_training,
-                              inputs,                                   \
+            heads,
-                              lyr_nrm_gamma_weights,                    \
+            inputs,
-                              lyr_nrm_beta_weights,                     \
+            lyr_nrm_gamma_weights,
-                              input_weights,                            \
+            lyr_nrm_beta_weights,
-                              output_weights,                           \
+            input_weights,
-                              pad_mask if use_mask else null_tensor,    \
+            output_weights,
-                              dropout_prob)
+            pad_mask if use_mask else null_tensor,
+            dropout_prob,
+        )
+        # fast_self_multihead_attn_norm_add.forward(                 \
-        ctx.save_for_backward(heads_t,                                  \
+        ctx.save_for_backward(
-                              matmul2_results,                          \
+            heads_t,
-                              dropout_results,                          \
+            matmul2_results,
-                              softmax_results,                          \
+            dropout_results,
-                              input_lin_results,                        \
+            softmax_results,
-                              lyr_nrm_results,                          \
+            input_lin_results,
-                              lyr_nrm_mean,                             \
+            lyr_nrm_results,
-                              lyr_nrm_invvar,                           \
+            lyr_nrm_mean,
-                              inputs,                                   \
+            lyr_nrm_invvar,
-                              lyr_nrm_gamma_weights,                    \
+            inputs,
-                              lyr_nrm_beta_weights,                     \
+            lyr_nrm_gamma_weights,
-                              input_weights,                            \
+            lyr_nrm_beta_weights,
-                              output_weights,                           \
+            input_weights,
-                              dropout_mask,                             \
+            output_weights,
-                              dropout_add_mask,                         \
+            dropout_mask,
-                              dropout_prob_t)
+            dropout_add_mask,
+            dropout_prob_t,
+        )
        return outputs.detach()
    @staticmethod
    def backward(ctx, output_grads):
-        heads_t,                                                        \
+        (
-        matmul2_results,                                                \
+            heads_t,
-        dropout_results,                                                \
+            matmul2_results,
-        softmax_results,                                                \
+            dropout_results,
-        input_lin_results,                                              \
+            softmax_results,
-        lyr_nrm_results,                                                \
+            input_lin_results,
-        lyr_nrm_mean,                                                   \
+            lyr_nrm_results,
-        lyr_nrm_invvar,                                                 \
+            lyr_nrm_mean,
-        inputs,                                                         \
+            lyr_nrm_invvar,
-        lyr_nrm_gamma_weights,                                          \
+            inputs,
-        lyr_nrm_beta_weights,                                           \
+            lyr_nrm_gamma_weights,
-        input_weights,                                                  \
+            lyr_nrm_beta_weights,
-        output_weights,                                                 \
+            input_weights,
-        dropout_mask,                                                   \
+            output_weights,
-        dropout_add_mask,                                               \
+            dropout_mask,
-        dropout_prob_t          = ctx.saved_tensors
+            dropout_add_mask,
+            dropout_prob_t,
+        ) = ctx.saved_tensors
+        (
+            input_grads,
+            lyr_nrm_gamma_grads,
+            lyr_nrm_beta_grads,
+            input_weight_grads,
+            output_weight_grads,
+        ) = fast_multihead_attn.self_attn_norm_add_backward(
+            heads_t[0],
+            output_grads,
+            matmul2_results,
+            dropout_results,
+            softmax_results,
+            input_lin_results,
+            lyr_nrm_results,
+            lyr_nrm_mean,
+            lyr_nrm_invvar,
+            inputs,
+            lyr_nrm_gamma_weights,
+            lyr_nrm_beta_weights,
+            input_weights,
+            output_weights,
+            dropout_mask,
+            dropout_add_mask,
+            dropout_prob_t[0],
+        )
+        # fast_self_multihead_attn_norm_add.backward(                 \
-        input_grads,                                                    \
+        return (
-        lyr_nrm_gamma_grads,                                            \
+            None,
-        lyr_nrm_beta_grads,                                             \
+            None,
-        input_weight_grads,                                             \
+            None,
-        output_weight_grads    =                                        \
+            input_grads,
-            fast_self_multihead_attn_norm_add.backward(                 \
+            lyr_nrm_gamma_grads,
-                              heads_t[0],                               \
+            lyr_nrm_beta_grads,
-                              output_grads,                             \
+            input_weight_grads,
-                              matmul2_results,                          \
+            output_weight_grads,
-                              dropout_results,                          \
+            None,
-                              softmax_results,                          \
+            None,
-                              input_lin_results,                        \
+        )
-                              lyr_nrm_results,                          \
-                              lyr_nrm_mean,                             \
-                              lyr_nrm_invvar,                           \
-                              inputs,                                   \
-                              lyr_nrm_gamma_weights,                    \
-                              lyr_nrm_beta_weights,                     \
-                              input_weights,                            \
-                              output_weights,                           \
-                              dropout_mask,                             \
-                              dropout_add_mask,                         \
-                              dropout_prob_t[0])
-        return None, None, None,                                        \
-               input_grads,                                             \
-               lyr_nrm_gamma_grads,                                     \
-               lyr_nrm_beta_grads,                                      \
-               input_weight_grads,                                      \
-               output_weight_grads,                                     \
-               None, None
 fast_self_attn_norm_add_func = FastSelfAttnNormAddFunc.apply
--- a/apex/contrib/multihead_attn/mask_softmax_dropout_func.py
+++ b/apex/contrib/multihead_attn/mask_softmax_dropout_func.py
 import torch
-import fast_mask_softmax_dropout
-import fast_additive_mask_softmax_dropout
+import fast_multihead_attn
-class MaskSoftmaxDropout(torch.autograd.Function) :
+class MaskSoftmaxDropout(torch.autograd.Function):
    @staticmethod
    def forward(ctx, is_training, heads, inputs, pad_mask, mask_additive, dropout_prob):
-        heads_t        = torch.tensor([heads])
+        heads_t = torch.tensor([heads])
        dropout_prob_t = torch.tensor([dropout_prob])
-        null_tensor    = torch.tensor([])
+        null_tensor = torch.tensor([])
-        use_mask       = (pad_mask is not None)
+        use_mask = pad_mask is not None
-        use_mask_t     = torch.tensor([use_mask])
+        use_mask_t = torch.tensor([use_mask])
-        mask_additive_t     = torch.tensor([mask_additive])
+        mask_additive_t = torch.tensor([mask_additive])
        if mask_additive:
-            dropout_results,                                                \
+            dropout_results, dropout_mask, softmax_results = fast_multihead_attn.additive_mask_softmax_dropout_forward(
-            dropout_mask,                                                   \
+                use_mask, is_training, heads, inputs, pad_mask if use_mask else null_tensor, dropout_prob
-            softmax_results =                                                \
+            )
-                    fast_additive_mask_softmax_dropout.forward(                           \
+            # fast_additive_mask_softmax_dropout.forward(                           \
-                                      use_mask,                                 \
-                                      is_training,                              \
-                                      heads,                                    \
-                                      inputs,                                   \
-                                      pad_mask if use_mask else null_tensor,    \
-                                      dropout_prob)
        else:
-            dropout_results,                                                \
+            dropout_results, dropout_mask, softmax_results = fast_multihead_attn.mask_softmax_dropout_forward(
-            dropout_mask,                                                   \
+                use_mask, is_training, heads, inputs, pad_mask if use_mask else null_tensor, dropout_prob
-            softmax_results =                                                \
+            )
-                    fast_mask_softmax_dropout.forward(                           \
+            # fast_mask_softmax_dropout.forward(                           \
-                                      use_mask,                                 \
-                                      is_training,                              \
-                                      heads,                                    \
-                                      inputs,                                   \
-                                      pad_mask if use_mask else null_tensor,    \
-                                      dropout_prob)
        ctx.save_for_backward(
-                              use_mask_t,                                    \
+            use_mask_t,
-                              heads_t,                                 \
+            heads_t,
-                              softmax_results,                          \
+            softmax_results,
-                              dropout_mask,                             \
+            dropout_mask,
-                              pad_mask if use_mask else null_tensor,        \
+            pad_mask if use_mask else null_tensor,
-                              mask_additive_t,        \
+            mask_additive_t,
-                              dropout_prob_t)
+            dropout_prob_t,
+        )
        return dropout_results.detach()
    @staticmethod
    def backward(ctx, output_grads):
-        use_mask_t, \
+        (
-        heads_t,   \
+            use_mask_t,
-        softmax_results,                                                \
+            heads_t,
-        dropout_mask,                                              \
+            softmax_results,
-        pad_mask,                                                   \
+            dropout_mask,
-        mask_additive_t,                                                   \
+            pad_mask,
-        dropout_prob_t      = ctx.saved_tensors
+            mask_additive_t,
+            dropout_prob_t,
+        ) = ctx.saved_tensors
        if mask_additive_t[0]:
-            input_grads =                                                    \
+            input_grads = fast_multihead_attn.additive_mask_softmax_dropout_backward(
-                fast_additive_mask_softmax_dropout.backward(                          \
+                use_mask_t[0], heads_t[0], output_grads, softmax_results, dropout_mask, dropout_prob_t[0]
-                                  use_mask_t[0],                             \
+            )
-                                  heads_t[0],                             \
+            # fast_additive_mask_softmax_dropout.backward(                          \
-                                  output_grads,                             \
-                                  softmax_results,                          \
-                                  dropout_mask,                             \
-                                  dropout_prob_t[0])
        else:
-            input_grads =                                                    \
+            input_grads = fast_multihead_attn.mask_softmax_dropout_backward(
-                fast_mask_softmax_dropout.backward(                          \
+                use_mask_t[0], heads_t[0], output_grads, softmax_results, dropout_mask, pad_mask, dropout_prob_t[0]
-                                  use_mask_t[0],                             \
+            )
-                                  heads_t[0],                             \
+            # fast_mask_softmax_dropout.backward(                          \
-                                  output_grads,                             \
-                                  softmax_results,                          \
-                                  dropout_mask,                             \
-                                  pad_mask,                             \
-                                  dropout_prob_t[0])
        return None, None, input_grads, None, None, None
 fast_mask_softmax_dropout_func = MaskSoftmaxDropout.apply
--- a/apex/contrib/multihead_attn/self_multihead_attn.py
+++ b/apex/contrib/multihead_attn/self_multihead_attn.py
@@ -5,16 +5,17 @@ from torch import nn
 from torch.nn import Parameter
 import torch.nn.functional as F
-from .self_multihead_attn_func               import self_attn_func
+from .self_multihead_attn_func import self_attn_func
-from .fast_self_multihead_attn_func          import fast_self_attn_func
+from .fast_self_multihead_attn_func import fast_self_attn_func
 from .fast_self_multihead_attn_norm_add_func import fast_self_attn_norm_add_func
-from apex.normalization.fused_layer_norm     import FusedLayerNorm
+from apex.normalization.fused_layer_norm import FusedLayerNorm
-if hasattr(torch._C, '_jit_set_profiling_executor') :
+if hasattr(torch._C, "_jit_set_profiling_executor"):
    torch._C._jit_set_profiling_executor(False)
-if hasattr(torch._C, '_jit_set_profiling_mode') :
+if hasattr(torch._C, "_jit_set_profiling_mode"):
    torch._C._jit_set_profiling_mode(False)
 @torch.jit.script
 def jit_dropout_add(x, residual, prob, is_training):
    # type: (Tensor, Tensor, float, bool) -> Tensor
@@ -28,7 +29,18 @@ class SelfMultiheadAttn(nn.Module):
    See "Attention Is All You Need" for more details.
    """
-    def __init__(self, embed_dim, num_heads, dropout=0., bias=False, include_norm_add=False, impl='fast', separate_qkv_params=False, mask_additive=False):
+    def __init__(
+        self,
+        embed_dim,
+        num_heads,
+        dropout=0.0,
+        bias=False,
+        include_norm_add=False,
+        impl="fast",
+        separate_qkv_params=False,
+        mask_additive=False,
+    ):
        super().__init__()
        self.embed_dim = embed_dim
        self.num_heads = num_heads
@@ -38,61 +50,69 @@ class SelfMultiheadAttn(nn.Module):
        self.bias = bias
        self.include_norm_add = include_norm_add
        self.impl = impl
-        self.scaling = self.head_dim**-0.5
+        self.scaling = self.head_dim ** -0.5
        self.separate_qkv_params = separate_qkv_params
        self.mask_additive = mask_additive
        if mask_additive:
            assert self.include_norm_add == False, "additive mask not supported with layer norm"
-            assert impl == 'default' or (impl == 'fast' and bias), "additive mask not supported for fast mode without bias"
+            assert impl == "default" or (
+                impl == "fast" and bias
+            ), "additive mask not supported for fast mode without bias"
        if separate_qkv_params:
-            self.q_weight  = Parameter(torch.Tensor(embed_dim, embed_dim))
+            self.q_weight = Parameter(torch.Tensor(embed_dim, embed_dim))
-            self.k_weight  = Parameter(torch.Tensor(embed_dim, embed_dim))
+            self.k_weight = Parameter(torch.Tensor(embed_dim, embed_dim))
-            self.v_weight  = Parameter(torch.Tensor(embed_dim, embed_dim))
+            self.v_weight = Parameter(torch.Tensor(embed_dim, embed_dim))
        else:
-            self.in_proj_weight  = Parameter(torch.Tensor(3*embed_dim, embed_dim))
+            self.in_proj_weight = Parameter(torch.Tensor(3 * embed_dim, embed_dim))
        self.out_proj_weight = Parameter(torch.Tensor(embed_dim, embed_dim))
        if self.bias:
            if separate_qkv_params:
-                self.q_bias  = Parameter(torch.Tensor(embed_dim))
+                self.q_bias = Parameter(torch.Tensor(embed_dim))
-                self.k_bias  = Parameter(torch.Tensor(embed_dim))
+                self.k_bias = Parameter(torch.Tensor(embed_dim))
-                self.v_bias  = Parameter(torch.Tensor(embed_dim))
+                self.v_bias = Parameter(torch.Tensor(embed_dim))
            else:
-                self.in_proj_bias = Parameter(torch.Tensor(3*embed_dim))
+                self.in_proj_bias = Parameter(torch.Tensor(3 * embed_dim))
            self.out_proj_bias = Parameter(torch.Tensor(embed_dim))
        else:
            if separate_qkv_params:
-                self.register_parameter('q_bias', None)
+                self.register_parameter("q_bias", None)
-                self.register_parameter('k_bias', None)
+                self.register_parameter("k_bias", None)
-                self.register_parameter('v_bias', None)
+                self.register_parameter("v_bias", None)
                self.q_bias = None
                self.k_bias = None
                self.v_bias = None
            else:
-                self.register_parameter('in_proj_bias', None)
+                self.register_parameter("in_proj_bias", None)
                self.in_proj_bias = None
-            self.register_parameter('out_proj_bias', None)
+            self.register_parameter("out_proj_bias", None)
            self.out_proj_bias = None
        if self.include_norm_add:
-            if impl == 'fast':
+            if impl == "fast":
                self.lyr_nrm_gamma_weights = Parameter(torch.Tensor(embed_dim))
-                self.lyr_nrm_beta_weights  = Parameter(torch.Tensor(embed_dim))
+                self.lyr_nrm_beta_weights = Parameter(torch.Tensor(embed_dim))
-                self.lyr_nrm               = None
+                self.lyr_nrm = None
            else:
-                self.register_parameter('lyr_norm_gamma_weights', None)
+                self.register_parameter("lyr_norm_gamma_weights", None)
-                self.register_parameter('lyr_norm_beta_weights', None)
+                self.register_parameter("lyr_norm_beta_weights", None)
                self.lyr_nrm_gamma_weights = None
-                self.lyr_nrm_beta_weights  = None
+                self.lyr_nrm_beta_weights = None
                self.lyr_nrm = FusedLayerNorm(embed_dim)
        self.reset_parameters()
        if self.include_norm_add:
-            if   impl == 'fast'    : self.attn_func = fast_self_attn_norm_add_func
+            if impl == "fast":
-            elif impl == 'default' : self.attn_func = self_attn_func
+                self.attn_func = fast_self_attn_norm_add_func
-            else :                   assert False, "Unsupported impl: {} !".format(impl)
+            elif impl == "default":
+                self.attn_func = self_attn_func
+            else:
+                assert False, "Unsupported impl: {} !".format(impl)
        else:
-            if   impl == 'fast'    : self.attn_func = fast_self_attn_func
+            if impl == "fast":
-            elif impl == 'default' : self.attn_func = self_attn_func
+                self.attn_func = fast_self_attn_func
-            else :                   assert False, "Unsupported impl: {} !".format(impl)
+            elif impl == "default":
+                self.attn_func = self_attn_func
+            else:
+                assert False, "Unsupported impl: {} !".format(impl)
    def reset_parameters(self):
        if self.separate_qkv_params:
@@ -108,14 +128,14 @@ class SelfMultiheadAttn(nn.Module):
        nn.init.xavier_uniform_(self.out_proj_weight)
        if self.bias:
            if self.separate_qkv_params:
-                nn.init.constant_(self.q_bias, 0.)
+                nn.init.constant_(self.q_bias, 0.0)
-                nn.init.constant_(self.k_bias, 0.)
+                nn.init.constant_(self.k_bias, 0.0)
-                nn.init.constant_(self.v_bias, 0.)
+                nn.init.constant_(self.v_bias, 0.0)
            else:
-                nn.init.constant_(self.in_proj_bias, 0.)
+                nn.init.constant_(self.in_proj_bias, 0.0)
-            nn.init.constant_(self.out_proj_bias, 0.)
+            nn.init.constant_(self.out_proj_bias, 0.0)
        if self.include_norm_add:
-            if self.impl == 'fast':
+            if self.impl == "fast":
                nn.init.ones_(self.lyr_nrm_gamma_weights)
                nn.init.zeros_(self.lyr_nrm_beta_weights)
            else:
@@ -131,18 +151,40 @@ class SelfMultiheadAttn(nn.Module):
        batch x src_len, where padding elements are indicated by 1s.
        """
        if self.separate_qkv_params:
-            input_weights = torch.cat([self.q_weight.view(self.num_heads,1,self.head_dim,self.embed_dim), self.k_weight.view(self.num_heads,1,self.head_dim,self.embed_dim), self.v_weight.view(self.num_heads,1,self.head_dim,self.embed_dim)], dim=1).reshape(3*self.embed_dim,self.embed_dim).contiguous()
+            input_weights = (
-        else: 
+                torch.cat(
+                    [
+                        self.q_weight.view(self.num_heads, 1, self.head_dim, self.embed_dim),
+                        self.k_weight.view(self.num_heads, 1, self.head_dim, self.embed_dim),
+                        self.v_weight.view(self.num_heads, 1, self.head_dim, self.embed_dim),
+                    ],
+                    dim=1,
+                )
+                .reshape(3 * self.embed_dim, self.embed_dim)
+                .contiguous()
+            )
+        else:
            input_weights = self.in_proj_weight
        if self.bias:
            if self.separate_qkv_params:
-                input_bias = torch.cat([self.q_bias.view(self.num_heads,1,self.head_dim), self.k_bias.view(self.num_heads,1,self.head_dim), self.v_bias.view(self.num_heads,1,self.head_dim)],dim=1).reshape(3*self.embed_dim).contiguous()
+                input_bias = (
+                    torch.cat(
+                        [
+                            self.q_bias.view(self.num_heads, 1, self.head_dim),
+                            self.k_bias.view(self.num_heads, 1, self.head_dim),
+                            self.v_bias.view(self.num_heads, 1, self.head_dim),
+                        ],
+                        dim=1,
+                    )
+                    .reshape(3 * self.embed_dim)
+                    .contiguous()
+                )
            else:
                input_bias = self.in_proj_bias
        else:
-            input_bias=None        
+            input_bias = None
        if key_padding_mask is not None:
-            assert (attn_mask is None), "ERROR attn_mask and key_padding_mask should not be both defined!"
+            assert attn_mask is None, "ERROR attn_mask and key_padding_mask should not be both defined!"
            mask = key_padding_mask
        elif attn_mask is not None:
            assert self.mask_additive == False, "additive mask not supported for time mask"
@@ -151,28 +193,68 @@ class SelfMultiheadAttn(nn.Module):
            mask = None
        if self.include_norm_add:
-            if self.impl == 'fast':
+            if self.impl == "fast":
-                outputs = self.attn_func(attn_mask is not None, is_training, self.num_heads, query,
+                outputs = self.attn_func(
-                                         self.lyr_nrm_gamma_weights, self.lyr_nrm_beta_weights,
+                    attn_mask is not None,
-                                         input_weights, self.out_proj_weight, mask, self.dropout)
+                    is_training,
+                    self.num_heads,
+                    query,
+                    self.lyr_nrm_gamma_weights,
+                    self.lyr_nrm_beta_weights,
+                    input_weights,
+                    self.out_proj_weight,
+                    mask,
+                    self.dropout,
+                )
            else:
                lyr_nrm_results = self.lyr_nrm(query)
-                outputs = self.attn_func(attn_mask is not None, is_training, self.num_heads, self.scaling, lyr_nrm_results,
+                outputs = self.attn_func(
-                                         input_weights, self.out_proj_weight,
+                    attn_mask is not None,
-                                         input_bias, self.out_proj_bias,
+                    is_training,
-                                         mask, self.mask_additive, self.dropout)
+                    self.num_heads,
+                    self.scaling,
+                    lyr_nrm_results,
+                    input_weights,
+                    self.out_proj_weight,
+                    input_bias,
+                    self.out_proj_bias,
+                    mask,
+                    self.mask_additive,
+                    self.dropout,
+                )
                if is_training:
                    outputs = jit_dropout_add(outputs, query, self.dropout, is_training)
                else:
                    outputs = outputs + query
        else:
-            if self.impl == 'fast':
+            if self.impl == "fast":
-                outputs = self.attn_func(attn_mask is not None, is_training, self.num_heads, query,
+                outputs = self.attn_func(
-                                         input_weights, self.out_proj_weight, input_bias, self.out_proj_bias, mask, self.mask_additive, self.dropout)
+                    attn_mask is not None,
+                    is_training,
+                    self.num_heads,
+                    query,
+                    input_weights,
+                    self.out_proj_weight,
+                    input_bias,
+                    self.out_proj_bias,
+                    mask,
+                    self.mask_additive,
+                    self.dropout,
+                )
            else:
-                outputs = self.attn_func(attn_mask is not None, is_training, self.num_heads, self.scaling, query,
+                outputs = self.attn_func(
-                                         input_weights, self.out_proj_weight,
+                    attn_mask is not None,
-                                         input_bias, self.out_proj_bias,
+                    is_training,
-                                         mask, self.mask_additive, self.dropout)
+                    self.num_heads,
+                    self.scaling,
+                    query,
+                    input_weights,
+                    self.out_proj_weight,
+                    input_bias,
+                    self.out_proj_bias,
+                    mask,
+                    self.mask_additive,
+                    self.dropout,
+                )
-        return outputs,None
+        return outputs, None
--- a/apex/contrib/multihead_attn/self_multihead_attn_func.py
+++ b/apex/contrib/multihead_attn/self_multihead_attn_func.py
--- a/setup.py
+++ b/setup.py
@@ -385,112 +385,34 @@ if "--fast_multihead_attn" in sys.argv:
        if int(bare_metal_major) >= 11:
            cc_flag.append('-gencode')
            cc_flag.append('arch=compute_80,code=sm_80')
+            cc_flag.append('-gencode')
+            cc_flag.append('arch=compute_86,code=sm_86')
        subprocess.run(["git", "submodule", "update", "--init", "apex/contrib/csrc/multihead_attn/cutlass"])
        ext_modules.append(
-            CUDAExtension(name='fast_additive_mask_softmax_dropout',
+            CUDAExtension(
-                          sources=['apex/contrib/csrc/multihead_attn/additive_masked_softmax_dropout.cpp',
+                name='fast_multihead_attn',
-                                   'apex/contrib/csrc/multihead_attn/additive_masked_softmax_dropout_cuda.cu'],
+                sources=[
-                          extra_compile_args={'cxx': ['-O3',] + version_dependent_macros + generator_flag,
+                    'apex/contrib/csrc/multihead_attn/multihead_attn_frontend.cpp',
-                                              'nvcc':['-O3',
+                    'apex/contrib/csrc/multihead_attn/additive_masked_softmax_dropout_cuda.cu',
-                                                      '-gencode', 'arch=compute_70,code=sm_70',
+                    "apex/contrib/csrc/multihead_attn/masked_softmax_dropout_cuda.cu",
-                                                      '-U__CUDA_NO_HALF_OPERATORS__',
+                    "apex/contrib/csrc/multihead_attn/encdec_multihead_attn_cuda.cu",
-                                                      '-U__CUDA_NO_HALF_CONVERSIONS__',
+                    "apex/contrib/csrc/multihead_attn/encdec_multihead_attn_norm_add_cuda.cu",
-                                                      '--expt-relaxed-constexpr',
+                    "apex/contrib/csrc/multihead_attn/self_multihead_attn_cuda.cu",
-                                                      '--expt-extended-lambda',
+                    "apex/contrib/csrc/multihead_attn/self_multihead_attn_bias_additive_mask_cuda.cu",
-                                                      '--use_fast_math'] + version_dependent_macros + generator_flag + cc_flag},
+                    "apex/contrib/csrc/multihead_attn/self_multihead_attn_bias_cuda.cu",
-                          include_dirs=[os.path.join(this_dir, "apex/contrib/csrc/multihead_attn/cutlass")]))
+                    "apex/contrib/csrc/multihead_attn/self_multihead_attn_norm_add_cuda.cu",
-        ext_modules.append(
+                ],
-            CUDAExtension(name='fast_mask_softmax_dropout',
+                extra_compile_args={
-                          sources=['apex/contrib/csrc/multihead_attn/masked_softmax_dropout.cpp',
+                    'cxx': ['-O3'] + version_dependent_macros + generator_flag,
-                                   'apex/contrib/csrc/multihead_attn/masked_softmax_dropout_cuda.cu'],
+                    'nvcc': [
-                          extra_compile_args={'cxx': ['-O3',] + version_dependent_macros + generator_flag,
+                        '-O3', '-gencode', 'arch=compute_70,code=sm_70', '-U__CUDA_NO_HALF_OPERATORS__',
-                                              'nvcc':['-O3',
+                        '-U__CUDA_NO_HALF_CONVERSIONS__', '--expt-relaxed-constexpr', '--expt-extended-lambda',
-                                                      '-gencode', 'arch=compute_70,code=sm_70',
+                        '--use_fast_math'] + version_dependent_macros + generator_flag + cc_flag,
-                                                      '-U__CUDA_NO_HALF_OPERATORS__',
+                },
-                                                      '-U__CUDA_NO_HALF_CONVERSIONS__',
+                include_dirs=[os.path.join(this_dir, "apex/contrib/csrc/multihead_attn/cutlass")],
-                                                      '--expt-relaxed-constexpr',
+            )
-                                                      '--expt-extended-lambda',
+        )
-                                                      '--use_fast_math'] + version_dependent_macros + generator_flag + cc_flag},
-                          include_dirs=[os.path.join(this_dir, "apex/contrib/csrc/multihead_attn/cutlass")]))
-        ext_modules.append(
-            CUDAExtension(name='fast_self_multihead_attn_bias_additive_mask',
-                          sources=['apex/contrib/csrc/multihead_attn/self_multihead_attn_bias_additive_mask.cpp',
-                                   'apex/contrib/csrc/multihead_attn/self_multihead_attn_bias_additive_mask_cuda.cu'],
-                          extra_compile_args={'cxx': ['-O3',] + version_dependent_macros + generator_flag,
-                                              'nvcc':['-O3',
-                                                      '-gencode', 'arch=compute_70,code=sm_70',
-                                                      '-U__CUDA_NO_HALF_OPERATORS__',
-                                                      '-U__CUDA_NO_HALF_CONVERSIONS__',
-                                                      '--expt-relaxed-constexpr',
-                                                      '--expt-extended-lambda',
-                                                      '--use_fast_math'] + version_dependent_macros + generator_flag + cc_flag},
-                          include_dirs=[os.path.join(this_dir, "apex/contrib/csrc/multihead_attn/cutlass")]))
-        ext_modules.append(
-            CUDAExtension(name='fast_self_multihead_attn_bias',
-                          sources=['apex/contrib/csrc/multihead_attn/self_multihead_attn_bias.cpp',
-                                   'apex/contrib/csrc/multihead_attn/self_multihead_attn_bias_cuda.cu'],
-                          extra_compile_args={'cxx': ['-O3',] + version_dependent_macros + generator_flag,
-                                              'nvcc':['-O3',
-                                                      '-gencode', 'arch=compute_70,code=sm_70',
-                                                      '-U__CUDA_NO_HALF_OPERATORS__',
-                                                      '-U__CUDA_NO_HALF_CONVERSIONS__',
-                                                      '--expt-relaxed-constexpr',
-                                                      '--expt-extended-lambda',
-                                                      '--use_fast_math'] + version_dependent_macros + generator_flag + cc_flag},
-                          include_dirs=[os.path.join(this_dir, "apex/contrib/csrc/multihead_attn/cutlass")]))
-        ext_modules.append(
-            CUDAExtension(name='fast_self_multihead_attn',
-                          sources=['apex/contrib/csrc/multihead_attn/self_multihead_attn.cpp',
-                                   'apex/contrib/csrc/multihead_attn/self_multihead_attn_cuda.cu'],
-                          extra_compile_args={'cxx': ['-O3',] + version_dependent_macros + generator_flag,
-                                              'nvcc':['-O3',
-                                                      '-gencode', 'arch=compute_70,code=sm_70',
-                                                      '-U__CUDA_NO_HALF_OPERATORS__',
-                                                      '-U__CUDA_NO_HALF_CONVERSIONS__',
-                                                      '--expt-relaxed-constexpr',
-                                                      '--expt-extended-lambda',
-                                                      '--use_fast_math'] + version_dependent_macros + generator_flag + cc_flag},
-                          include_dirs=[os.path.join(this_dir, "apex/contrib/csrc/multihead_attn/cutlass")]))
-        ext_modules.append(
-            CUDAExtension(name='fast_self_multihead_attn_norm_add',
-                          sources=['apex/contrib/csrc/multihead_attn/self_multihead_attn_norm_add.cpp',
-                                   'apex/contrib/csrc/multihead_attn/self_multihead_attn_norm_add_cuda.cu'],
-                          extra_compile_args={'cxx': ['-O3',] + version_dependent_macros + generator_flag,
-                                              'nvcc':['-O3',
-                                                      '-gencode', 'arch=compute_70,code=sm_70',
-                                                      '-U__CUDA_NO_HALF_OPERATORS__',
-                                                      '-U__CUDA_NO_HALF_CONVERSIONS__',
-                                                      '--expt-relaxed-constexpr',
-                                                      '--expt-extended-lambda',
-                                                      '--use_fast_math'] + version_dependent_macros + generator_flag + cc_flag},
-                          include_dirs=[os.path.join(this_dir, "apex/contrib/csrc/multihead_attn/cutlass")]))
-        ext_modules.append(
-            CUDAExtension(name='fast_encdec_multihead_attn',
-                          sources=['apex/contrib/csrc/multihead_attn/encdec_multihead_attn.cpp',
-                                   'apex/contrib/csrc/multihead_attn/encdec_multihead_attn_cuda.cu'],
-                          extra_compile_args={'cxx': ['-O3',] + version_dependent_macros + generator_flag,
-                                              'nvcc':['-O3',
-                                                      '-gencode', 'arch=compute_70,code=sm_70',
-                                                      '-U__CUDA_NO_HALF_OPERATORS__',
-                                                      '-U__CUDA_NO_HALF_CONVERSIONS__',
-                                                      '--expt-relaxed-constexpr',
-                                                      '--expt-extended-lambda',
-                                                      '--use_fast_math'] + version_dependent_macros + generator_flag + cc_flag},
-                          include_dirs=[os.path.join(this_dir, "apex/contrib/csrc/multihead_attn/cutlass")]))
-        ext_modules.append(
-            CUDAExtension(name='fast_encdec_multihead_attn_norm_add',
-                          sources=['apex/contrib/csrc/multihead_attn/encdec_multihead_attn_norm_add.cpp',
-                                   'apex/contrib/csrc/multihead_attn/encdec_multihead_attn_norm_add_cuda.cu'],
-                          extra_compile_args={'cxx': ['-O3',] + version_dependent_macros + generator_flag,
-                                              'nvcc':['-O3',
-                                                      '-gencode', 'arch=compute_70,code=sm_70',
-                                                      '-U__CUDA_NO_HALF_OPERATORS__',
-                                                      '-U__CUDA_NO_HALF_CONVERSIONS__',
-                                                      '--expt-relaxed-constexpr',
-                                                      '--expt-extended-lambda',
-                                                      '--use_fast_math'] + version_dependent_macros + generator_flag + cc_flag},
-                          include_dirs=[os.path.join(this_dir, "apex/contrib/csrc/multihead_attn/cutlass")]))
 if "--transducer" in sys.argv:
    sys.argv.remove("--transducer")