1. enable bias feature that add bias before adding residual; 2. change block...

1. enable bias feature that add bias before adding residual; 2. change block size from 128->64 when m<64 in fp16

1. enable bias feature that add bias before adding residual; 2. change block...
1. enable bias feature that add bias before adding residual; 2. change block size from 128->64 when m<64 in fp16
7ea01f4d · AMD-dteng · 357a0b1c · 7ea01f4d · 7ea01f4d · 7ea01f4d
Commit 7ea01f4d authored Dec 11, 2024 by AMD-dteng
10 changed files
--- a/example/ck_tile/01_fmha/codegen/ops/fmha_fwd.py
+++ b/example/ck_tile/01_fmha/codegen/ops/fmha_fwd.py
@@ -410,7 +410,8 @@ def get_fmha_fwd_tile_dict_from_dtype(dtype : str) -> Optional[dict]:
    if dtype == 'fp16' or dtype == 'bf16':
        return {
            '32'  : FmhaFwdTileSize(128, 64, 16, 32, 32, 32,     2, 1, 1,  2, 1, 1,  32, 32, 16, -1),
-            '64'  : FmhaFwdTileSize(128, 64, 32, 64, 32, 64,     4, 1, 1,  4, 1, 1,  32, 32, 16, -1),
+            '64'  : FmhaFwdTileSize(64, 64, 32, 64, 32, 64,     4, 1, 1,  4, 1, 1,  16, 16, 16, -1),
+            #'64'  : FmhaFwdTileSize(128, 64, 32, 64, 32, 64,     4, 1, 1,  4, 1, 1,  32, 32, 16, -1),
            ## '96'  : FmhaFwdTileSize(128, 128, 32, 128, 32, 96,   4, 1, 1,  4, 1, 1,  32, 32, 16, -1),
            '128' : FmhaFwdTileSize(128, 128, 32, 128, 32, 128,  4, 1, 1,  4, 1, 1,  32, 32, 16, -1),
            '256' : FmhaFwdTileSize(128, 128, 32, 256, 32, 256,  4, 1, 1,  4, 1, 1,  32, 32, 16, -1),

--- a/example/ck_tile/02_layernorm2d/generate.py
+++ b/example/ck_tile/02_layernorm2d/generate.py
--- a/example/ck_tile/02_layernorm2d/layernorm2d_fwd.cpp
+++ b/example/ck_tile/02_layernorm2d/layernorm2d_fwd.cpp
@@ -41,6 +41,7 @@ auto create_args(int argc, char* argv[])
        .insert("prec_sy",
                "auto",
                "output quant scale type, set auto will use fp32. used when fquant=1 or 2")
+        .insert("bias", "0", "add bias, 0:no add, 1:add bias before fadd")
        .insert("fadd", "0", "fused-add, 0:no fused add, 1:preadd+store, 2:preadd only")
        .insert("fquant", "0", "fused-quant, 0:no, 1:smooth-dynamic-quant, 2:dynamic-quant")
        .insert("warmup", "5", "cold iter")
@@ -93,6 +94,7 @@ bool run(const ck_tile::ArgParser& arg_parser)
    int do_validation = arg_parser.get_int("v");
    int warmup        = arg_parser.get_int("warmup");
    int repeat        = arg_parser.get_int("repeat");
+    int bias          = arg_parser.get_int("bias");
    int fused_add     = arg_parser.get_int("fadd");
    int fused_quant   = arg_parser.get_int("fquant");
    if(fused_quant == 1 && prec_o != "int8")
@@ -107,6 +109,7 @@ bool run(const ck_tile::ArgParser& arg_parser)
    using XDataType         = typename TypeConfig::XDataType;
    using YDataType         = typename TypeConfig::YDataType;
+    using BiasDataType      = typename TypeConfig::BiasDataType;
    using GammaDataType     = typename TypeConfig::GammaDataType;
    using BetaDataType      = typename TypeConfig::BetaDataType;
    using XResidualDataType = XDataType;
@@ -121,6 +124,7 @@ bool run(const ck_tile::ArgParser& arg_parser)
    // host verify
    ck_tile::HostTensor<XDataType> x_host({m, n}, {x_stride, 1});
+    ck_tile::HostTensor<BiasDataType> bias_host({n});
    ck_tile::HostTensor<GammaDataType> gamma_host({n});
    ck_tile::HostTensor<BetaDataType> beta_host({n});
@@ -141,10 +145,12 @@ bool run(const ck_tile::ArgParser& arg_parser)
    ck_tile::FillUniformDistribution<XDataType>{-.5f, .5f}(x_host);
    ck_tile::FillUniformDistribution<XResidualDataType>{-.5f, .5f}(x_residual_host);
    ck_tile::FillUniformDistribution<XScaleDataType>{-1.f, 1.f}(x_scale_host);
+    ck_tile::FillUniformDistribution<BiasDataType>{-.5f, .5f}(bias_host);
    ck_tile::FillUniformDistribution<GammaDataType>{-.5f, .5f}(gamma_host);
    ck_tile::FillUniformDistribution<BetaDataType>{-.5f, .5f}(beta_host);
    ck_tile::DeviceMem x_buf(x_host.get_element_space_size_in_bytes());
+    ck_tile::DeviceMem bias_buf(bias_host.get_element_space_size_in_bytes());
    ck_tile::DeviceMem gamma_buf(gamma_host.get_element_space_size_in_bytes());
    ck_tile::DeviceMem beta_buf(beta_host.get_element_space_size_in_bytes());
    ck_tile::DeviceMem y_buf(y_host_dev.get_element_space_size_in_bytes());
@@ -155,6 +161,7 @@ bool run(const ck_tile::ArgParser& arg_parser)
    ck_tile::DeviceMem y_residual_buf(y_residual_host.get_element_space_size_in_bytes());
    x_buf.ToDevice(x_host.data());
+    bias_buf.ToDevice(bias_host.data());
    gamma_buf.ToDevice(gamma_host.data());
    beta_buf.ToDevice(beta_host.data());
    x_residual_buf.ToDevice(x_residual_host.data());
@@ -179,11 +186,12 @@ bool run(const ck_tile::ArgParser& arg_parser)
              << ", yr_stride:" << yr_stride << std::flush;
    layernorm2d_fwd_traits traits{
-        prec_i, prec_o, prec_sx, prec_sy, SaveMeanVar, fused_add, fused_quant};
+        prec_i, prec_o, prec_sx, prec_sy, SaveMeanVar, bias, fused_add, fused_quant};
    layernorm2d_fwd_args args{x_buf.GetDeviceBuffer(),
                              fused_add != 0 ? x_residual_buf.GetDeviceBuffer() : nullptr,
                              fused_quant == 1 ? x_scale_buf.GetDeviceBuffer() : nullptr,
+                              bias_buf.GetDeviceBuffer(),
                              gamma_buf.GetDeviceBuffer(),
                              beta_buf.GetDeviceBuffer(),
@@ -210,7 +218,7 @@ bool run(const ck_tile::ArgParser& arg_parser)
        return false;
    }
-    std::size_t num_byte = sizeof(XDataType) * m * n + sizeof(GammaDataType) * n +
+    std::size_t num_byte = sizeof(XDataType) * m * n + sizeof(BiasDataType) * n + sizeof(GammaDataType) * n +
                           sizeof(BetaDataType) * n + sizeof(YDataType) * m * n;
    float gb_per_sec = num_byte / 1.E6 / ave_time;
@@ -223,6 +231,19 @@ bool run(const ck_tile::ArgParser& arg_parser)
        // reference
        if(fused_add != 0)
        {
+            if(bias != 0)
+            {
+                // add bias before fadd
+                int M = x_host.mDesc.get_lengths()[0];
+                int N = x_host.mDesc.get_lengths()[1];
+                for(int idx_m = 0; idx_m < M; ++idx_m)
+                {
+                    for(int idx_n = 0; idx_n < N; ++idx_n)
+                    {
+                        x_host(idx_m, idx_n) = ck_tile::type_convert<XDataType>(ck_tile::type_convert<ComputeDataType>(x_host(idx_m, idx_n)) + ck_tile::type_convert<ComputeDataType>(bias_host(idx_n)));
+                    }
+                }
+            }
            // fused pre_add/pre_add_store
            // TODO we accumulate directly to x_host for simplcity here...

--- a/example/ck_tile/02_layernorm2d/layernorm2d_fwd.hpp
+++ b/example/ck_tile/02_layernorm2d/layernorm2d_fwd.hpp
@@ -16,6 +16,7 @@ struct LayerNormTypeConfig<ck_tile::half_t, OutType, XScaleDataType_, YScaleData
 {
    using XDataType       = ck_tile::half_t;
    using YDataType       = OutType;
+    using BiasDataType    = ck_tile::half_t;
    using GammaDataType   = ck_tile::half_t;
    using BetaDataType    = ck_tile::half_t;
    using MeanDataType    = ck_tile::half_t;
@@ -30,6 +31,7 @@ struct LayerNormTypeConfig<ck_tile::bf16_t, OutType, XScaleDataType_, YScaleData
 {
    using XDataType       = ck_tile::bf16_t;
    using YDataType       = OutType;
+    using BiasDataType    = ck_tile::bf16_t;
    using GammaDataType   = ck_tile::bf16_t;
    using BetaDataType    = ck_tile::bf16_t;
    using MeanDataType    = ck_tile::bf16_t;
@@ -57,6 +59,7 @@ struct layernorm2d_fwd_traits
    std::string prec_sy; // y-scale, used for [M*1] output for next layer
    bool save_mean_var; //
+    int bias;           // 0:no-bias, 1:add bias
    int fused_add;      // 0:no-add, 1:pre-add-store, 2:pre-add
    int fused_quant;    // 0:no-sweep, 1:smooth-dynamic-quant, 2:dynamic-quant
 };

--- a/include/ck_tile/host/reference/reference_layernorm2d_fwd.hpp
+++ b/include/ck_tile/host/reference/reference_layernorm2d_fwd.hpp
@@ -59,6 +59,11 @@ void reference_layernorm2d_fwd(const HostTensor<XDataType>& x_m_n,
        {
            ++count;
            ComputeDataType x     = ck_tile::type_convert<ComputeDataType>(x_m_n(m, n));
+            // printf("dteng_ck_print::x_pre[%lu][%d] = %f\n",m,n,x);
+            // printf("dteng_ck_print::gamma_n[0][%d] = %f\n",n,ck_tile::type_convert<ComputeDataType>(gamma_n(n)));
+            // x = x + ck_tile::type_convert<ComputeDataType>(bias_n(n));
+            // x_m_n(m, n) = ck_tile::type_convert<XDataType>(x);
+            // printf("dteng_ck_print::x_post[%lu][%d] = %f\n",m,n,x);
            ComputeDataType delta = x - mean;
            mean += delta / count;
            ComputeDataType delta2 = x - mean;
@@ -85,6 +90,10 @@ void reference_layernorm2d_fwd(const HostTensor<XDataType>& x_m_n,
            a_                    = a_ * gamma + beta;
            acc(m, n) = a_;
+            // printf("dteng_ck_print::mean[%lu][%d] = %f\n",m,n,mean);
+            // printf("dteng_ck_print::gamma[%lu][%d] = %f\n",m,n,gamma);
+            // printf("dteng_ck_print::beta[%lu][%d] = %f\n",m,n,beta);
+            // printf("dteng_ck_print::acc[%lu][%d] = %f\n",m,n,a_);
        }
        epilogue_functor(m, y_m_n, acc);

--- a/include/ck_tile/ops/layernorm2d/kernel/layernorm2d_fwd_kernel.hpp
+++ b/include/ck_tile/ops/layernorm2d/kernel/layernorm2d_fwd_kernel.hpp
@@ -15,6 +15,7 @@ struct Layernorm2dFwdHostArgs
    const void* p_x;          // [m ,n], input, fp16/bf16
    const void* p_x_residual; // [m ,n], shortcut input, prec same as input, nullptr if not used
    const void* p_x_scale;    // [1 ,n], smooth scale input, fp32, nullptr if not used
+    const void* p_bias;       // [1, n], bias, prec same as input
    const void* p_gamma;      // [1, n], gamma, prec same as input
    const void* p_beta;       // [1, n], beta, prec same as input
@@ -43,6 +44,7 @@ struct Layernorm2dFwd
    using Problem  = typename Pipeline::Problem;
    using XDataType       = remove_cvref_t<typename Problem::XDataType>;
+    using BiasDataType    = remove_cvref_t<typename Problem::BiasDataType>;
    using GammaDataType   = remove_cvref_t<typename Problem::GammaDataType>;
    using BetaDataType    = remove_cvref_t<typename Problem::BetaDataType>;
    using ComputeDataType = remove_cvref_t<typename Problem::ComputeDataType>;
@@ -67,6 +69,7 @@ struct Layernorm2dFwd
    static constexpr bool kPadM       = false; // always no need to pad along M
    static constexpr bool kPadN       = Problem::Traits::kPadN;
    static constexpr bool kTwoPass    = Problem::Traits::kTwoPass;
+    static constexpr auto kBias       = Problem::Traits::kBias;
    static constexpr auto kFusedAdd   = Problem::Traits::kFusedAdd;
    static constexpr auto kFusedQuant = Problem::Traits::kFusedQuant;
@@ -82,6 +85,7 @@ struct Layernorm2dFwd
        const void* p_x;          // [m ,n], input, fp16/bf16
        const void* p_x_residual; // [m ,n], shortcut input, prec same as input, nullptr if not used
        const void* p_x_scale;    // [1 ,n], smooth scale input, fp32, nullptr if not used
+        const void* p_bias;       // [1, n], bias, prec same as input
        const void* p_gamma;      // [1, n], gamma, prec same as input
        const void* p_beta;       // [1, n], beta, prec same as input
@@ -108,6 +112,7 @@ struct Layernorm2dFwd
        return Kargs{hargs.p_x,
                     hargs.p_x_residual,
                     hargs.p_x_scale,
+                     hargs.p_bias,
                     hargs.p_gamma,
                     hargs.p_beta,
                     hargs.p_y,
@@ -152,6 +157,7 @@ struct Layernorm2dFwd
        using S_ = typename Problem::BlockShape;
        auto surfix = [&] () {
            std::string n;
+            if (kBias != Layernorm2dBiasEnum::NO_BIAS) n += _SS_("_") + Layernorm2dBiasEnumName<kBias>::name;
            if (kFusedAdd != Layernorm2dFusedAddEnum::NO_ADD) n += _SS_("_") + Layernorm2dFusedAddEnumName<kFusedAdd>::name;
            if (kFusedQuant != Layernorm2dFusedQuantEnum::NO_SWEEP) n += _SS_("_") + Layernorm2dFusedQuantEnumName<kFusedQuant>::name;
            if (kPadN) n += "_pn";
@@ -228,6 +234,27 @@ struct Layernorm2dFwd
            }
        }();
+        const auto bias_window = [&]() {
+            if constexpr(kBias == Layernorm2dBiasEnum::ADD_BIAS)
+            {
+                const auto tmp_ = make_naive_tensor_view<address_space_enum::global>(
+                    static_cast<const BiasDataType*>(kargs.p_bias),
+                    make_tuple(kargs.n),
+                    make_tuple(1),
+                    number<Vector_N>{},
+                    number<1>{});
+                const auto tmp2_ =
+                    pad_tensor_view(tmp_, make_tuple(number<Block_N>{}), sequence<false>{});
+                return make_tile_window(tmp2_, make_tuple(number<Block_N>{}), {0});
+            }
+            else
+            {
+                return make_null_tile_window(make_tuple(number<Block_N>{}));
+            }
+        }();
        const auto gamma_window = [&]() {
            const auto tmp_ = make_naive_tensor_view<address_space_enum::global>(
                static_cast<const GammaDataType*>(kargs.p_gamma),
@@ -371,6 +398,7 @@ struct Layernorm2dFwd
        Pipeline{}(x_window,
                   x_residual_window,
+                   bias_window,
                   gamma_window,
                   beta_window,
                   y_window,

--- a/include/ck_tile/ops/layernorm2d/pipeline/layernorm2d_fwd_pipeline_one_pass.hpp
+++ b/include/ck_tile/ops/layernorm2d/pipeline/layernorm2d_fwd_pipeline_one_pass.hpp
@@ -18,6 +18,7 @@ struct Layernorm2dFwdPipelineOnePass
    using Policy  = ck_tile::remove_cvref_t<Policy_>;
    using XDataType       = ck_tile::remove_cvref_t<typename Problem::XDataType>;
+    using BiasDataType    = ck_tile::remove_cvref_t<typename Problem::BiasDataType>;
    using GammaDataType   = ck_tile::remove_cvref_t<typename Problem::GammaDataType>;
    using BetaDataType    = ck_tile::remove_cvref_t<typename Problem::BetaDataType>;
    using ComputeDataType = ck_tile::remove_cvref_t<typename Problem::ComputeDataType>;
@@ -37,6 +38,7 @@ struct Layernorm2dFwdPipelineOnePass
    static constexpr bool kPadM              = false; // TODO - BlockLayernorm2dFwdProblem::kPadM
    static constexpr bool kPadN              = Problem::Traits::kPadN;
    static constexpr bool kFastFDiv          = Problem::Traits::kFastFDiv;
+    static constexpr auto kBias              = Problem::Traits::kBias;
    static constexpr auto kFusedAdd          = Problem::Traits::kFusedAdd;
    static constexpr auto kFusedQuant        = Problem::Traits::kFusedQuant;
@@ -54,6 +56,7 @@ struct Layernorm2dFwdPipelineOnePass
    template <typename XWindow,
              typename XResidualWindow,
+              typename BiasWindow,
              typename GammaWindow,
              typename BetaWindow,
              typename YWindow,
@@ -65,6 +68,7 @@ struct Layernorm2dFwdPipelineOnePass
              typename Epilogue>
    CK_TILE_DEVICE auto operator()(const XWindow& x_window_,
                                   const XResidualWindow& x_residual_window_,
+                                   const BiasWindow& bias_window_,
                                   const GammaWindow& gamma_window_,
                                   const BetaWindow& beta_window_,
                                   YWindow& y_window_,
@@ -80,6 +84,8 @@ struct Layernorm2dFwdPipelineOnePass
    {
        const auto x_window =
            make_tile_window(x_window_, Policy::template MakeXBlockTileDistribution<Problem>());
+        const auto bias_window = make_tile_window(
+            bias_window_, Policy::template MakeGammaBetaBlockTileDistribution<Problem>());
        const auto gamma_window = make_tile_window(
            gamma_window_, Policy::template MakeGammaBetaBlockTileDistribution<Problem>());
        const auto beta_window = make_tile_window(
@@ -89,8 +95,9 @@ struct Layernorm2dFwdPipelineOnePass
        auto y_residual_window = make_tile_window(
            y_residual_window_, Policy::template MakeXBlockTileDistribution<Problem>());
-        auto x      = load_tile(x_window);
+        auto x          = load_tile(x_window);
-        auto x_resi = load_tile(x_residual_window);
+        auto x_resi     = load_tile(x_residual_window);
+        const auto bias = load_tile(bias_window);
        int cur_count = 0;
        int max_count =
@@ -110,6 +117,12 @@ struct Layernorm2dFwdPipelineOnePass
                     kFusedAdd == Layernorm2dFusedAddEnum::PRE_ADD)
        {
            sweep_tile(x_resi, [&](auto idx) {
+                if constexpr(kBias == Layernorm2dBiasEnum::ADD_BIAS)
+                {
+                    // compute x = bias + x
+                    constexpr auto j_idx = make_tuple(idx[number<1>{}]);
+                    acc(idx) = type_convert<ComputeDataType>(bias[j_idx]) + acc(idx);
+                }
                // compute x = x_resi + x
                acc(idx) = type_convert<ComputeDataType>(x_resi(idx)) + acc(idx);
            });

--- a/include/ck_tile/ops/layernorm2d/pipeline/layernorm2d_fwd_pipeline_problem.hpp
+++ b/include/ck_tile/ops/layernorm2d/pipeline/layernorm2d_fwd_pipeline_problem.hpp
@@ -8,6 +8,7 @@
 namespace ck_tile {
 template <typename XDataType_,
+          typename BiasDataType_,
          typename GammaDataType_,
          typename BetaDataType_,
          typename ComputeDataType_,
@@ -21,6 +22,7 @@ template <typename XDataType_,
 struct Layernorm2dFwdPipelineProblem
 {
    using XDataType       = remove_cvref_t<XDataType_>;
+    using BiasDataType   = remove_cvref_t<BiasDataType_>;
    using GammaDataType   = remove_cvref_t<GammaDataType_>;
    using BetaDataType    = remove_cvref_t<BetaDataType_>;
    using ComputeDataType = remove_cvref_t<ComputeDataType_>;

--- a/include/ck_tile/ops/layernorm2d/pipeline/layernorm2d_fwd_pipeline_two_pass.hpp
+++ b/include/ck_tile/ops/layernorm2d/pipeline/layernorm2d_fwd_pipeline_two_pass.hpp
@@ -17,6 +17,7 @@ struct Layernorm2dFwdPipelineTwoPass
    using Policy  = ck_tile::remove_cvref_t<Policy_>;
    using XDataType       = ck_tile::remove_cvref_t<typename Problem::XDataType>;
+    using BiasDataType    = ck_tile::remove_cvref_t<typename Problem::BiasDataType>;
    using GammaDataType   = ck_tile::remove_cvref_t<typename Problem::GammaDataType>;
    using BetaDataType    = ck_tile::remove_cvref_t<typename Problem::BetaDataType>;
    using ComputeDataType = ck_tile::remove_cvref_t<typename Problem::ComputeDataType>;
@@ -36,6 +37,7 @@ struct Layernorm2dFwdPipelineTwoPass
    static constexpr bool kPadM              = false; // TODO - BlockLayernorm2dFwdProblem::kPadM
    static constexpr bool kPadN              = Problem::Traits::kPadN;
    static constexpr bool kFastFDiv          = Problem::Traits::kFastFDiv;
+    static constexpr auto kBias              = Problem::Traits::kBias;
    static constexpr auto kFusedAdd          = Problem::Traits::kFusedAdd;
    static constexpr auto kFusedQuant        = Problem::Traits::kFusedQuant;
@@ -53,6 +55,7 @@ struct Layernorm2dFwdPipelineTwoPass
    template <typename XWindow,
              typename XResidualWindow,
+              typename BiasWindow,
              typename GammaWindow,
              typename BetaWindow,
              typename YWindow,
@@ -64,6 +67,7 @@ struct Layernorm2dFwdPipelineTwoPass
              typename Epilogue>
    CK_TILE_DEVICE auto operator()(const XWindow& x_window_,
                                   const XResidualWindow& x_residual_window_,
+                                   const BiasWindow& bias_window_,
                                   const GammaWindow& gamma_window_,
                                   const BetaWindow& beta_window_,
                                   YWindow& y_window,
@@ -79,6 +83,8 @@ struct Layernorm2dFwdPipelineTwoPass
    {
        auto x_window =
            make_tile_window(x_window_, Policy::template MakeXBlockTileDistribution<Problem>());
+        auto bias_window = make_tile_window(
+            bias_window_, Policy::template MakeGammaBetaBlockTileDistribution<Problem>());
        auto gamma_window = make_tile_window(
            gamma_window_, Policy::template MakeGammaBetaBlockTileDistribution<Problem>());
        auto beta_window = make_tile_window(
@@ -113,17 +119,25 @@ struct Layernorm2dFwdPipelineTwoPass
        for(int iN = __builtin_amdgcn_readfirstlane(0); iN < num_n_tile_iteration; ++iN)
        {
-            auto x      = load_tile(x_window);
+            auto x          = load_tile(x_window);
-            auto x_resi = load_tile(x_residual_window);
+            auto x_resi     = load_tile(x_residual_window);
+            const auto bias = load_tile(bias_window);
            move_tile_window(x_window, {0, Block_N});
            move_tile_window(x_residual_window, {0, Block_N});
+            move_tile_window(bias_window, {Block_N});
            auto acc = cast_tile<ComputeDataType>(x);
            if constexpr(kFusedAdd == Layernorm2dFusedAddEnum::PRE_ADD_STORE ||
                         kFusedAdd == Layernorm2dFusedAddEnum::PRE_ADD)
            {
                sweep_tile(x_resi, [&](auto idx) {
+                    if constexpr(kBias == Layernorm2dBiasEnum::ADD_BIAS)
+                    {
+                        // compute x = bias + x
+                        constexpr auto j_idx = make_tuple(idx[number<1>{}]);
+                        acc(idx) = type_convert<ComputeDataType>(bias[j_idx]) + acc(idx);
+                    }
                    // compute x = x_resi + x
                    acc(idx) = type_convert<ComputeDataType>(x_resi(idx)) + acc(idx);
                });
@@ -165,6 +179,7 @@ struct Layernorm2dFwdPipelineTwoPass
        move_tile_window(x_window, {0, -Block_N});
        move_tile_window(x_residual_window, {0, -Block_N});
+        move_tile_window(bias_window, {-Block_N});
        move_tile_window(gamma_window, {stride_to_right_most_window});
        move_tile_window(beta_window, {stride_to_right_most_window});
        move_tile_window(y_window, {0, stride_to_right_most_window});
@@ -172,14 +187,21 @@ struct Layernorm2dFwdPipelineTwoPass
        // layernorm computation
        for(int iN = __builtin_amdgcn_readfirstlane(0); iN < num_n_tile_iteration; ++iN)
        {
-            auto x      = load_tile(x_window);
+            auto x          = load_tile(x_window);
-            auto x_resi = load_tile(x_residual_window);
+            auto x_resi     = load_tile(x_residual_window);
+            const auto bias = load_tile(bias_window);
            auto acc    = cast_tile<ComputeDataType>(x);
            if constexpr(kFusedAdd == Layernorm2dFusedAddEnum::PRE_ADD_STORE ||
                         kFusedAdd == Layernorm2dFusedAddEnum::PRE_ADD)
            {
                sweep_tile(x_resi, [&](auto idx) {
+                    if constexpr(kBias == Layernorm2dBiasEnum::ADD_BIAS)
+                    {
+                        // compute x = bias + x
+                        constexpr auto j_idx = make_tuple(idx[number<1>{}]);
+                        acc(idx) = type_convert<ComputeDataType>(bias[j_idx]) + acc(idx);
+                    }
                    // compute x = x_resi + x
                    acc(idx) = type_convert<ComputeDataType>(x_resi(idx)) + acc(idx);
                });
@@ -207,6 +229,7 @@ struct Layernorm2dFwdPipelineTwoPass
            move_tile_window(x_window, {0, -Block_N});
            move_tile_window(x_residual_window, {0, -Block_N});
+            move_tile_window(bias_window, {-Block_N});
            move_tile_window(gamma_window, {-Block_N});
            move_tile_window(beta_window, {-Block_N});
            move_tile_window(y_window, {0, -Block_N});

--- a/include/ck_tile/ops/layernorm2d/pipeline/layernorm2d_fwd_traits.hpp
+++ b/include/ck_tile/ops/layernorm2d/pipeline/layernorm2d_fwd_traits.hpp
@@ -7,6 +7,19 @@
 namespace ck_tile {
+enum class Layernorm2dBiasEnum
+{
+    NO_BIAS = 0,
+    // add bias before fused add
+    ADD_BIAS = 1,
+};
+// clang-format off
+template<Layernorm2dBiasEnum> struct Layernorm2dBiasEnumName;
+template<> struct Layernorm2dBiasEnumName<Layernorm2dBiasEnum::NO_BIAS> { static constexpr const char * name = "no"; };
+template<> struct Layernorm2dBiasEnumName<Layernorm2dBiasEnum::ADD_BIAS> { static constexpr const char * name = "bias"; };
+// clang-format on
 enum class Layernorm2dFusedAddEnum
 {
    NO_ADD = 0,
@@ -41,6 +54,7 @@ template <bool kPadN_,
          bool kSaveMeanInvStd_,
          bool kFastFDiv_,
          bool kTwoPass_,
+          Layernorm2dBiasEnum kBias_,
          Layernorm2dFusedAddEnum kFusedAdd_,
          Layernorm2dFusedQuantEnum kFusedQuant_>
 struct Layernorm2dFwdTraits
@@ -49,6 +63,7 @@ struct Layernorm2dFwdTraits
    static constexpr bool kSaveMeanInvStd                  = kSaveMeanInvStd_;
    static constexpr bool kFastFDiv                        = kFastFDiv_;
    static constexpr bool kTwoPass                         = kTwoPass_;
+    static constexpr Layernorm2dBiasEnum kBias             = kBias_;
    static constexpr Layernorm2dFusedAddEnum kFusedAdd     = kFusedAdd_;
    static constexpr Layernorm2dFusedQuantEnum kFusedQuant = kFusedQuant_;
 };