save clear_tile

99436cd4 · danyao12 · b3100b6f · 99436cd4
Commit 99436cd4 authored Jul 20, 2024 by danyao12
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 8 deletions

include/ck_tile/ops/fmha/pipeline/block_fmha_bwd_dq_dk_dv_pipeline_kr_ktr_vr.hpp ...a/pipeline/block_fmha_bwd_dq_dk_dv_pipeline_kr_ktr_vr.hpp +6 -8

No files found.
--- a/include/ck_tile/ops/fmha/pipeline/block_fmha_bwd_dq_dk_dv_pipeline_kr_ktr_vr.hpp
+++ b/include/ck_tile/ops/fmha/pipeline/block_fmha_bwd_dq_dk_dv_pipeline_kr_ktr_vr.hpp
@@ -537,7 +537,6 @@ struct BlockFmhaBwdDQDKDVPipelineKRKTRVR
        {
            // STAGE 1, Q@K Gemm0
            auto st_acc = SPTBlockTileType{};
-            clear_tile(st_acc);

            q_block_tile = load_tile(q_dram_window);
            move_tile_window(q_dram_window, {kM0, 0});
@@ -551,7 +550,8 @@ struct BlockFmhaBwdDQDKDVPipelineKRKTRVR
            d_block_tile = load_tile(d_dram_window);
            move_tile_window(d_dram_window, {kM0});

-            gemm_0(st_acc, q_reg_tensor, k_reg_tensor);
+            st_acc = gemm_0(q_reg_tensor, k_reg_tensor);
+
            auto dot_reg_tensor = load_tile(dot_lds_read_window);

            HotLoopScheduler::template GemmStagedScheduler<0>();
@@ -670,9 +670,8 @@ struct BlockFmhaBwdDQDKDVPipelineKRKTRVR
            __builtin_amdgcn_sched_barrier(0);
            // STAGE 4, OGrad@V Gemm2
            auto dpt_acc = SPGradTBlockTileType{};
-            clear_tile(dpt_acc);

-            gemm_2(dpt_acc, do_reg_tensor, v_reg_tensor);
+            dpt_acc = gemm_2(do_reg_tensor, v_reg_tensor);

            block_sync_lds();

@@ -804,10 +803,9 @@ struct BlockFmhaBwdDQDKDVPipelineKRKTRVR

        // Tail
        auto st_acc = SPTBlockTileType{};
-        clear_tile(st_acc);

        // STAGE 1, Q@K Gemm0
-        gemm_0(st_acc, q_reg_tensor, k_reg_tensor);
+        st_acc = gemm_0(q_reg_tensor, k_reg_tensor);

        // STAGE 2, Scale, Add bias, Mask, Softmax, Dropout
        if constexpr(BiasEnum == BlockAttentionBiasEnum::ELEMENTWISE_BIAS)
@@ -919,10 +917,10 @@ struct BlockFmhaBwdDQDKDVPipelineKRKTRVR

        // STAGE 4, OGrad@V Gemm2
        auto dpt_acc = SPGradTBlockTileType{};
-        clear_tile(dpt_acc);

        auto qt_reg_tensor = load_tile(qt_lds_read_window);
-        gemm_2(dpt_acc, do_reg_tensor, v_reg_tensor);
+
+        dpt_acc = gemm_2(do_reg_tensor, v_reg_tensor);

        HotLoopScheduler::template GemmStagedScheduler<2>();