bias parameters update to other example

514cee8a · letaoqin · d84b00c7 · 514cee8a · 514cee8a · 514cee8a
Commit 514cee8a authored Aug 10, 2023 by letaoqin
4 changed files
--- a/example/32_batched_gemm_scale_softmax_gemm/batched_multihead_attention_forward_v2.cpp
+++ b/example/32_batched_gemm_scale_softmax_gemm/batched_multihead_attention_forward_v2.cpp
@@ -135,6 +135,7 @@ using DeviceGemmInstance =
        8,
        8,
        true,
+        4,
        S<16, 16, 1>, // B1BlockTransfer
        S<0, 2, 1>,
        S<0, 2, 1>,
@@ -146,7 +147,8 @@ using DeviceGemmInstance =
        1,              // CShuffleNXdlPerWavePerShuffle
        S<1, 64, 1, 4>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
        8,              // CShuffleBlockTransferScalarPerVector_NPerBlock
-        MaskingSpec,    // MaskingSpecialization
+        4,
+        MaskingSpec, // MaskingSpecialization
        Deterministic>;
 #elif(DIM <= 64)
 using DeviceGemmInstance =
@@ -206,6 +208,7 @@ using DeviceGemmInstance =
        8,
        8,
        true,
+        4,
        S<16, 16, 1>, // B1BlockTransfer
        S<0, 2, 1>,
        S<0, 2, 1>,
@@ -217,7 +220,8 @@ using DeviceGemmInstance =
        2,              // CShuffleNXdlPerWavePerShuffle
        S<1, 32, 1, 8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
        8,              // CShuffleBlockTransferScalarPerVector_NPerBlock
-        MaskingSpec,    // MaskingSpecialization
+        4,
+        MaskingSpec, // MaskingSpecialization
        Deterministic>;
 #elif(DIM <= 128)
 using DeviceGemmInstance =
@@ -277,6 +281,7 @@ using DeviceGemmInstance =
        8,
        8,
        true,
+        4,
        S<8, 32, 1>, // B1BlockTransfer
        S<0, 2, 1>,
        S<0, 2, 1>,
@@ -288,7 +293,8 @@ using DeviceGemmInstance =
        2,              // CShuffleNXdlPerWavePerShuffle
        S<1, 32, 1, 8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
        8,              // CShuffleBlockTransferScalarPerVector_NPerBlock
-        MaskingSpec,    // MaskingSpecialization
+        4,
+        MaskingSpec, // MaskingSpecialization
        Deterministic>;
 #endif

--- a/example/32_batched_gemm_scale_softmax_gemm/batched_multihead_attention_train_v2.cpp
+++ b/example/32_batched_gemm_scale_softmax_gemm/batched_multihead_attention_train_v2.cpp
--- a/example/32_batched_gemm_scale_softmax_gemm/grouped_multihead_attention_forward_v2.cpp
+++ b/example/32_batched_gemm_scale_softmax_gemm/grouped_multihead_attention_forward_v2.cpp
@@ -135,6 +135,7 @@ using DeviceGemmInstance =
        8,
        8,
        true,
+        1,
        S<16, 16, 1>, // B1BlockTransfer
        S<0, 2, 1>,
        S<0, 2, 1>,
@@ -146,7 +147,8 @@ using DeviceGemmInstance =
        1,              // CShuffleNXdlPerWavePerShuffle
        S<1, 64, 1, 4>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
        8,              // CShuffleBlockTransferScalarPerVector_NPerBlock
-        MaskingSpec,    // MaskingSpecialization
+        1,
+        MaskingSpec, // MaskingSpecialization
        Deterministic>;
 #elif(DIM <= 64)
 using DeviceGemmInstance =
@@ -206,6 +208,7 @@ using DeviceGemmInstance =
        8,
        8,
        true,
+        1,
        S<16, 16, 1>, // B1BlockTransfer
        S<0, 2, 1>,
        S<0, 2, 1>,
@@ -217,7 +220,8 @@ using DeviceGemmInstance =
        2,              // CShuffleNXdlPerWavePerShuffle
        S<1, 32, 1, 8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
        8,              // CShuffleBlockTransferScalarPerVector_NPerBlock
-        MaskingSpec,    // MaskingSpecialization
+        1,
+        MaskingSpec, // MaskingSpecialization
        Deterministic>;
 #elif(DIM <= 128)
 using DeviceGemmInstance =
@@ -277,6 +281,7 @@ using DeviceGemmInstance =
        8,
        8,
        true,
+        1,
        S<8, 32, 1>, // B1BlockTransfer
        S<0, 2, 1>,
        S<0, 2, 1>,
@@ -288,7 +293,8 @@ using DeviceGemmInstance =
        2,              // CShuffleNXdlPerWavePerShuffle
        S<1, 32, 1, 8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
        8,              // CShuffleBlockTransferScalarPerVector_NPerBlock
-        MaskingSpec,    // MaskingSpecialization
+        1,
+        MaskingSpec, // MaskingSpecialization
        Deterministic>;
 #endif

--- a/example/32_batched_gemm_scale_softmax_gemm/grouped_multihead_attention_train_v2.cpp
+++ b/example/32_batched_gemm_scale_softmax_gemm/grouped_multihead_attention_train_v2.cpp