changed fwd instance parameters

da80a2e3 · guangzlu · 88980945 · da80a2e3 · da80a2e3 · da80a2e3
Commit da80a2e3 authored Mar 06, 2023 by guangzlu
4 changed files
--- a/example/32_batched_gemm_scale_softmax_gemm/batched_multihead_attention_forward.cpp
+++ b/example/32_batched_gemm_scale_softmax_gemm/batched_multihead_attention_forward.cpp
@@ -105,9 +105,9 @@ using DeviceGemmInstance =
        256,
        128,         // MPerBlock
        128,         // NPerBlock
-        64,          // KPerBlock
+        32,          // KPerBlock
        64,          // Gemm1NPerBlock
-        64,          // Gemm1KPerBlock
+        32,          // Gemm1KPerBlock
        8,           // AK1
        8,           // BK1
        2,           // B1K1
@@ -130,11 +130,11 @@ using DeviceGemmInstance =
        8,
        8,
        true,
-        S<8, 32, 1>, // B1BlockTransfer
+        S<16, 16, 1>, // B1BlockTransfer
        S<0, 2, 1>,
        S<0, 2, 1>,
        1,
-        2,
+        4,
        2,
        false,
        1,              // CShuffleMXdlPerWavePerShuffle

--- a/example/32_batched_gemm_scale_softmax_gemm/batched_multihead_attention_forward_bf16.cpp
+++ b/example/32_batched_gemm_scale_softmax_gemm/batched_multihead_attention_forward_bf16.cpp
@@ -101,9 +101,9 @@ using DeviceGemmInstance =
        256,
        128,         // MPerBlock
        128,         // NPerBlock
-        64,          // KPerBlock
+        32,          // KPerBlock
        64,          // Gemm1NPerBlock
-        64,          // Gemm1KPerBlock
+        32,          // Gemm1KPerBlock
        8,           // AK1
        8,           // BK1
        2,           // B1K1
@@ -130,7 +130,7 @@ using DeviceGemmInstance =
        S<0, 2, 1>,
        S<0, 2, 1>,
        1,
-        2,
+        4,
        2,
        false,
        1,              // CShuffleMXdlPerWavePerShuffle

--- a/example/32_batched_gemm_scale_softmax_gemm/grouped_multihead_attention_forward.cpp
+++ b/example/32_batched_gemm_scale_softmax_gemm/grouped_multihead_attention_forward.cpp
@@ -105,9 +105,9 @@ using DeviceGemmInstance =
        256,
        128,         // MPerBlock
        128,         // NPerBlock
-        64,          // KPerBlock
+        32,          // KPerBlock
        64,          // Gemm1NPerBlock
-        64,          // Gemm1KPerBlock
+        32,          // Gemm1KPerBlock
        8,           // AK1
        8,           // BK1
        2,           // B1K1
@@ -130,11 +130,11 @@ using DeviceGemmInstance =
        8,
        8,
        true,
-        S<8, 32, 1>, // B1BlockTransfer
+        S<16, 16, 1>, // B1BlockTransfer
        S<0, 2, 1>,
        S<0, 2, 1>,
        1,
-        2,
+        4,
        2,
        false,
        1,              // CShuffleMXdlPerWavePerShuffle

--- a/example/32_batched_gemm_scale_softmax_gemm/grouped_multihead_attention_forward_bf16.cpp
+++ b/example/32_batched_gemm_scale_softmax_gemm/grouped_multihead_attention_forward_bf16.cpp
@@ -101,9 +101,9 @@ using DeviceGemmInstance =
        256,
        128,         // MPerBlock
        128,         // NPerBlock
-        64,          // KPerBlock
+        32,          // KPerBlock
        64,          // Gemm1NPerBlock
-        64,          // Gemm1KPerBlock
+        32,          // Gemm1KPerBlock
        8,           // AK1
        8,           // BK1
        2,           // B1K1
@@ -130,7 +130,7 @@ using DeviceGemmInstance =
        S<0, 2, 1>,
        S<0, 2, 1>,
        1,
-        2,
+        4,
        2,
        false,
        1,              // CShuffleMXdlPerWavePerShuffle