tweak bwd-data-v4r1

b50fa980 · Chao Liu · 92661018 · b50fa980 · b50fa980 · b50fa980
Commit b50fa980 authored Nov 07, 2020 by Chao Liu
4 changed files
--- a/composable_kernel/include/kernel_algorithm/dynamic_gridwise_copy_gemmkgemmn.hpp
+++ b/composable_kernel/include/kernel_algorithm/dynamic_gridwise_copy_gemmkgemmn.hpp
@@ -62,26 +62,26 @@ struct DynamicGridwiseCopy_gemmkgemmn
                                                   1,
                                                   1>(
 #else
-            BlockwiseDynamicTensorSliceTransfer_v2<BlockSize,
-                                                   float,
-                                                   float,
-                                                   decltype(src_gemmk_gemmn_global_desc),
-                                                   decltype(dst_gemmk_gemmn_global_desc),
-                                                   Sequence<GemmKPerBlock, GemmNPerBlock>,
-                                                   BlockCopySubLengths_GemmK_GemmN,
-                                                   BlockCopyClusterLengths_GemmK_GemmN,
-                                                   BlockCopyThreadClusterArrangeOrder,
-                                                   BlockCopySrcAccessOrder,
-                                                   BlockCopyDstAccessOrder,
-                                                   1,
-                                                   1,
-                                                   BlockCopyDataPerAccess_GemmN,
-                                                   BlockCopyDataPerAccess_GemmN,
-                                                   AddressSpace::Global,
-                                                   AddressSpace::Global,
-                                                   InMemoryDataOperation::Set,
-                                                   1,
-                                                   1>(
+                 BlockwiseDynamicTensorSliceTransfer_v2<BlockSize,
+                                                        float,
+                                                        float,
+                                                        decltype(src_gemmk_gemmn_global_desc),
+                                                        decltype(dst_gemmk_gemmn_global_desc),
+                                                        Sequence<GemmKPerBlock, GemmNPerBlock>,
+                                                        BlockCopySubLengths_GemmK_GemmN,
+                                                        BlockCopyClusterLengths_GemmK_GemmN,
+                                                        BlockCopyThreadClusterArrangeOrder,
+                                                        BlockCopySrcAccessOrder,
+                                                        BlockCopyDstAccessOrder,
+                                                        1,
+                                                        1,
+                                                        BlockCopyDataPerAccess_GemmN,
+                                                        BlockCopyDataPerAccess_GemmN,
+                                                        AddressSpace::Global,
+                                                        AddressSpace::Global,
+                                                        InMemoryDataOperation::Set,
+                                                        1,
+                                                        1>(
 #endif
                src_gemmk_gemmn_global_desc,
                make_multi_index(0, gemmn_block_data_on_global),

--- a/driver/include/device_convolution_backward_data_implicit_gemm_v4r1_nchw_kcyx_nkhw.hpp
+++ b/driver/include/device_convolution_backward_data_implicit_gemm_v4r1_nchw_kcyx_nkhw.hpp
@@ -57,10 +57,41 @@ void device_convolution_backward_data_implicit_gemm_v4r1_nchw_kcyx_nkhw(InDesc i
    wei_kcyx_device_buf.ToDevice(wei_kcyx.mData.data());
    out_nkhw_device_buf.ToDevice(out_nkhw.mData.data());

-#if 0
+#if 1
    // cdata = 64, BlockSize = 256, 128x128x8
    constexpr index_t BlockSize = 256;

+    constexpr index_t GemmMPerBlock              = 128;
+    constexpr index_t GemmNPerBlock              = 128;
+    constexpr index_t GemmKPerBlock              = 8;
+    constexpr index_t GemmMPerThread             = 4;
+    constexpr index_t GemmNPerThread             = 4;
+    constexpr index_t GemmKPerThread             = 1;
+    constexpr index_t GemmMLevel0Cluster         = 2;
+    constexpr index_t GemmNLevel0Cluster         = 2;
+    constexpr index_t GemmMLevel1Cluster         = 8;
+    constexpr index_t GemmNLevel1Cluster         = 8;
+    constexpr index_t GemmThreadGemmDataPerReadM = 4;
+    constexpr index_t GemmThreadGemmDataPerReadN = 4;
+
+    using GemmABlockCopyThreadSliceLengths_GemmK_GemmM   = Sequence<1, 4>;
+    using GemmABlockCopyThreadClusterLengths_GemmK_GemmM = Sequence<8, 32>;
+
+    constexpr index_t GemmABlockCopySrcDataPerRead_GemmM  = 1;
+    constexpr index_t GemmABlockCopyDstDataPerWrite_GemmM = 4;
+
+    using GemmBBlockCopyThreadSliceLengths_GemmK_GemmN   = Sequence<4, 1>;
+    using GemmBBlockCopyThreadClusterLengths_GemmK_GemmN = Sequence<2, 128>;
+
+    constexpr index_t GemmBBlockCopySrcDataPerRead_GemmN  = 1;
+    constexpr index_t GemmBBlockCopyDstDataPerWrite_GemmN = 1;
+
+    constexpr index_t GemmCThreadCopyDstDataPerWrite_GemmN1 = 1;
+#elif 1
+    // cdata = 64, BlockSize = 256, 128x128x8
+    // GemmABlockCopySrcDataPerRead_GemmM  = 4
+    constexpr index_t BlockSize = 256;
+
    constexpr index_t GemmMPerBlock              = 128;
    constexpr index_t GemmNPerBlock              = 128;
    constexpr index_t GemmKPerBlock              = 8;
@@ -74,11 +105,11 @@ void device_convolution_backward_data_implicit_gemm_v4r1_nchw_kcyx_nkhw(InDesc i
    constexpr index_t GemmThreadGemmDataPerReadM = 4;
    constexpr index_t GemmThreadGemmDataPerReadN = 4;

-    using GemmABlockCopyThreadSliceLengths_GemmK_GemmM   = Sequence<4, 1>;
-    using GemmABlockCopyThreadClusterLengths_GemmK_GemmM = Sequence<2, 128>;
+    using GemmABlockCopyThreadSliceLengths_GemmK_GemmM   = Sequence<1, 4>;
+    using GemmABlockCopyThreadClusterLengths_GemmK_GemmM = Sequence<8, 32>;

-    constexpr index_t GemmABlockCopySrcDataPerRead_GemmM  = 1;
-    constexpr index_t GemmABlockCopyDstDataPerWrite_GemmM = 1;
+    constexpr index_t GemmABlockCopySrcDataPerRead_GemmM  = 4;
+    constexpr index_t GemmABlockCopyDstDataPerWrite_GemmM = 4;

    using GemmBBlockCopyThreadSliceLengths_GemmK_GemmN   = Sequence<4, 1>;
    using GemmBBlockCopyThreadClusterLengths_GemmK_GemmN = Sequence<2, 128>;
@@ -104,11 +135,11 @@ void device_convolution_backward_data_implicit_gemm_v4r1_nchw_kcyx_nkhw(InDesc i
    constexpr index_t GemmThreadGemmDataPerReadM = 4;
    constexpr index_t GemmThreadGemmDataPerReadN = 4;

-    using GemmABlockCopyThreadSliceLengths_GemmK_GemmM   = Sequence<8, 1>;
-    using GemmABlockCopyThreadClusterLengths_GemmK_GemmM = Sequence<2, 128>;
+    using GemmABlockCopyThreadSliceLengths_GemmK_GemmM   = Sequence<1, 8>;
+    using GemmABlockCopyThreadClusterLengths_GemmK_GemmM = Sequence<16, 16>;

    constexpr index_t GemmABlockCopySrcDataPerRead_GemmM  = 1;
-    constexpr index_t GemmABlockCopyDstDataPerWrite_GemmM = 1;
+    constexpr index_t GemmABlockCopyDstDataPerWrite_GemmM = 4;

    using GemmBBlockCopyThreadSliceLengths_GemmK_GemmN   = Sequence<8, 1>;
    using GemmBBlockCopyThreadClusterLengths_GemmK_GemmN = Sequence<2, 128>;

--- a/driver/src/conv_bwd_data_driver.cpp
+++ b/driver/src/conv_bwd_data_driver.cpp
@@ -48,7 +48,7 @@ int main(int argc, char* argv[])

    using LeftPads  = Sequence<0, 0>;
    using RightPads = Sequence<0, 0>;
-#elif 1
+#elif 0
    // 3x3, 28x28
    constexpr index_t N  = 128;
    constexpr index_t C  = 128;
@@ -153,13 +153,13 @@ int main(int argc, char* argv[])

    using LeftPads  = Sequence<2, 2>;
    using RightPads = Sequence<2, 2>;
-#elif 0
+#elif 1
    // 1x7 filter, 0x3 pad, 17x17 input
    constexpr index_t N  = 128;
-    constexpr index_t C  = 256;
+    constexpr index_t C  = 128;
    constexpr index_t HI = 17;
    constexpr index_t WI = 17;
-    constexpr index_t K  = 1024;
+    constexpr index_t K  = 128;
    constexpr index_t Y  = 1;
    constexpr index_t X  = 7;

@@ -241,7 +241,7 @@ int main(int argc, char* argv[])
 #endif
    }

-#if 1
+#if 0
    device_convolution_backward_data_implicit_gemm_v1r1_nchw_kcyx_nkhw
 #elif 0
    device_convolution_backward_data_implicit_gemm_v1r2_nchw_kcyx_nkhw
@@ -250,17 +250,17 @@ int main(int argc, char* argv[])
 #elif 1
    device_convolution_backward_data_implicit_gemm_v5r1_nhwc_kyxc_nhwk
 #endif
-        (in_nchw_desc,
-         in_nchw_device,
-         wei_kcyx_desc,
-         wei_kcyx,
-         out_nkhw_desc,
-         out_nkhw,
-         ConvStrides{},
-         ConvDilations{},
-         LeftPads{},
-         RightPads{},
-         nrepeat);
+    (in_nchw_desc,
+     in_nchw_device,
+     wei_kcyx_desc,
+     wei_kcyx,
+     out_nkhw_desc,
+     out_nkhw,
+     ConvStrides{},
+     ConvDilations{},
+     LeftPads{},
+     RightPads{},
+     nrepeat);

    if(do_verification)
    {

--- a/driver/src/conv_driver.cpp
+++ b/driver/src/conv_driver.cpp
@@ -111,7 +111,7 @@ int main(int argc, char* argv[])

    using LeftPads  = Sequence<3, 0>;
    using RightPads = Sequence<3, 0>;
-#elif 0
+#elif 1
    // 1x7, 17x17
    constexpr index_t N  = 128;
    constexpr index_t C  = 128;
@@ -561,7 +561,7 @@ int main(int argc, char* argv[])
                                                         LeftPads{},
                                                         RightPads{},
                                                         nrepeat);
-#elif 0
+#elif 1
    device_convolution_implicit_gemm_v4r4_nchw_kcyx_nkhw(in_nchw_desc,
                                                         in_nchw,
                                                         wei_kcyx_desc,