clean code

5623fcc4 · root · 4f827c76 · 5623fcc4 · 5623fcc4
Commit 5623fcc4 authored Mar 05, 2021 by root
Showing with 4 additions and 237 deletions

driver/include/device_dynamic_convolution_forward_implicit_gemm_v4r4_chwn_cyxk_khwn.hpp ...convolution_forward_implicit_gemm_v4r4_chwn_cyxk_khwn.hpp +3 -236

driver/src/conv_driver.cpp driver/src/conv_driver.cpp +1 -1

No files found.
--- a/driver/include/device_dynamic_convolution_forward_implicit_gemm_v4r4_chwn_cyxk_khwn.hpp
+++ b/driver/include/device_dynamic_convolution_forward_implicit_gemm_v4r4_chwn_cyxk_khwn.hpp
@@ -109,7 +109,6 @@ void device_dynamic_convolution_forward_implicit_gemm_v4r4_chwn_cyxk_khwn(InDesc
    wei_cyxk_device_buf.ToDevice(wei_cyxk.mData.data());
    out_khwn_device_buf.ToDevice(out_khwn.mData.data());
-#if 1
    // cdata = 16, BlockSize = 64, 16x64x4
    constexpr index_t BlockSize = 64;
@@ -123,8 +122,8 @@ void device_dynamic_convolution_forward_implicit_gemm_v4r4_chwn_cyxk_khwn(InDesc
    constexpr index_t GemmMLevel0Cluster = 2;
    constexpr index_t GemmNLevel0Cluster = 2;
-    constexpr index_t GemmMLevel1Cluster = 2;
+    constexpr index_t GemmMLevel1Cluster = (GemmMPerBlock) / (GemmMPerThread * GemmMLevel0Cluster * 2);
-    constexpr index_t GemmNLevel1Cluster = 8;
+    constexpr index_t GemmNLevel1Cluster = (GemmNPerBlock) / (GemmNPerThread * GemmNLevel0Cluster * 2);
    constexpr index_t ThreadGemmDataPerReadM = 2;
    constexpr index_t ThreadGemmDataPerReadN = 2;
@@ -138,245 +137,13 @@ void device_dynamic_convolution_forward_implicit_gemm_v4r4_chwn_cyxk_khwn(InDesc
    using GemmBBlockTransferThreadSliceLengths_GemmK_GemmN   = Sequence<1, 4>;
    using GemmBBlockTransferThreadClusterLengths_GemmK_GemmN = Sequence<4, 16>;
-    constexpr index_t GemmBBlockTransferSrcScalarPerVector_GemmN = 1;
-    constexpr index_t GemmBBlockTransferDstScalarPerVector_GemmN = 1;
-    constexpr index_t GemmCThreadTransferDstScalarPerVector_GemmM1 = 1;
-#elif 1
-    // cdata = 32, BlockSize = 64, 16x128x4
-    constexpr index_t BlockSize = 64;
-    constexpr index_t GemmMPerBlock = 16;
-    constexpr index_t GemmNPerBlock = 128;
-    constexpr index_t GemmKPerBlock = 4;
-    constexpr index_t GemmMPerThread = 2;
-    constexpr index_t GemmNPerThread = 4;
-    constexpr index_t GemmKPerThread = 1;
-    constexpr index_t GemmMLevel0Cluster = 2;
-    constexpr index_t GemmNLevel0Cluster = 2;
-    constexpr index_t GemmMLevel1Cluster = 2;
-    constexpr index_t GemmNLevel1Cluster = 8;
-    constexpr index_t ThreadGemmDataPerReadM = 2;
-    constexpr index_t ThreadGemmDataPerReadN = 4;
-    using GemmABlockTransferThreadSliceLengths_GemmK_GemmM   = Sequence<1, 1>;
-    using GemmABlockTransferThreadClusterLengths_GemmK_GemmM = Sequence<4, 16>;
-    constexpr index_t GemmABlockTransferSrcScalarPerVector_GemmK = 1;
-    constexpr index_t GemmABlockTransferDstScalarPerVector_GemmM = 1;
-    using GemmBBlockTransferThreadSliceLengths_GemmK_GemmN   = Sequence<4, 2>;
-    using GemmBBlockTransferThreadClusterLengths_GemmK_GemmN = Sequence<1, 64>;
    constexpr index_t GemmBBlockTransferSrcScalarPerVector_GemmN = 4;
    constexpr index_t GemmBBlockTransferDstScalarPerVector_GemmN = 1;
-    constexpr index_t GemmCThreadTransferDstScalarPerVector_GemmM1 = 2;
+    constexpr index_t GemmCThreadTransferDstScalarPerVector_GemmM1 = 1;
-#elif 0
-    // cdata = 64, BlockSize = 64, 16x256x2
-    constexpr index_t BlockSize = 64;
-    constexpr index_t GemmMPerBlock = 16;
-    constexpr index_t GemmNPerBlock = 256;
-    constexpr index_t GemmKPerBlock = 2;
-    constexpr index_t GemmMPerThread = 4;
-    constexpr index_t GemmNPerThread = 4;
-    constexpr index_t GemmKPerThread = 1;
-    constexpr index_t GemmMLevel0Cluster = 1;
-    constexpr index_t GemmNLevel0Cluster = 2;
-    constexpr index_t GemmMLevel1Cluster = 2;
-    constexpr index_t GemmNLevel1Cluster = 16;
-    constexpr index_t ThreadGemmDataPerReadM = 4;
-    constexpr index_t ThreadGemmDataPerReadN = 4;
-    using GemmABlockTransferThreadSliceLengths_GemmK_GemmM   = Sequence<1, 1>;
-    using GemmABlockTransferThreadClusterLengths_GemmK_GemmM = Sequence<2, 16>;
-    constexpr index_t GemmABlockTransferSrcScalarPerVector_GemmK = 1;
-    constexpr index_t GemmABlockTransferDstScalarPerVector_GemmM = 1;
-    using GemmBBlockTransferThreadSliceLengths_GemmK_GemmN   = Sequence<2, 4>;
-    using GemmBBlockTransferThreadClusterLengths_GemmK_GemmN = Sequence<1, 64>;
-    constexpr index_t GemmBBlockTransferSrcScalarPerVector_GemmN = 2;
-    constexpr index_t GemmBBlockTransferDstScalarPerVector_GemmN = 1;
-    constexpr index_t GemmCThreadTransferDstScalarPerVector_GemmM1 = 4;
-#elif 0
-    // cdata = 64, BlockSize = 64, 16x256x4
-    constexpr index_t BlockSize = 64;
-    constexpr index_t GemmMPerBlock = 16;
-    constexpr index_t GemmNPerBlock = 256;
-    constexpr index_t GemmKPerBlock = 4;
-    constexpr index_t GemmMPerThread = 4;
-    constexpr index_t GemmNPerThread = 4;
-    constexpr index_t GemmKPerThread = 1;
-    constexpr index_t GemmMLevel0Cluster = 1;
-    constexpr index_t GemmNLevel0Cluster = 2;
-    constexpr index_t GemmMLevel1Cluster = 2;
-    constexpr index_t GemmNLevel1Cluster = 16;
-    constexpr index_t ThreadGemmDataPerReadM = 4;
-    constexpr index_t ThreadGemmDataPerReadN = 4;
-    using GemmABlockTransferThreadSliceLengths_GemmK_GemmM   = Sequence<1, 1>;
-    using GemmABlockTransferThreadClusterLengths_GemmK_GemmM = Sequence<4, 16>;
-    constexpr index_t GemmABlockTransferSrcScalarPerVector_GemmK = 1;
-    constexpr index_t GemmABlockTransferDstScalarPerVector_GemmM = 1;
-    using GemmBBlockTransferThreadSliceLengths_GemmK_GemmN   = Sequence<4, 4>;
-    using GemmBBlockTransferThreadClusterLengths_GemmK_GemmN = Sequence<1, 64>;
-    constexpr index_t GemmBBlockTransferSrcScalarPerVector_GemmN = 4;
-    constexpr index_t GemmBBlockTransferDstScalarPerVector_GemmN = 1;
-    constexpr index_t GemmCThreadTransferDstScalarPerVector_GemmM1 = 4;
-#elif 0
-    // cdata = 64, BlockSize = 128, 32x256x4
-    constexpr index_t BlockSize = 128;
-    constexpr index_t GemmMPerBlock = 32;
-    constexpr index_t GemmNPerBlock = 256;
-    constexpr index_t GemmKPerBlock = 4;
-    constexpr index_t GemmMPerThread = 4;
-    constexpr index_t GemmNPerThread = 4;
-    constexpr index_t GemmKPerThread = 1;
-    constexpr index_t GemmMLevel0Cluster = 2;
-    constexpr index_t GemmNLevel0Cluster = 2;
-    constexpr index_t GemmMLevel1Cluster = 2;
-    constexpr index_t GemmNLevel1Cluster = 16;
-    constexpr index_t ThreadGemmDataPerReadM = 4;
-    constexpr index_t ThreadGemmDataPerReadN = 4;
-    using GemmABlockTransferThreadSliceLengths_GemmK_GemmM   = Sequence<1, 1>;
-    using GemmABlockTransferThreadClusterLengths_GemmK_GemmM = Sequence<4, 32>;
-    constexpr index_t GemmABlockTransferSrcScalarPerVector_GemmK = 1;
-    constexpr index_t GemmABlockTransferDstScalarPerVector_GemmM = 1;
-    using GemmBBlockTransferThreadSliceLengths_GemmK_GemmN   = Sequence<4, 2>;
-    using GemmBBlockTransferThreadClusterLengths_GemmK_GemmN = Sequence<1, 128>;
-    constexpr index_t GemmBBlockTransferSrcScalarPerVector_GemmN = 4;
-    constexpr index_t GemmBBlockTransferDstScalarPerVector_GemmN = 1;
-    constexpr index_t GemmCThreadTransferDstScalarPerVector_GemmM1 = 4;
-#elif 0
-    // cdata = 64, BlockSize = 128, 32x256x8
-    constexpr index_t BlockSize = 128;
-    constexpr index_t GemmMPerBlock = 32;
-    constexpr index_t GemmNPerBlock = 256;
-    constexpr index_t GemmKPerBlock = 8;
-    constexpr index_t GemmMPerThread = 4;
-    constexpr index_t GemmNPerThread = 4;
-    constexpr index_t GemmKPerThread = 1;
-    constexpr index_t GemmMLevel0Cluster = 2;
-    constexpr index_t GemmNLevel0Cluster = 2;
-    constexpr index_t GemmMLevel1Cluster = 2;
-    constexpr index_t GemmNLevel1Cluster = 16;
-    constexpr index_t ThreadGemmDataPerReadM = 4;
-    constexpr index_t ThreadGemmDataPerReadN = 4;
-    using GemmABlockTransferThreadSliceLengths_GemmK_GemmM   = Sequence<2, 1>;
-    using GemmABlockTransferThreadClusterLengths_GemmK_GemmM = Sequence<4, 32>;
-    constexpr index_t GemmABlockTransferSrcScalarPerVector_GemmK = 2;
-    constexpr index_t GemmABlockTransferDstScalarPerVector_GemmM = 1;
-    using GemmBBlockTransferThreadSliceLengths_GemmK_GemmN   = Sequence<8, 2>;
-    using GemmBBlockTransferThreadClusterLengths_GemmK_GemmN = Sequence<1, 128>;
-    constexpr index_t GemmBBlockTransferSrcScalarPerVector_GemmN = 8;
-    constexpr index_t GemmBBlockTransferDstScalarPerVector_GemmN = 1;
-    constexpr index_t GemmCThreadTransferDstScalarPerVector_GemmM1 = 4;
-#elif 0
-    // cdata = 64, BlockSize = 256, 128x128x8
-    constexpr index_t BlockSize = 256;
-    constexpr index_t GemmMPerBlock = 128;
-    constexpr index_t GemmNPerBlock = 128;
-    constexpr index_t GemmKPerBlock = 8;
-    constexpr index_t GemmMPerThread = 4;
-    constexpr index_t GemmNPerThread = 4;
-    constexpr index_t GemmKPerThread = 1;
-    constexpr index_t GemmMLevel0Cluster = 2;
-    constexpr index_t GemmNLevel0Cluster = 2;
-    constexpr index_t GemmMLevel1Cluster = 8;
-    constexpr index_t GemmNLevel1Cluster = 8;
-    using GemmABlockTransferThreadSliceLengths_GemmK_GemmM   = Sequence<4, 1>;
-    using GemmABlockTransferThreadClusterLengths_GemmK_GemmM = Sequence<2, 128>;
-    constexpr index_t GemmABlockTransferSrcScalarPerVector_GemmK = 4;
-    constexpr index_t GemmABlockTransferDstScalarPerVector_GemmM = 1;
-    using GemmBBlockTransferThreadSliceLengths_GemmK_GemmN   = Sequence<4, 1>;
-    using GemmBBlockTransferThreadClusterLengths_GemmK_GemmN = Sequence<2, 128>;
-    constexpr index_t GemmBBlockTransferSrcScalarPerVector_GemmN = 4;
-    constexpr index_t GemmBBlockTransferDstScalarPerVector_GemmN = 1;
-    constexpr index_t GemmCThreadTransferDstScalarPerVector_GemmM1 = 4;
-#elif 1
-    // cdata = 64, BlockSize = 256, 128x128x16
-    constexpr index_t BlockSize = 256;
-    constexpr index_t GemmMPerBlock = 128;
-    constexpr index_t GemmNPerBlock = 128;
-    constexpr index_t GemmKPerBlock = 16;
-    constexpr index_t GemmMPerThread = 4;
-    constexpr index_t GemmNPerThread = 4;
-    constexpr index_t GemmKPerThread = 1;
-    constexpr index_t GemmMLevel0Cluster = 2;
-    constexpr index_t GemmNLevel0Cluster = 2;
-    constexpr index_t GemmMLevel1Cluster = 8;
-    constexpr index_t GemmNLevel1Cluster = 8;
-    using GemmABlockTransferThreadSliceLengths_GemmK_GemmM   = Sequence<4, 2>;
-    using GemmABlockTransferThreadClusterLengths_GemmK_GemmM = Sequence<4, 64>;
-    constexpr index_t GemmABlockTransferSrcScalarPerVector_GemmK = 4;
-    constexpr index_t GemmABlockTransferDstScalarPerVector_GemmM = 2;
-    using GemmBBlockTransferThreadSliceLengths_GemmK_GemmN   = Sequence<8, 1>;
-    using GemmBBlockTransferThreadClusterLengths_GemmK_GemmN = Sequence<2, 128>;
-    constexpr index_t GemmBBlockTransferSrcScalarPerVector_GemmN = 8;
-    constexpr index_t GemmBBlockTransferDstScalarPerVector_GemmN = 1;
-    constexpr index_t GemmCThreadTransferDstScalarPerVector_GemmM1 = 4;
-#endif
    constexpr auto conv_driver =
-#if 1
        DriverDynamicConvolutionForwardImplicitGemm_v4r4_chwn_cyxk_khwn_pad
-#elif 0
-        DriverDynamicConvolutionForwardImplicitGemm_v4r4_chwn_cyxk_khwn_no_pad
-#elif 1
-        DriverDynamicConvolutionForwardImplicitGemm_v4r4_chwn_cyxk_khwn_1x1
-#endif
        <BlockSize,
         TDevice,
         TDevice,

--- a/driver/src/conv_driver.cpp
+++ b/driver/src/conv_driver.cpp
@@ -79,7 +79,7 @@ int main(int argc, char* argv[])
    using LeftPads  = Sequence<1, 1>;
    using RightPads = Sequence<1, 1>;
 #elif 1
-    constexpr index_t N  = 1;
+    constexpr index_t N  = 16;
    constexpr index_t C  = 4;
    constexpr index_t HI = 1080;
    constexpr index_t WI = 1920;