clean up

e041175e · Chao Liu · 08c9433e · e041175e
Commit e041175e authored Dec 04, 2021 by Chao Liu
Hide whitespace changes
Inline Side-by-side

Showing with 56 additions and 106 deletions

example/1_gemm_xdl/gemm_xdl.cpp example/1_gemm_xdl/gemm_xdl.cpp +56 -106

No files found.
--- a/example/1_gemm_xdl/gemm_xdl.cpp
+++ b/example/1_gemm_xdl/gemm_xdl.cpp
@@ -25,101 +25,70 @@ struct PassThrough
 struct Relu
 {
-    float alpha = 0.1;
-    // ReLU
    template <typename T>
    __host__ __device__ constexpr T operator()(T v) const
    {
-        T tmp = alpha * v;
+        return v > 0 ? v : 0;
-        return tmp > 0 ? tmp : 0;
    }
 };
-template <typename ADataType,
+template <ck::index_t... Is>
-          typename BDataType,
+using S = ck::Sequence<Is...>;
-          typename CDataType,
-          typename ALayout,
+using ADataType   = ck::half_t;
-          typename BLayout,
+using BDataType   = ck::half_t;
-          typename CLayout,
+using CDataType   = ck::half_t;
+using AccDataType = float;
+using ALayout = ck::tensor_layout::gemm::RowMajor;
+using BLayout = ck::tensor_layout::gemm::ColumnMajor;
+using CLayout = ck::tensor_layout::gemm::RowMajor;
+using AOp = PassThrough;
+using BOp = PassThrough;
+using COp = Relu;
+// Compilation parameters for NT problem
+// clang-format off
+using DeviceGemmInstance =
+    //#########################################|     AData|     BData|     CData|     AccData| ALayout| BLayout| CLayout| AElementwise| BElementwise| CElementwise| Block|  MPer|  NPer| K0Per| K1| MPer| NPer| MXdl| NXdl|  ABlockTransfer|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer|  BBlockTransfer|  BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| CThreadTransfer| CThreadTransfer| ABlockLds| BBlockLds|
+    //#########################################|      Type|      Type|      Type|        Type|        |        |        |    Operation|    Operation|    Operation|  Size| Block| Block| Block|   |  XDL|  XDL|  Per|  Per|     ThreadSlice|   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar|     ThreadSlice|   ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| SrcDstVectorDim|       DstScalar| AddExtraM| AddExtraN|
+    //#########################################|          |          |          |            |        |        |        |             |             |             |      |      |      |      |   |     |     | Wave| Wave| Lengths_K0_N_K1| Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1| Lengths_K0_N_K1| Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|                |       PerVector|          |          |
+    //#########################################|          |          |          |            |        |        |        |             |             |             |      |      |      |      |   |     |     |     |     |                |                |               |               |               |               |               |                |                |               |               |              |               |               |                |                |          |          |
+    ck::tensor_operation::device::DeviceGemmXdl< ADataType, BDataType, CDataType, AccDataType, ALayout, BLayout, CLayout,          AOp,          BOp,          COp,   256,   256,   128,     4,  8,   32,   32,    4,    2,      S<1, 4, 8>,     S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              8,      S<1, 2, 8>,     S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,              8,              8,               7,               1,      true,      true>;
+// clang-format on
+template <typename AType,
+          typename BType,
+          typename CType,
          typename AElementwiseOperation,
          typename BElementwiseOperation,
          typename CElementwiseOperation>
-struct DeviceGemmInstance;
+static void host_verify(const Tensor<AType>& a_m_k,
+                        const Tensor<BType>& b_k_n,
-template <typename AElementwiseOperation,
+                        Tensor<CType>& c_m_n,
-          typename BElementwiseOperation,
+                        const AElementwiseOperation& a_element_op,
-          typename CElementwiseOperation>
+                        const BElementwiseOperation& b_element_op,
-struct DeviceGemmInstance<ck::half_t,
+                        const CElementwiseOperation& c_element_op)
-                          ck::half_t,
-                          ck::half_t,
-                          ck::tensor_layout::gemm::RowMajor,
-                          ck::tensor_layout::gemm::ColumnMajor,
-                          ck::tensor_layout::gemm::RowMajor,
-                          AElementwiseOperation,
-                          BElementwiseOperation,
-                          CElementwiseOperation>
 {
-    using F16 = ck::half_t;
+    auto f_mk_kn_mn = [&](auto m, auto n) {
-    using F32 = float;
+        const int K = a_m_k.mDesc.GetLengths()[1];
-    using Row = ck::tensor_layout::gemm::RowMajor;
-    using Col = ck::tensor_layout::gemm::ColumnMajor;
-    template <ck::index_t... Is>
-    using S = ck::Sequence<Is...>;
-    using AOp = AElementwiseOperation;
-    using BOp = BElementwiseOperation;
-    using COp = CElementwiseOperation;
-    // Compilation parameters for NT problem
-    // clang-format off
-    using type =
-        //########################################| AData| BData| CData| AccData| ALayout| BLayout| CLayout| AElementwise| BElementwise| CElementwise| Block|  MPer|  NPer| K0Per| K1| MPer| NPer| MXdl| NXdl|  ABlockTransfer|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer|  BBlockTransfer|  BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| CThreadTransfer| CThreadTransfer| ABlockLds| BBlockLds|
-        //########################################|  Type|  Type|  Type|    Type|        |        |        |    Operation|    Operation|    Operation|  Size| Block| Block| Block|   |  XDL|  XDL|  Per|  Per|     ThreadSlice|   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar|     ThreadSlice|   ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| SrcDstVectorDim|       DstScalar| AddExtraM| AddExtraN|
-        //########################################|      |      |      |        |        |        |        |             |             |             |      |      |      |      |   |     |     | Wave| Wave| Lengths_K0_N_K1| Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1| Lengths_K0_N_K1| Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|                |       PerVector|          |          |
-        //########################################|      |      |      |        |        |        |        |             |             |             |      |      |      |      |   |     |     |     |     |                |                |               |               |               |               |               |                |                |               |               |              |               |               |                |                |          |          |
-        ck::tensor_operation::device::DeviceGemmXdl<  F16,   F16,   F16,     F32,     Row,     Col,     Row,          AOp,          BOp,          COp,   256,   256,   128,     4,  8,   32,   32,    4,    2,      S<1, 4, 8>,     S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              8,              8,      S<1, 2, 8>,     S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,              8,              8,               7,               1,      true,      true>;
-    // clang-format on
-};
-template <typename AElementwiseOperation,
+        double v = 0;
-          typename BElementwiseOperation,
-          typename CElementwiseOperation>
+        for(int k = 0; k < K; ++k)
-struct DeviceGemmInstance<float,
+        {
-                          float,
+            v += static_cast<const double>(a_element_op(a_m_k(m, k))) *
-                          float,
+                 static_cast<const double>(b_element_op(b_k_n(k, n)));
-                          ck::tensor_layout::gemm::RowMajor,
+        }
-                          ck::tensor_layout::gemm::ColumnMajor,
-                          ck::tensor_layout::gemm::RowMajor,
+        c_m_n(m, n) = c_element_op(v);
-                          AElementwiseOperation,
+    };
-                          BElementwiseOperation,
-                          CElementwiseOperation>
+    make_ParallelTensorFunctor(f_mk_kn_mn,
-{
+                               c_m_n.mDesc.GetLengths()[0],
-    using F16 = ck::half_t;
+                               c_m_n.mDesc.GetLengths()[1])(std::thread::hardware_concurrency());
-    using F32 = float;
+}
-    using Row = ck::tensor_layout::gemm::RowMajor;
-    using Col = ck::tensor_layout::gemm::ColumnMajor;
-    template <ck::index_t... Is>
-    using S = ck::Sequence<Is...>;
-    using AOp = AElementwiseOperation;
-    using BOp = BElementwiseOperation;
-    using COp = CElementwiseOperation;
-    // Compilation parameters for NT problem
-    // clang-format off
-    using type =
-    //########################################| AData| BData| CData| AccData| ALayout| BLayout| CLayout| AElementwise| BElementwise| CElementwise| Block|  MPer|  NPer| K0Per| K1| MPer| NPer| MXdl| NXdl|  ABlockTransfer|  ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer| ABlockTransfer|  BBlockTransfer|  BBlockTransfer| BBlockTransfer| BBlockTransfer| BlockTransfer| BBlockTransfer| BBlockTransfer| CThreadTransfer| CThreadTransfer| ABlockLds| BBlockLds|
-    //########################################|  Type|  Type|  Type|    Type|        |        |        |    Operation|    Operation|    Operation|  Size| Block| Block| Block|   |  XDL|  XDL|  Per|  Per|     ThreadSlice|   ThreadCluster|  ThreadCluster| SrcAccessOrder|   SrcVectorDim|      SrcScalar|      DstScalar|     ThreadSlice|   ThreadCluster|  ThreadCluster| SrcAccessOrder|  SrcVectorDim|      SrcScalar|      DstScalar| SrcDstVectorDim|       DstScalar| AddExtraM| AddExtraN|
-    //########################################|      |      |      |        |        |        |        |             |             |             |      |      |      |      |   |     |     | Wave| Wave| Lengths_K0_N_K1| Lengths_K0_M_K1|   ArrangeOrder|               |               |      PerVector|   PerVector_K1| Lengths_K0_N_K1| Lengths_K0_N_K1|   ArrangeOrder|               |              |      PerVector|   PerVector_K1|                |       PerVector|          |          |
-    //########################################|      |      |      |        |        |        |        |             |             |             |      |      |      |      |   |     |     |     |     |                |                |               |               |               |               |               |                |                |               |               |              |               |               |                |                |          |          |
-    ck::tensor_operation::device::DeviceGemmXdl<  F32,   F32,   F32,     F32,     Row,     Col,     Row,          AOp,          BOp,          COp,   256,   256,   128,     4,  4,   32,   32,    4,    2,      S<1, 4, 4>,     S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,              2,              4,              4,      S<1, 2, 4>,     S<4, 64, 1>,     S<1, 0, 2>,     S<1, 0, 2>,             2,              4,              4,               7,               1,      true,      true>;
-    // clang-format on
-};
 int main(int argc, char* argv[])
 {
@@ -165,16 +134,6 @@ int main(int argc, char* argv[])
        exit(0);
    }
-    // matrix data type
-    using ADataType = ck::half_t;
-    using BDataType = ck::half_t;
-    using CDataType = ck::half_t;
-    // matrix layout
-    using ALayout = ck::tensor_layout::gemm::RowMajor;
-    using BLayout = ck::tensor_layout::gemm::ColumnMajor;
-    using CLayout = ck::tensor_layout::gemm::RowMajor;
    auto f_host_tensor_descriptor =
        [](std::size_t row, std::size_t col, std::size_t stride, auto layout) {
            if(std::is_same<decltype(layout), ck::tensor_layout::gemm::RowMajor>::value)
@@ -219,16 +178,7 @@ int main(int argc, char* argv[])
    c_m_n_device_buf.ToDevice(c_m_n_device_result.mData.data());
    // do GEMM
-    auto gemm = typename DeviceGemmInstance<ADataType,
+    auto gemm     = DeviceGemmInstance{};
-                                            BDataType,
-                                            CDataType,
-                                            ALayout,
-                                            BLayout,
-                                            CLayout,
-                                            PassThrough,
-                                            PassThrough,
-                                            Relu>::type{};
    auto invoker  = gemm.MakeInvoker();
    auto argument = gemm.MakeArgument(static_cast<ADataType*>(a_m_k_device_buf.GetDeviceBuffer()),
                                      static_cast<BDataType*>(b_k_n_device_buf.GetDeviceBuffer()),
@@ -254,7 +204,7 @@ int main(int argc, char* argv[])
    std::size_t flop = std::size_t(2) * M * N * K;
    std::size_t num_btype =
-        sizeof(ADataType) * M * K + sizeof(BDataType) * K * M + sizeof(CDataType) * M * N;
+        sizeof(ADataType) * M * K + sizeof(BDataType) * K * N + sizeof(CDataType) * M * N;
    float tflops = static_cast<float>(flop) / 1.E9 / ave_time;
@@ -267,7 +217,7 @@ int main(int argc, char* argv[])
    if(do_verification)
    {
-        host_gemm_mk_kn_mn(a_m_k, b_k_n, c_m_n_host_result, PassThrough{}, PassThrough{}, Relu{});
+        host_verify(a_m_k, b_k_n, c_m_n_host_result, AOp{}, BOp{}, COp{});
        check_error(c_m_n_host_result, c_m_n_device_result);
    }