Formatting

1ad95e66 · Paul · bb666690 · 1ad95e66
Commit 1ad95e66 authored Aug 28, 2018 by Paul
Hide whitespace changes
Inline Side-by-side

Showing with 93 additions and 95 deletions

src/targets/gpu/device/include/migraph/gpu/device/nary.hpp src/targets/gpu/device/include/migraph/gpu/device/nary.hpp +93 -95

No files found.
--- a/src/targets/gpu/device/include/migraph/gpu/device/nary.hpp
+++ b/src/targets/gpu/device/include/migraph/gpu/device/nary.hpp
@@ -51,69 +51,74 @@ auto nary_nonstandard_impl(F f, argument result, Arguments... args)
    });
 }

-template<class F>
-void binary_broadcast_vec_impl(F f, const argument& result, const argument& arg1, const argument& arg2)
+template <class F>
+void binary_broadcast_vec_impl(F f,
+                               const argument& result,
+                               const argument& arg1,
+                               const argument& arg2)
 {
-        const auto& output_shape = result.get_shape();
-        const auto& b_shape      = arg2.get_shape();
-        auto bdim                = std::distance(b_shape.strides().begin(),
-                                  std::find_if(b_shape.strides().begin(),
-                                               b_shape.strides().end(),
-                                               [](auto x) { return x != 0; }));
-        auto bdim_len            = output_shape.lens()[bdim];
-        auto bdim_stride         = output_shape.strides()[bdim];
-        auto bdim_next_stride    = bdim_stride * bdim_len;
+    const auto& output_shape = result.get_shape();
+    const auto& b_shape      = arg2.get_shape();
+    auto bdim =
+        std::distance(b_shape.strides().begin(),
+                      std::find_if(b_shape.strides().begin(), b_shape.strides().end(), [](auto x) {
+                          return x != 0;
+                      }));
+    auto bdim_len         = output_shape.lens()[bdim];
+    auto bdim_stride      = output_shape.strides()[bdim];
+    auto bdim_next_stride = bdim_stride * bdim_len;

-        visit_all(result, arg1, arg2)([&](auto output, auto input1, auto input2) {
-            using type = std::remove_cv_t<typename decltype(output)::value_type>;
-            auto* xp   = as_vec4(input1.data());
-            auto* yp   = as_vec4(input2.data());
-            auto* outp = as_vec4(output.data());
+    visit_all(result, arg1, arg2)([&](auto output, auto input1, auto input2) {
+        using type = std::remove_cv_t<typename decltype(output)::value_type>;
+        auto* xp   = as_vec4(input1.data());
+        auto* yp   = as_vec4(input2.data());
+        auto* outp = as_vec4(output.data());

-            const std::size_t vec_size     = 4;
-            const std::size_t nlocal       = 1024;
-            const std::size_t nglobal      = 256 * nlocal;
-            const std::size_t n            = output.size() / vec_size;
-            const std::size_t bdim_vec_len = bdim_len / vec_size;
+        const std::size_t vec_size     = 4;
+        const std::size_t nlocal       = 1024;
+        const std::size_t nglobal      = 256 * nlocal;
+        const std::size_t n            = output.size() / vec_size;
+        const std::size_t bdim_vec_len = bdim_len / vec_size;

-            launch(nglobal, nlocal)([=](auto idx) __device__ {
-                MIGRAPH_DEVICE_SHARED vec4<type> buffer[2048 / vec_size];
-                // Load bias into LDS
-                for(size_t i = idx.local; i < bdim_vec_len; i += nlocal)
-                {
-                    buffer[i] = yp[i];
-                }
-                __syncthreads();
-                auto* bp = as_pointer(buffer);
-                // Process the data
-                for(size_t i = idx.global; i < n; i += nglobal)
+        launch(nglobal, nlocal)([=](auto idx) __device__ {
+            MIGRAPH_DEVICE_SHARED vec4<type> buffer[2048 / vec_size];
+            // Load bias into LDS
+            for(size_t i = idx.local; i < bdim_vec_len; i += nlocal)
+            {
+                buffer[i] = yp[i];
+            }
+            __syncthreads();
+            auto* bp = as_pointer(buffer);
+            // Process the data
+            for(size_t i = idx.global; i < n; i += nglobal)
+            {
+                auto bidx      = ((i * vec_size) % bdim_next_stride) / bdim_stride;
+                auto b         = bp[bidx];
+                vec4<type> x   = xp[i];
+                vec4<type> out = outp[i];
+                for(std::size_t j = 0; j < vec_size; j++)
                {
-                    auto bidx      = ((i * vec_size) % bdim_next_stride) / bdim_stride;
-                    auto b         = bp[bidx];
-                    vec4<type> x   = xp[i];
-                    vec4<type> out = outp[i];
-                    for(std::size_t j = 0; j < vec_size; j++)
-                    {
-                        out[j] = f(x[j], b);
-                    }
-                    outp[i] = out;
+                    out[j] = f(x[j], b);
                }
-            });
+                outp[i] = out;
+            }
        });
+    });
 }

-template<class F>
+template <class F>
 void binary_broadcast_impl(F f, const argument& result, const argument& arg1, const argument& arg2)
 {
    const auto& output_shape = result.get_shape();
    const auto& b_shape      = arg2.get_shape();
-    auto bdim                = std::distance(b_shape.strides().begin(),
-                              std::find_if(b_shape.strides().begin(),
-                                           b_shape.strides().end(),
-                                           [](auto x) { return x != 0; }));
-    auto bdim_len            = output_shape.lens()[bdim];
-    auto bdim_stride         = output_shape.strides()[bdim];
-    auto bdim_next_stride    = bdim_stride * bdim_len;
+    auto bdim =
+        std::distance(b_shape.strides().begin(),
+                      std::find_if(b_shape.strides().begin(), b_shape.strides().end(), [](auto x) {
+                          return x != 0;
+                      }));
+    auto bdim_len         = output_shape.lens()[bdim];
+    auto bdim_stride      = output_shape.strides()[bdim];
+    auto bdim_next_stride = bdim_stride * bdim_len;

    visit_all(result, arg1, arg2)([&](auto output, auto input1, auto input2) {
        using type = std::remove_cv_t<typename decltype(output)::value_type>;
@@ -148,77 +153,70 @@ void binary_broadcast_impl(F f, const argument& result, const argument& arg1, co
 template <class F, class... Arguments>
 void nary_standard_vec_impl(F f, argument result, Arguments... args)
 {
-        // assert(x.get_shape().elements() == y.get_shape().elements());
-        const auto& output_shape = result.get_shape();
-        visit_all(result, args...)([&](auto output, auto... inputs) {
-            using type                 = std::remove_cv_t<typename decltype(output)::value_type>;
-            const std::size_t vec_size = 4;
-            auto data                  = pack_vec4(inputs.data()...);
-            auto* outp                 = as_vec4(output.data());
-            gs_launch(output_shape.elements() / vec_size)([=](auto i) {
-                vec4<type> out = outp[i];
-                data(
-                    [&](auto... xs) {
-                        for(std::size_t j = 0; j < vec_size; j++)
-                        {
-                            out[j] = f(xs[j]...);
-                        }
-                    },
-                    i);
-                outp[i] = out;
-            });
+    // assert(x.get_shape().elements() == y.get_shape().elements());
+    const auto& output_shape = result.get_shape();
+    visit_all(result, args...)([&](auto output, auto... inputs) {
+        using type                 = std::remove_cv_t<typename decltype(output)::value_type>;
+        const std::size_t vec_size = 4;
+        auto data                  = pack_vec4(inputs.data()...);
+        auto* outp                 = as_vec4(output.data());
+        gs_launch(output_shape.elements() / vec_size)([=](auto i) {
+            vec4<type> out = outp[i];
+            data(
+                [&](auto... xs) {
+                    for(std::size_t j = 0; j < vec_size; j++)
+                    {
+                        out[j] = f(xs[j]...);
+                    }
+                },
+                i);
+            outp[i] = out;
        });
+    });
 }

 template <class F, class... Arguments>
 void nary_standard_impl(F f, argument result, Arguments... args)
 {
-        // assert(x.get_shape().elements() == y.get_shape().elements());
-        const auto& output_shape = result.get_shape();
-        visit_all(result, args...)([&](auto output, auto... inputs) {
-            auto data  = pack(inputs.data()...);
-            auto* outp = output.data();
-            gs_launch(output_shape.elements())(
-                [=](auto i) { data([&](auto... xps) { outp[i] = f(xps[i]...); }); });
-        });
+    // assert(x.get_shape().elements() == y.get_shape().elements());
+    const auto& output_shape = result.get_shape();
+    visit_all(result, args...)([&](auto output, auto... inputs) {
+        auto data  = pack(inputs.data()...);
+        auto* outp = output.data();
+        gs_launch(output_shape.elements())(
+            [=](auto i) { data([&](auto... xps) { outp[i] = f(xps[i]...); }); });
+    });
 }

 template <class F, class... Arguments>
 void nary_impl(F f, argument result, Arguments... args)
 {
-        bool standard = all_of({args.get_shape()...}, [](const shape& s) { return s.standard(); });
-        bool packed   = all_of({args.get_shape()...}, [](const shape& s) { return s.packed(); });
-        bool same_shapes =
-            all_of({args.get_shape()...}, [&](const shape& s) { return s == result.get_shape(); });
-        if(standard or (packed and same_shapes))
-            nary_standard_impl(f, result, args...);
-        else
-            nary_nonstandard_impl(f, result, args...);
-
+    bool standard = all_of({args.get_shape()...}, [](const shape& s) { return s.standard(); });
+    bool packed   = all_of({args.get_shape()...}, [](const shape& s) { return s.packed(); });
+    bool same_shapes =
+        all_of({args.get_shape()...}, [&](const shape& s) { return s == result.get_shape(); });
+    if(standard or (packed and same_shapes))
+        nary_standard_impl(f, result, args...);
+    else
+        nary_nonstandard_impl(f, result, args...);
 }

 template <class... Arguments>
 auto nary_nonstandard(argument result, Arguments... args)
 {
-    return [=](auto f) { 
-        nary_nonstandard_impl(f, result, args...);
-    };
+    return [=](auto f) { nary_nonstandard_impl(f, result, args...); };
 }

 template <class... Arguments>
 auto nary_standard(argument result, Arguments... args)
 {
-    return [=](auto f) { 
-        nary_standard_impl(f, result, args...);
-    };
+    return [=](auto f) { nary_standard_impl(f, result, args...); };
 }

 template <class... Arguments>
 auto nary(argument result, Arguments... args)
 {
-    return [=](auto f) { 
-        nary_impl(f, result, args...);
-    };
+    return [=](auto f) { nary_impl(f, result, args...); };
 }

 inline auto nary(const argument& result, const argument& arg1, const argument& arg2)