Fix div by zero issue

187a4769 · Paul · a62ef598 · 187a4769 · 187a4769
Commit 187a4769 authored Jun 04, 2022 by Paul
Showing with 13 additions and 11 deletions

src/targets/gpu/jit/layernorm.cpp src/targets/gpu/jit/layernorm.cpp +2 -2

src/targets/gpu/kernels/include/migraphx/kernels/layernorm.hpp ...argets/gpu/kernels/include/migraphx/kernels/layernorm.hpp +11 -9

No files found.
--- a/src/targets/gpu/jit/layernorm.cpp
+++ b/src/targets/gpu/jit/layernorm.cpp
@@ -26,8 +26,8 @@ namespace migraphx {
 extern "C" {
 __global__ void layernorm_kernel(void* input_p, void* output_p) 
 {
-    transform_args(make_tensors(), ${transformers})(input_p, output_p)([](auto input, auto output) {
+    transform_args(make_tensors(), rotate_last(), ${transformers})(input_p, output_p)([](auto... xs) {
-        layernorm<${axis}>(input, output);
+        layernorm<${axis}>(op::id{}, xs...);
    });
 }

--- a/src/targets/gpu/kernels/include/migraphx/kernels/layernorm.hpp
+++ b/src/targets/gpu/kernels/include/migraphx/kernels/layernorm.hpp
@@ -2,18 +2,20 @@
 #define MIGRAPHX_GUARD_KERNELS_LAYERNORM_HPP
 #include <migraphx/kernels/reduce.hpp>
 #include <migraphx/kernels/ops.hpp>
+#include <migraphx/kernels/print.hpp>
 namespace migraphx {
-template <index_int Axis, class Input, class Output>
+template <index_int Axis, class F, class Output, class Input, class... Inputs>
-__device__ void layernorm(Input input, Output output)
+__device__ void layernorm(F compute, Output output, Input input, Inputs... inputs)
 {
-    constexpr auto relements =
+    using reduce_output = reduce::with_axis<Input, Axis>;
-        get_shape_c<reduce::with_axis<Input, Axis>>{}.elements() / get_shape_c<Input>{}.elements();
+    constexpr auto relements =get_shape_c<Input>{}.elements() / get_shape_c<reduce_output>{}.elements();
-    reduce::block::run<reduce::with_axis<Input, Axis>>([&](auto, auto r) {
+    MIGRAPHX_ASSERT(relements > 0);
+    reduce::block::run<reduce_output>([&](auto, auto r) {
        using value_type = typename Input::type;
        auto mean        = [&](auto f) {
-            return r.reduce(op::sum{}, 0, f)(input) / value_type{relements};
+            return r.reduce(op::sum{}, 0, [&](auto x) { return f(x) / value_type{relements}; })(input);
        };
        // mean(x)
        auto mean_x = mean(op::id{});
@@ -23,11 +25,11 @@ __device__ void layernorm(Input input, Output output)
            return m * m;
        });
-        r.inner([&](auto& y, auto x) {
+        r.inner([&](auto& y, auto x, auto... xs) {
            auto m = x - mean_x;
            // m * rsqrt(mean(m ^ 2) + 1e-12)
-            y = m * rsqrt(mean_m2 + value_type{1e-12});
+            y = compute(m * rsqrt(mean_m2 + value_type{1e-12}), xs...);
-        })(output, input);
+        })(output, input, inputs...);
    });
 }