Add groupnorm bwd x instance

a3e437ad · rocking · 8e7805c5 · a3e437ad · a3e437ad · a3e437ad
Commit a3e437ad authored Dec 01, 2023 by rocking
3 changed files
--- a/library/src/tensor_operation_instance/gpu/normalization_bwd_x/CMakeLists.txt
+++ b/library/src/tensor_operation_instance/gpu/normalization_bwd_x/CMakeLists.txt
 set(DEVICE_NORMALIZATION_BWD_X_INSTANCES)

 list(APPEND DEVICE_NORMALIZATION_BWD_X_INSTANCES
+    device_groupnorm_bwd_x_f32_instance.cpp
    device_layernorm2d_bwd_x_f16_instance.cpp
    device_layernorm2d_bwd_x_f32_instance.cpp)


--- a/library/src/tensor_operation_instance/gpu/normalization_bwd_x/device_groupnorm_bwd_x_f32_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/normalization_bwd_x/device_groupnorm_bwd_x_f32_instance.cpp
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+
+#include "normalization_bwd_x_instance_common.hpp"
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+namespace instance {
+
+void add_device_groupnorm_bwd_x_f32_instances(
+    std::vector<std::unique_ptr<DeviceNormalizationBwdX<F32, F32, F32, F32, F32, 5, 3>>>&
+        instances)
+{
+    add_device_operation_instances(instances,
+                                   device_groupnorm_bwd_x_f32_generic_instance{});
+    add_device_operation_instances(instances, device_groupnorm_bwd_x_f32_instances{});
+}
+
+} // namespace instance
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
--- a/library/src/tensor_operation_instance/gpu/normalization_bwd_x/normalization_bwd_x_instance_common.hpp
+++ b/library/src/tensor_operation_instance/gpu/normalization_bwd_x/normalization_bwd_x_instance_common.hpp
@@ -52,6 +52,21 @@ using device_layernorm_bwd_x_f32_generic_instance = std::tuple<
    // clang-format on
    >;

+using device_groupnorm_bwd_x_f32_instances =
+    // clang-format off
+    std::tuple <
+        // DYDataType, XDataType, GammaDataType, MeanInvStdDataType, ComputeDataType, DXDataType, Rank, NumReduceDim, BlockSize, MThreadClusterSize, KThreadClusterSize, MThreadSliceSize, KThreadSliceSize, IsDYFastestDimReduced, DYSrcVectorSize, IsXFastestDimReduced, XSrcVectorSize, IsGammaFastestDimReduced, GammaSrcVectorSize, IsMeanInvStdFastestDimReduced, MeanInvStdSrcVectorSize, IsDXFastestDimReduced, DXDstVectorSize>
+        DeviceNormalizationBwdXImpl<F32, F32, F32, F32, F32, F32, 5, 3, 256, 1, 256, 1, 2, true, 2, true, 2, true, 2, false, 1, true, 2>,
+        DeviceNormalizationBwdXImpl<F32, F32, F32, F32, F32, F32, 5, 3, 256, 1, 256, 1, 4, true, 4, true, 4, true, 4, false, 1, true, 4>
+        // clang-format on
+        >;
+
+using device_groupnorm_bwd_x_f32_generic_instance = std::tuple<
+    // clang-format off
+        DeviceNormalizationBwdXImpl<F32, F32, F32, F32, F32, F32, 5, 3, 64, 1, 64, 1, 1, true, 1, true, 1, true, 1, false, 1, true, 1>
+    // clang-format on
+    >;
+
 } // namespace instance
 } // namespace device
 } // namespace tensor_operation