Merge branch 'develop' into amd-develop

e9047ab9 · Jun Liu · bc641634 · a2969aa8 · e9047ab9 · e9047ab9
Commit e9047ab9 authored Nov 29, 2023 by Jun Liu
20 changed files
--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_gndhwc_gkzyxc_gndhwk_i8_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_gndhwc_gkzyxc_gndhwk_i8_instance.cpp
@@ -11,18 +11,18 @@ namespace instance {
 // Compilation parameters for in[g, n, di, hi, wi, c] * wei[g, k, z, y, x, c] = out[g, n, do, ho,
 // wo, k]
 void add_device_grouped_conv3d_fwd_wmma_gndhwc_gkzyxc_gndhwk_i8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              GNDHWC,
+                                                                GNDHWC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              GNDHWK,
+                                                                GNDHWK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_wmma_i8_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_gndhwc_gkzyxc_gndhwk_i8_oddc_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_gndhwc_gkzyxc_gndhwk_i8_oddc_instance.cpp
@@ -11,18 +11,18 @@ namespace instance {
 // Compilation parameters for in[g, n, di, hi, wi, c] * wei[g, k, z, y, x, c] = out[g, n, do, ho,
 // wo, k]
 void add_device_grouped_conv3d_fwd_wmma_gndhwc_gkzyxc_gndhwk_i8_oddc_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              GNDHWC,
+                                                                GNDHWC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              GNDHWK,
+                                                                GNDHWK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_wmma_i8_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_f16_1x1p0_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_f16_1x1p0_instance.cpp
@@ -11,18 +11,18 @@ namespace instance {
 // Compilation parameters for in[n, di, hi, wi, g, c] * wei[g, k, z, y, x, c] = out[n, do, ho, wo,
 // g, k]
 void add_device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_f16_1x1p0_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              F16,
+                                                                F16,
-                                                              F16,
+                                                                F16,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              F16,
+                                                                F16,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_wmma_f16_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_f16_1x1s1p0_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_f16_1x1s1p0_instance.cpp
@@ -11,18 +11,18 @@ namespace instance {
 // Compilation parameters for in[n, di, hi, wi, g, c] * wei[g, k, z, y, x, c] = out[n, do, ho, wo,
 // g, k]
 void add_device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_f16_1x1s1p0_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              F16,
+                                                                F16,
-                                                              F16,
+                                                                F16,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              F16,
+                                                                F16,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_wmma_f16_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_f16_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_f16_instance.cpp
@@ -11,18 +11,18 @@ namespace instance {
 // Compilation parameters for in[n, di, hi, wi, g, c] * wei[g, k, z, y, x, c] = out[n, do, ho, wo,
 // g, k]
 void add_device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_f16_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              F16,
+                                                                F16,
-                                                              F16,
+                                                                F16,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              F16,
+                                                                F16,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_wmma_f16_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_f16_oddc_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_f16_oddc_instance.cpp
@@ -11,18 +11,18 @@ namespace instance {
 // Compilation parameters for in[n, di, hi, wi, g, c] * wei[g, k, z, y, x, c] = out[n, do, ho, wo,
 // g, k]
 void add_device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_f16_oddc_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              F16,
+                                                                F16,
-                                                              F16,
+                                                                F16,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              F16,
+                                                                F16,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_wmma_f16_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_i8_1x1p0_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_i8_1x1p0_instance.cpp
@@ -11,18 +11,18 @@ namespace instance {
 // Compilation parameters for in[n, di, hi, wi, g, c] * wei[g, k, z, y, x, c] = out[n, do, ho, wo,
 // g, k]
 void add_device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_i8_1x1p0_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_wmma_i8_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_i8_1x1s1p0_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_i8_1x1s1p0_instance.cpp
@@ -11,18 +11,18 @@ namespace instance {
 // Compilation parameters for in[n, di, hi, wi, g, c] * wei[g, k, z, y, x, c] = out[n, do, ho, wo,
 // g, k]
 void add_device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_i8_1x1s1p0_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_wmma_i8_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_i8_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_i8_instance.cpp
@@ -11,18 +11,18 @@ namespace instance {
 // Compilation parameters for in[n, di, hi, wi, g, c] * wei[g, k, z, y, x, c] = out[n, do, ho, wo,
 // g, k]
 void add_device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_i8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_wmma_i8_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_i8_oddc_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/wmma/device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_i8_oddc_instance.cpp
@@ -11,18 +11,18 @@ namespace instance {
 // Compilation parameters for in[n, di, hi, wi, g, c] * wei[g, k, z, y, x, c] = out[n, do, ho, wo,
 // g, k]
 void add_device_grouped_conv3d_fwd_wmma_ndhwgc_gkzyxc_ndhwgk_i8_oddc_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_wmma_i8_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_gndhwc_gkzyxc_gndhwk_bf16_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_gndhwc_gkzyxc_gndhwk_bf16_instance.cpp
@@ -10,18 +10,18 @@ namespace device {
 namespace instance {
 void add_device_grouped_conv3d_fwd_xdl_gndhwc_gkzyxc_gndhwk_bf16_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              GNDHWC,
+                                                                GNDHWC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              GNDHWK,
+                                                                GNDHWK,
-                                                              BF16,
+                                                                BF16,
-                                                              BF16,
+                                                                BF16,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              BF16,
+                                                                BF16,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_xdl_bf16_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_gndhwc_gkzyxc_gndhwk_f16_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_gndhwc_gkzyxc_gndhwk_f16_instance.cpp
@@ -10,18 +10,18 @@ namespace device {
 namespace instance {
 void add_device_grouped_conv3d_fwd_xdl_gndhwc_gkzyxc_gndhwk_f16_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              GNDHWC,
+                                                                GNDHWC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              GNDHWK,
+                                                                GNDHWK,
-                                                              F16,
+                                                                F16,
-                                                              F16,
+                                                                F16,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              F16,
+                                                                F16,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_xdl_f16_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_gndhwc_gkzyxc_gndhwk_f32_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_gndhwc_gkzyxc_gndhwk_f32_instance.cpp
@@ -10,18 +10,18 @@ namespace device {
 namespace instance {
 void add_device_grouped_conv3d_fwd_xdl_gndhwc_gkzyxc_gndhwk_f32_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              GNDHWC,
+                                                                GNDHWC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              GNDHWK,
+                                                                GNDHWK,
-                                                              F32,
+                                                                F32,
-                                                              F32,
+                                                                F32,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              F32,
+                                                                F32,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_xdl_f32_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_gndhwc_gkzyxc_gndhwk_int8_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_gndhwc_gkzyxc_gndhwk_int8_instance.cpp
@@ -10,18 +10,18 @@ namespace device {
 namespace instance {
 void add_device_grouped_conv3d_fwd_xdl_gndhwc_gkzyxc_gndhwk_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              GNDHWC,
+                                                                GNDHWC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              GNDHWK,
+                                                                GNDHWK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_xdl_int8_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_bf16_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_bf16_instance.cpp
@@ -10,18 +10,18 @@ namespace device {
 namespace instance {
 void add_device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_bf16_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              BF16,
+                                                                BF16,
-                                                              BF16,
+                                                                BF16,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              BF16,
+                                                                BF16,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_xdl_bf16_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_f16_comp_fp8_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_f16_comp_fp8_instance.cpp
@@ -10,19 +10,19 @@ namespace device {
 namespace instance {
 void add_device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_f16_comp_f8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              F16,
+                                                                F16,
-                                                              F16,
+                                                                F16,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              F16,
+                                                                F16,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              F8>>>& instances)
+                                                                F8>>>& instances)
 {
    add_device_operation_instances(
        instances,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_f16_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_f16_instance.cpp
@@ -10,18 +10,18 @@ namespace device {
 namespace instance {
 void add_device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_f16_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              F16,
+                                                                F16,
-                                                              F16,
+                                                                F16,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              F16,
+                                                                F16,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_xdl_f16_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_f32_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_f32_instance.cpp
@@ -10,18 +10,18 @@ namespace device {
 namespace instance {
 void add_device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_f32_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              F32,
+                                                                F32,
-                                                              F32,
+                                                                F32,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              F32,
+                                                                F32,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_xdl_f32_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_int8_instance.cpp
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd/xdl/device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_int8_instance.cpp
@@ -9,18 +9,18 @@ namespace tensor_operation {
 namespace device {
 namespace instance {
 void add_device_grouped_conv3d_fwd_xdl_ndhwgc_gkzyxc_ndhwgk_int8_instances(
-    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleD<3,
+    std::vector<std::unique_ptr<DeviceGroupedConvFwdMultipleABD<3,
-                                                              NDHWGC,
+                                                                NDHWGC,
-                                                              GKZYXC,
+                                                                GKZYXC,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              NDHWGK,
+                                                                NDHWGK,
-                                                              int8_t,
+                                                                int8_t,
-                                                              int8_t,
+                                                                int8_t,
-                                                              Empty_Tuple,
+                                                                Empty_Tuple,
-                                                              int8_t,
+                                                                int8_t,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough,
+                                                                PassThrough,
-                                                              PassThrough>>>& instances)
+                                                                PassThrough>>>& instances)
 {
    add_device_operation_instances(instances,
                                   device_grouped_conv_fwd_xdl_int8_instances<3,

--- a/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd_scaleadd_ab/CMakeLists.txt
+++ b/library/src/tensor_operation_instance/gpu/grouped_conv3d_fwd_scaleadd_ab/CMakeLists.txt
+set(GROUPED_CONV3D_FWD_SCALEADD_AB
+   xdl/device_grouped_conv3d_fwd_xdl_scaleadd_ab_ndhwgc_gkzyxc_ndhwgk_bf16_instance.cpp
+   xdl/device_grouped_conv3d_fwd_xdl_scaleadd_ab_ndhwgc_gkzyxc_ndhwgk_f16_instance.cpp
+   xdl/device_grouped_conv3d_fwd_xdl_scaleadd_ab_ndhwgc_gkzyxc_ndhwgk_f32_instance.cpp
+   xdl/device_grouped_conv3d_fwd_xdl_scaleadd_ab_ndhwgc_gkzyxc_ndhwgk_int8_instance.cpp)
+add_instance_library(device_grouped_conv3d_fwd_scaleadd_ab_instance ${GROUPED_CONV3D_FWD_SCALEADD_AB})