run simple example

162359b6 · ltqin · 4d2172a9 · 162359b6 · 162359b6
Commit 162359b6 authored Mar 02, 2022 by ltqin
2 changed files
--- a/device_operation/include/device_conv2d_backward_weight_xdl_c_shuffle_nhwc_kyxc_nhwk.hpp
+++ b/device_operation/include/device_conv2d_backward_weight_xdl_c_shuffle_nhwc_kyxc_nhwk.hpp
@@ -465,7 +465,7 @@ struct DeviceConv2dWrWXdl_C_Shuffle_Input_N_Hi_Wi_C_Weight_K_Y_X_C_Output_N_Ho_W
    static bool IsSupportedArgument(const Argument& arg)
    {
        // vector load A/B matrix from global memory
-        if(!(ABlockTransferSrcVectorDim == 1 && BBlockTransferSrcVectorDim == 2 &&
+        if(!(ABlockTransferSrcVectorDim == 1 && BBlockTransferSrcVectorDim == 1 &&
             arg.Conv_K_ % ABlockTransferSrcScalarPerVector == 0 &&
             arg.Conv_C_ % BBlockTransferSrcScalarPerVector == 0))
        {

--- a/example/14_conv2d_backward_weight_xdl/main.cpp
+++ b/example/14_conv2d_backward_weight_xdl/main.cpp
@@ -51,18 +51,18 @@ using DeviceConvWrWInstance = ck::tensor_operation::device::
        2,                                // MXdlPerWave
        2,                                // NXdlPerWave
        S<4, 16, 4>,                      // ABlockTransferThreadClusterLengths_K0_M_K1
-        S<0, 2, 1>,                       // ABlockTransferThreadClusterArrangeOrder
+        S<2, 0, 1>,                       // ABlockTransferThreadClusterArrangeOrder
        S<1, 0, 2>,                       // ABlockTransferSrcAccessOrder
        1,                                // ABlockTransferSrcVectorDim
        8,                                // ABlockTransferSrcScalarPerVector
-        8,                                // ABlockTransferDstScalarPerVector_K1
+        2,                                // ABlockTransferDstScalarPerVector_K1
        true,                             // ABlockLdsAddExtraM
        S<4, 16, 4>,                      // BBlockTransferThreadClusterLengths_K0_N_K1
-        S<1, 0, 2>,                       // BBlockTransferThreadClusterArrangeOrder
+        S<2, 0, 1>,                       // BBlockTransferThreadClusterArrangeOrder
        S<1, 0, 2>,                       // BBlockTransferSrcAccessOrder
-        2,                                // BBlockTransferSrcVectorDim
+        1,                                // BBlockTransferSrcVectorDim
        8,                                // BBlockTransferSrcScalarPerVector
-        8,                                // BBlockTransferDstScalarPerVector_K1
+        2,                                // BBlockTransferDstScalarPerVector_K1
        true,                             // BBlockLdsAddExtraN
        1,                                // CShuffleMXdlPerWavePerShuffle
        1,                                // CShuffleNXdlPerWavePerShuffle