Update README.md

a8b539da · Chao Liu · GitHub · 4361cffd · a8b539da
Unverified Commit a8b539da authored Dec 02, 2021 by Chao Liu Committed by GitHub Dec 02, 2021
Show whitespace changes
Inline Side-by-side

Showing with 18 additions and 18 deletions

example/4_conv_xdl_bias_relu_add/README.md example/4_conv_xdl_bias_relu_add/README.md +18 -18

No files found.
--- a/example/4_conv_xdl_bias_relu_add/README.md
+++ b/example/4_conv_xdl_bias_relu_add/README.md
-# Instructions for ```gemm_xdl_bias_add``` Example
+# Instructions for ```conv_xdl_bias_relu_add``` Example
 ## Docker script
 ```bash
@@ -13,7 +13,7 @@ rocm/tensorflow:rocm4.3.1-tf2.6-dev                                          \
 /bin/bash
 ```
-## Build ```gemm_xdl_bias_add```
+## Build ```conv_xdl_bias_relu_add```
 ```bash
 mkdir build && cd build
 ```
@@ -30,32 +30,32 @@ cmake                                                                  \
 ```
 ```bash
- make -j gemm_xdl_bias_add
+ make -j conv_xdl_bias_relu_add
 ```
-## Run ```gemm_xdl_bias_add```
+## Run ```conv_xdl_bias_relu_add```
 ```bash
 #arg1: verification (0=no, 1=yes)
 #arg2: initialization (0=no init, 1=integer value, 2=decimal value)
 #arg3: run kernel # of times (>1)
-#arg4 to 9: M (256x), N(128x), K(32x), StrideA, StrideB, StrideC
+#arg4 to 18: N, K, C, Y, X, Hi, Wi, Sy, Sx, Dy, Dx, LeftPy, LeftPx, RightPy, RightPx
-./example/gemm_xdl_bias_add 0 1 5 3840 4096 4096 4096 4096 4096
+./example/conv_xdl_bias_relu_add 0 1 5
 ```
 Result (MI100 @ 1087Mhz, 133.5TFlops peak FP16)
 ```
-a_m_k: dim 2, lengths {3840, 4096}, strides {4096, 1}
+in_n_c_hi_wi: dim 4, lengths {128, 192, 71, 71}, strides {967872, 1, 13632, 192}
-b_k_n: dim 2, lengths {4096, 4096}, strides {1, 4096}
+wei_k_c_y_x: dim 4, lengths {256, 192, 3, 3}, strides {1728, 1, 576, 192}
-c_m_n: dim 2, lengths {3840, 4096}, strides {4096, 1}
+out_n_k_ho_wo: dim 4, lengths {128, 256, 36, 36}, strides {331776, 1, 9216, 256}
-c0_m_n: dim 2, lengths {3840, 4096}, strides {4096, 1}
+bias_k: dim 1, lengths {256}, strides {1}
-c1_m_n: dim 2, lengths {3840, 4096}, strides {1, 0}
+resi_n_k_ho_wo: dim 4, lengths {128, 256, 36, 36}, strides {331776, 1, 9216, 256}
-arg.a_grid_desc_k0_m_k1_{512, 3840, 8}
+arg.a_grid_desc_k0_m_k1_{216, 165888, 8}
-arg.b_grid_desc_k0_n_k1_{512, 4096, 8}
+arg.b_grid_desc_k0_n_k1_{216, 256, 8}
-arg.c_grid_desc_m_n_{ 3840, 4096}
+arg.c_grid_desc_m_n_{ 165888, 256}
-arg.c0_grid_desc_m_n_{ 3840, 4096}
+arg.c0_grid_desc_m_n_{ 165888, 256}
-arg.c1_grid_desc_m_n_{ 3840, 4096}
+arg.c1_grid_desc_m_n_{ 165888, 256}
-launch_and_time_kernel: grid_dim {480, 1, 1}, block_dim {256, 1, 1}
+launch_and_time_kernel: grid_dim {1296, 1, 1}, block_dim {256, 1, 1}
 Warm up
 Start running 5 times...
-Perf: 1.27583 ms, 100.992 TFlops, 73.9688 GB/s
+Perf: 1.71779 ms, 85.4396 TFlops, 194.2 GB/s
 ```