fixed readme

6d6dc6bf · Jing Zhang · 3b16e0d1 · 6d6dc6bf
Commit 6d6dc6bf authored Mar 14, 2022 by Jing Zhang
Hide whitespace changes
Inline Side-by-side

Showing with 20 additions and 49 deletions

example/13_pool2d_fwd/README.md example/13_pool2d_fwd/README.md +20 -49

No files found.
--- a/example/13_pool2d_fwd/README.md
+++ b/example/13_pool2d_fwd/README.md
-<<<<<<< HEAD:example/13_pool2d_fwd/README.md
+# Instructions for ```reduce_blockwise``` Example
-# Instructions for ```pool2d_fwd``` Example
-=======
-# Instructions for ```grouped_gemm_xdl``` Example
->>>>>>> 17f80fcf4bb6e6e17f26ec1550aa194b962c50d7:example/14_grouped_gemm/README.md
 ## Docker script
 ```bash
@@ -17,11 +13,7 @@ rocm/tensorflow:rocm4.3.1-tf2.6-dev                                          \
 /bin/bash
 ```
-<<<<<<< HEAD:example/13_pool2d_fwd/README.md
+## Build ```reduce_blockwise```
-## Build ```pool2d_fwd```
-=======
-## Build ```grouped_gemm_xdl```
->>>>>>> 17f80fcf4bb6e6e17f26ec1550aa194b962c50d7:example/14_grouped_gemm/README.md
 ```bash
 mkdir build && cd build
 ```
@@ -38,52 +30,31 @@ cmake                                                                  \
 ```
 ```bash
-<<<<<<< HEAD:example/13_pool2d_fwd/README.md
+ make -j reduce_blockwise 
- make -j pool2d_fwd
 ```
-## Run ```pool2d_fwd```
+## Run ```reduce_blockwise```
-=======
- make -j example_grouped_gemm_xdl_fp16
-```
-## Run ```grouped_gemm_xdl```
->>>>>>> 17f80fcf4bb6e6e17f26ec1550aa194b962c50d7:example/14_grouped_gemm/README.md
 ```bash
-#arg1: verification (0=no, 1=yes)
+# -D <xxx> : input 4-d tensor lengths
-#arg2: initialization (0=no init, 1=integer value, 2=decimal value)
+# -v <x> :   verification (0=no, 1=yes)
-#arg3: run kernel # of times (>1)
+#arg1: initialization (0=no init, 1=integer value, 2=decimal value)
-<<<<<<< HEAD:example/13_pool2d_fwd/README.md
+#arg2: run kernel # of times (>1)
-#arg4 to 15: N, C, Y, X, Hi, Wi, Sy, Sx, LeftPy, LeftPx, RightPy, RightPx
+./bin/reduce_blockwise -D 16,64,32,960 -v 1 1 10
-./example/pool2d_fwd 1 1 10
-=======
-./bin/example_grouped_gemm_xdl_fp16 0 1 5
->>>>>>> 17f80fcf4bb6e6e17f26ec1550aa194b962c50d7:example/14_grouped_gemm/README.md
 ```
-Result 
+Result
 ```
-<<<<<<< HEAD:example/13_pool2d_fwd/README.md
+launch_and_time_kernel: grid_dim {240, 1, 1}, block_dim {256, 1, 1} 
-in_n_c_hi_wi: dim 4, lengths {128, 192, 71, 71}, strides {967872, 1, 13632, 192}
-out_n_c_ho_wo: dim 4, lengths {128, 192, 36, 36}, strides {248832, 1, 6912, 192}
-launch_and_time_kernel: grid_dim {124416, 1, 1}, block_dim {64, 1, 1} 
 Warm up
-Start running 10 times...
+Start running 3 times...
-Perf: 0.415453 ms, 1.37996 TFlops, 749.726 GB/s
+Perf: 0.23536 ms, 267.32 GB/s, DeviceReduceBlockWise<256,M_C4_S1,K_C64_S1,InSrcVectorDim_0_InSrcVectorSize_1_OutDstVectorSize_1>
 error: 0
-max_diff: 0, 1, 1
+max_diff: 0, 529, 529
-=======
+root@dc-smc-18:/data/composable_kernel/Build3# bin/reduce_blockwise -D 16,64,32,960 -v 1 1 10
-gemm[0] a_m_k: dim 2, lengths {256, 64}, strides {64, 1} b_k_n: dim 2, lengths {64, 128}, strides {1, 64} c_m_n: dim 2, lengths {256, 128}, strides {128, 1}
+launch_and_time_kernel: grid_dim {240, 1, 1}, block_dim {256, 1, 1} 
-gemm[1] a_m_k: dim 2, lengths {512, 128}, strides {128, 1} b_k_n: dim 2, lengths {128, 256}, strides {1, 128} c_m_n: dim 2, lengths {512, 256}, strides {256, 1}
-gemm[2] a_m_k: dim 2, lengths {768, 192}, strides {192, 1} b_k_n: dim 2, lengths {192, 384}, strides {1, 192} c_m_n: dim 2, lengths {768, 384}, strides {384, 1}
-gemm[3] a_m_k: dim 2, lengths {1024, 256}, strides {256, 1} b_k_n: dim 2, lengths {256, 512}, strides {1, 256} c_m_n: dim 2, lengths {1024, 512}, strides {512, 1}
-group: 0 arg.a_grid_desc_k0_m_k1_{8, 256, 8}, arg.b_grid_desc_k0_n_k1_{8, 128, 8}, arg.c_grid_desc_m_n_{ 256, 128}
-group: 1 arg.a_grid_desc_k0_m_k1_{16, 512, 8}, arg.b_grid_desc_k0_n_k1_{16, 256, 8}, arg.c_grid_desc_m_n_{ 512, 256}
-group: 2 arg.a_grid_desc_k0_m_k1_{24, 768, 8}, arg.b_grid_desc_k0_n_k1_{24, 384, 8}, arg.c_grid_desc_m_n_{ 768, 384}
-group: 3 arg.a_grid_desc_k0_m_k1_{32, 1024, 8}, arg.b_grid_desc_k0_n_k1_{32, 512, 8}, arg.c_grid_desc_m_n_{ 1024, 512}
-launch_and_time_kernel: grid_dim {30, 1, 1}, block_dim {256, 1, 1} 
 Warm up
-Start running 5 times...
+Start running 10 times...
-Perf: 0.037887 ms, 11.0706 TFlops, 90.8132 GB/s, DeviceGroupedGemmXdl<256, 256, 128, 4, 8, 32, 32, 4, 2>
+Perf: 0.23392 ms, 268.966 GB/s, DeviceReduceBlockWise<256,M_C4_S1,K_C64_S1,InSrcVectorDim_0_InSrcVectorSize_1_OutDstVectorSize_1>
->>>>>>> 17f80fcf4bb6e6e17f26ec1550aa194b962c50d7:example/14_grouped_gemm/README.md
+error: 0
+max_diff: 0, 528, 528
 ```