run-rocblas.sh 1.74 KB
Newer Older
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
#!/bin/bash

export HIP_VISIBLE_DEVICES=1

chmod u+x /opt/dtk/lib/rocblas/benchmark_tool/rocblas-bench

PROF_CMD='hipprof --hip-trace'
BENCH_CMD='numactl -m 0 -N 0 /opt/dtk/lib/rocblas/benchmark_tool/rocblas-bench'
BATCH_SIZE=1
LOG_PREFIX=log/trace-rocblas

echo
echo "===== Kernel 1 ====="
#RUN_PROF="${PROF_CMD} -o ${LOG_PREFIX}-k1-bs${BATCH_SIZE}"
${RUN_PROF} ${BENCH_CMD} -f gemm_ex --transposeA T --transposeB N -m 11264 -n ${BATCH_SIZE} -k 4096 --alpha 1 --a_type bf16_r --lda 4096 --b_type bf16_r --ldb 4096 --beta 0 --c_type bf16_r --ldc 11264 --d_type bf16_r --ldd 11264 --compute_type f32_r --algo 0 --solution_index 0 --flags 0

echo
echo "===== Kernel 2 ====="
#RUN_PROF="${PROF_CMD} -o ${LOG_PREFIX}-k2-bs${BATCH_SIZE}"
${RUN_PROF} ${BENCH_CMD} -f gemm_ex --transposeA T --transposeB N -m 4096 -n ${BATCH_SIZE} -k 11264 --alpha 1 --a_type bf16_r --lda 11264 --b_type bf16_r --ldb 11264 --beta 0 --c_type bf16_r --ldc 4096 --d_type bf16_r --ldd 4096 --compute_type f32_r --algo 0 --solution_index 0 --flags 0

echo
echo "===== Kernel 3 ====="
#RUN_PROF="${PROF_CMD} -o ${LOG_PREFIX}-k3-bs${BATCH_SIZE}"
${RUN_PROF} ${BENCH_CMD} -f gemm_ex --transposeA T --transposeB N -m 12288 -n ${BATCH_SIZE} -k 4096 --alpha 1 --a_type bf16_r --lda 4096 --b_type bf16_r --ldb 4096 --beta 0 --c_type bf16_r --ldc 12288 --d_type bf16_r --ldd 12288 --compute_type f32_r --algo 0 --solution_index 0 --flags 0

echo
echo "===== Kernel 4 ====="
#RUN_PROF="${PROF_CMD} -o ${LOG_PREFIX}-k4-bs${BATCH_SIZE}"
${RUN_PROF} ${BENCH_CMD} -f gemm_ex --transposeA T --transposeB N -m 4096 -n ${BATCH_SIZE} -k 4096 --alpha 1 --a_type bf16_r --lda 4096 --b_type bf16_r --ldb 4096 --beta 1 --c_type bf16_r --ldc 4096 --d_type bf16_r --ldd 4096 --compute_type f32_r --algo 0 --solution_index 0 --flags 0