GEMV Benchmarks --------------- 模仿 GEMM 接口的 GEMV,即 N=1,实现 BF16 版本。这些矩阵形状来自于 Evo2 推理过程。 计算公式:y = alpha * A^T * x + beta * y - M: 输出维度,例如 11264 - K: 归约维度,例如 4096 - N: 始终为 1 - beta: 为 0 或 1 ## Build ```bash # 使用 HIPCC: make CXX_COMPILER=hipcc GPU_ARCH=gfx936 # 使用 NVCC: make CXX_COMPILER=nvcc GPU_ARCH=sm_80 ``` ## Run ```bash # BW系列: HIP_VISIBLE_DEVICES=1 numactl -N 0 -m 0 ./gemv_bench --verify 1 -M 11264 -K 4096 --alpha 1 --beta 0 -B 128 HIP_VISIBLE_DEVICES=1 numactl -N 0 -m 0 ./gemv_bench --verify 1 -M 4096 -K 11264 --alpha 1 --beta 0 -B 128 HIP_VISIBLE_DEVICES=1 numactl -N 0 -m 0 ./gemv_bench --verify 1 -M 12288 -K 4096 --alpha 1 --beta 0 -B 128 HIP_VISIBLE_DEVICES=1 numactl -N 0 -m 0 ./gemv_bench --verify 1 -M 4096 -K 4096 --alpha 1 --beta 1 -B 128 # A800: ./gemv_bench --verify 1 -M 11264 -K 4096 --alpha 1 --beta 0 -B 256 ./gemv_bench --verify 1 -M 4096 -K 11264 --alpha 1 --beta 0 -B 256 ./gemv_bench --verify 1 -M 12288 -K 4096 --alpha 1 --beta 0 -B 256 ./gemv_bench --verify 1 -M 4096 -K 4096 --alpha 1 --beta 1 -B 256 ```