Support GEMM benchmark on Hopper GPUs (#456)

Support GEMM benchmark on Hopper GPUs.

Support GEMM benchmark on Hopper GPUs (#456)
Support GEMM benchmark on Hopper GPUs.
fc661f7d · Yifan Xiong · GitHub · 616e7a5a · fc661f7d
Unverified Commit fc661f7d authored Jan 03, 2023 by Yifan Xiong Committed by GitHub Jan 03, 2023
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 0 deletions

superbench/benchmarks/micro_benchmarks/cuda_gemm_flops_performance.py ...enchmarks/micro_benchmarks/cuda_gemm_flops_performance.py +2 -0

No files found.
--- a/superbench/benchmarks/micro_benchmarks/cuda_gemm_flops_performance.py
+++ b/superbench/benchmarks/micro_benchmarks/cuda_gemm_flops_performance.py
@@ -47,6 +47,8 @@ class CudaGemmFlopsBenchmark(GemmFlopsBenchmark):
        # Skip FP64 for RTX Turing/Ampere and Tesla T4/GA10x due to very limited FP64 TFLOP rate
        self.__kernel_map[7.5] = {k: self.__kernel_map[7.0][k] for k in self.__kernel_map[7.0] if 'fp64' not in k}
        self.__kernel_map[8.6] = {k: self.__kernel_map[8.0][k] for k in self.__kernel_map[8.0] if 'fp64' not in k}
+        # Skip INT4 for Hopper due to no native CUDA/Tensor Cores
+        self.__kernel_map[9.0] = {k: self.__kernel_map[8.0][k] for k in self.__kernel_map[8.0] if 'int4_tc' not in k}
        self.__parse_logline = [
            'gemm,cutlass_simt_dgemm_128x128_8x2', 'gemm,cutlass_simt_sgemm_128x128_8x2',
            'gemm,cutlass_simt_hgemm_256x128_8x2', 'gemm,cutlass_tensorop_d884gemm_128x128_16x3',