Merge branch 'develop' into feature/add-permute-device-op

7b6fb72b · Po-Yen, Chen · 6ba38dd0 · 370efa6c · 7b6fb72b · 7b6fb72b
Commit 7b6fb72b authored Sep 15, 2022 by Po-Yen, Chen
Show whitespace changes
Inline Side-by-side

Showing with 14 additions and 2 deletions

profiler/src/profiler.cpp profiler/src/profiler.cpp +12 -0

script/run_full_performance_tests.sh script/run_full_performance_tests.sh +2 -2

No files found.
--- a/profiler/src/profiler.cpp
+++ b/profiler/src/profiler.cpp
@@ -10,6 +10,8 @@ int profile_gemm_add_add_fastgelu(int, char*[]);
 int profile_gemm_reduce(int, char*[]);
 int profile_gemm_bias_add_reduce(int, char*[]);
 int profile_batched_gemm(int, char*[]);
+int profile_batched_gemm_gemm(int, char*[]);
+int profile_batched_gemm_add_relu_gemm_add(int, char*[]);
 int profile_batched_gemm_reduce(int, char*[]);
 int profile_grouped_gemm(int, char*[]);
 int profile_conv_fwd(int, char*[]);
@@ -32,6 +34,8 @@ static void print_helper_message()
           "                        gemm_reduce: GEMM+Reduce\n"
           "                        gemm_bias_add_reduce: GEMM+Bias+Add+Reduce\n"
           "                        batched_gemm: Batched GEMM\n"
+           "                        batched_gemm_gemm: Batched+GEMM+GEMM\n"
+           "                        batched_gemm_add_relu_gemm_add: Batched+GEMM+bias+gelu+GEMM+bias\n"
           "                        batched_gemm_reduce: Batched GEMM+Reduce\n"
           "                        grouped_gemm: Grouped GEMM\n"
           "                        conv_fwd: Convolution Forward\n"
@@ -80,6 +84,14 @@ int main(int argc, char* argv[])
    {
        return profile_batched_gemm(argc, argv);
    }
+    else if(strcmp(argv[1], "batched_gemm_gemm") == 0)
+    {
+        return profile_batched_gemm_gemm(argc, argv);
+    }
+    else if(strcmp(argv[1], "batched_gemm_add_relu_gemm_add") == 0)
+    {
+        return profile_batched_gemm_add_relu_gemm_add(argc, argv);
+    }
    else if(strcmp(argv[1], "batched_gemm_reduce") == 0)
    {
        return profile_batched_gemm_reduce(argc, argv);

--- a/script/run_full_performance_tests.sh
+++ b/script/run_full_performance_tests.sh
@@ -138,5 +138,5 @@ print_log_header $splitK_gemm_log $env_type $branch $host_name
 #run ONNX gemm tests
 export onnx_log="perf_onnx_gemm_${gpu_arch}.log"
 print_log_header $onnx_log $env_type $branch $host_name
-./profile_onnx_gemm.sh gemm 0 0 $verify 2 0 1 2>&1 | tee -a $onnx_log
+./profile_onnx_gemm.sh gemm 0 0 $verify 1 0 1 2>&1 | tee -a $onnx_log
-./profile_onnx_gemm.sh gemm 1 0 $verify 2 0 1 2>&1 | tee -a $onnx_log
+./profile_onnx_gemm.sh gemm 1 0 $verify 1 0 1 2>&1 | tee -a $onnx_log