Merge branch 'develop_v2.4' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine

3b0a1009 · yuguo · 686af9c3 · 00738a42 · 3b0a1009
Commit 3b0a1009 authored Jul 17, 2025 by yuguo
Hide whitespace changes
Inline Side-by-side

Showing with 7 additions and 0 deletions

transformer_engine/common/include/transformer_engine/gemm.h transformer_engine/common/include/transformer_engine/gemm.h +7 -0

No files found.
--- a/transformer_engine/common/include/transformer_engine/gemm.h
+++ b/transformer_engine/common/include/transformer_engine/gemm.h
@@ -111,6 +111,13 @@ void nvte_multi_stream_cublas_gemm(const NVTETensor* A, const NVTETensor* B, NVT
                                   cudaStream_t stream);

 #ifdef __HIP_PLATFORM_AMD__
+void nvte_grouped_gemm(const NVTETensor *A, const NVTETensor *B, NVTETensor *D,
+                                   const NVTETensor *bias, NVTETensor *pre_gelu_out,
+                                   const int num_gemms, bool transa, bool transb, bool grad,
+                                   NVTETensor *workspace, bool accumulate,
+                                   bool use_split_accumulator, int math_sm_count,
+                                   cudaStream_t stream);
+                                   
 void nvte_multi_stream_cublas_batchgemm(const NVTETensor* A, const NVTETensor* B, NVTETensor* D,
                                   const NVTETensor* bias, NVTETensor* pre_gelu_out,
                                   const int num_gemms, bool transa, bool transb, bool grad,