Merge branch 'develop_v2.5'

554296b4 · wenjh · dcb27bde · 1f97aebb · 554296b4
Commit 554296b4 authored Aug 12, 2025 by wenjh
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

transformer_engine/common/gemm/rocm_gemm.cu transformer_engine/common/gemm/rocm_gemm.cu +2 -2

No files found.
--- a/transformer_engine/common/gemm/rocm_gemm.cu
+++ b/transformer_engine/common/gemm/rocm_gemm.cu
@@ -1610,10 +1610,10 @@ void hipblaslt_goupedgemm(std::vector<const Tensor*>& inputA, std::vector<const
  // Copy them to device memory
  // hipblaslt_ext::UserArguments* d_userArgs;
  // NVTE_CHECK_CUDA(hipMallocAsync(&d_userArgs, m.size() * sizeof(hipblaslt_ext::UserArguments), stream));
-  NVTE_CHECK_CUDA(hipMemcpyAsync(d_userArgs,
+  NVTE_CHECK_CUDA(hipMemcpy(d_userArgs,
                            userArgs,
                            m.size() * sizeof(hipblaslt_ext::UserArguments),
-                            hipMemcpyHostToDevice, stream));
+                            hipMemcpyHostToDevice));
  NVTE_CHECK_HIPBLASLT(groupedgemm.run(d_userArgs, stream));
  // NVTE_CHECK_HIPBLASLT(groupedgemm.initialize(heuristicResult[0].algo, workspace, false, stream));
  // NVTE_CHECK_HIPBLASLT(groupedgemm.run(stream));