Use hipMemcpy rather than hipMemcpyAsync

Signed-off-by: wenjh <wenjh@sugon.com>

Use hipMemcpy rather than hipMemcpyAsync
Signed-off-by: wenjh <wenjh@sugon.com>
1f97aebb · wenjh · 8665c111 · 1f97aebb
Commit 1f97aebb authored Aug 12, 2025 by wenjh
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

transformer_engine/common/gemm/rocm_gemm.cu transformer_engine/common/gemm/rocm_gemm.cu +2 -2

No files found.
--- a/transformer_engine/common/gemm/rocm_gemm.cu
+++ b/transformer_engine/common/gemm/rocm_gemm.cu
@@ -1610,10 +1610,10 @@ void hipblaslt_goupedgemm(std::vector<const Tensor*>& inputA, std::vector<const
  // Copy them to device memory
  // hipblaslt_ext::UserArguments* d_userArgs;
  // NVTE_CHECK_CUDA(hipMallocAsync(&d_userArgs, m.size() * sizeof(hipblaslt_ext::UserArguments), stream));
-  NVTE_CHECK_CUDA(hipMemcpyAsync(d_userArgs,
+  NVTE_CHECK_CUDA(hipMemcpy(d_userArgs,
                            userArgs,
                            m.size() * sizeof(hipblaslt_ext::UserArguments),
-                            hipMemcpyHostToDevice, stream));
+                            hipMemcpyHostToDevice));
  NVTE_CHECK_HIPBLASLT(groupedgemm.run(d_userArgs, stream));
  // NVTE_CHECK_HIPBLASLT(groupedgemm.initialize(heuristicResult[0].algo, workspace, false, stream));
  // NVTE_CHECK_HIPBLASLT(groupedgemm.run(stream));