Remove cudaStreamSync. call from transformer_engine.cpp (#1518)

* Remove cudaStreamSync. call Signed-off-by: Vasudevan Rengasamy <vrengasamy@nvidia.com> * Use cudaMemsetAsync instead of cudaMemcpyAsync Signed-off-by: Vasudevan Rengasamy <vrengasamy@nvidia.com> * Update transformer_engine/common/transformer_engine.cpp Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com> Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Vasudevan Rengasamy <vrengasamy@nvidia.com> Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

Remove cudaStreamSync. call from transformer_engine.cpp (#1518)
* Remove cudaStreamSync. call Signed-off-by: Vasudevan Rengasamy <vrengasamy@nvidia.com> * Use cudaMemsetAsync instead of cudaMemcpyAsync Signed-off-by: Vasudevan Rengasamy <vrengasamy@nvidia.com> * Update transformer_engine/common/transformer_engine.cpp Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com> Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Vasudevan Rengasamy <vrengasamy@nvidia.com> Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
13bd745b · vasunvidia · GitHub · 97100139 · 13bd745b
Unverified Commit 13bd745b authored Mar 06, 2025 by vasunvidia Committed by GitHub Mar 06, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 3 deletions

transformer_engine/common/transformer_engine.cpp transformer_engine/common/transformer_engine.cpp +1 -3

No files found.
--- a/transformer_engine/common/transformer_engine.cpp
+++ b/transformer_engine/common/transformer_engine.cpp
@@ -407,8 +407,6 @@ void nvte_zero_tensor(const NVTETensor tensor, cudaStream_t stream) {
  }
  // Set amax to 0 if allocated
  if (t.amax.dptr != nullptr) {
-    float zero = 0.0f;
-    cudaMemcpyAsync(t.amax.dptr, &zero, sizeof(float), cudaMemcpyHostToDevice, stream);
+    cudaMemsetAsync(t.amax.dptr, 0, sizeof(float), stream);
  }
-  cudaStreamSynchronize(stream);
 }