remove d2d copies (#64)

* remove d2d copies Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * cleanup Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

remove d2d copies (#64)
* remove d2d copies Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * cleanup Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
58f19082 · Kirthi Shankar Sivamani · GitHub · c126396b · 58f19082
Unverified Commit 58f19082 authored Feb 02, 2023 by Kirthi Shankar Sivamani Committed by GitHub Feb 02, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 9 additions and 11 deletions

transformer_engine/pytorch/csrc/ts_fp8_op.cpp transformer_engine/pytorch/csrc/ts_fp8_op.cpp +9 -11

No files found.
--- a/transformer_engine/pytorch/csrc/ts_fp8_op.cpp
+++ b/transformer_engine/pytorch/csrc/ts_fp8_op.cpp
@@ -30,7 +30,7 @@ at::Tensor cast_to_fp8_ts(const at::Tensor &input,
                                   amax[0][fp8_tensor],
                                   scale_inv[fp8_tensor],
                                   otype_arg);
-  return output.clone();
+  return output;
 }
 at::Tensor cast_from_fp8_ts(const at::Tensor &input,
@@ -44,7 +44,7 @@ at::Tensor cast_from_fp8_ts(const at::Tensor &input,
                                    scale_inv[fp8_tensor],
                                    itype_arg,
                                    otype_arg);
-  return output.clone();
+  return output;
 }
 at::Tensor fp8_gelu_ts(at::Tensor input,
@@ -59,7 +59,7 @@ at::Tensor fp8_gelu_ts(at::Tensor input,
                               amax[0][fp8_tensor],
                               scale_inv[fp8_tensor],
                               otype_arg);
-  return output.clone();
+  return output;
 }
 at::Tensor te_gemm_ts(at::Tensor A,
@@ -92,20 +92,18 @@ at::Tensor te_gemm_ts(at::Tensor A,
  bool accumulate_arg = static_cast<bool>(accumulate);
  bool use_split_accumulator_arg = static_cast<bool>(use_split_accumulator);
-  at::Tensor A_scale_inverse_arg = A_scale_inverse.clone();
  if (A_scale_inverse.numel())
-    A_scale_inverse_arg = A_scale_inverse[A_fp8_tensor];
+    A_scale_inverse = A_scale_inverse[A_fp8_tensor];
-  at::Tensor B_scale_inverse_arg = B_scale_inverse.clone();
  if (B_scale_inverse.numel())
-    B_scale_inverse_arg = B_scale_inverse[B_fp8_tensor];
+    B_scale_inverse = B_scale_inverse[B_fp8_tensor];
  te_gemm(A,
-          A_scale_inverse_arg,
+          A_scale_inverse,
          A_type_arg,
          transa_arg,
          B,
-          B_scale_inverse_arg,
+          B_scale_inverse,
          B_type_arg,
          transb_arg,
          D,
@@ -141,7 +139,7 @@ at::Tensor layernorm_fwd_fp8_inf_ts(const at::Tensor &input,
                                            scale_inv,
                                            otype_arg);
-  return output.clone();
+  return output;
 }
 at::Tensor layernorm_fwd_inf_ts(const at::Tensor &input,
@@ -155,7 +153,7 @@ at::Tensor layernorm_fwd_inf_ts(const at::Tensor &input,
                                        bias,
                                        eps_float);
-  return output.clone();
+  return output;
 }
 TORCH_LIBRARY(tex_ts, m) {