skip rms_norm_dynamic_per_token_quant

0dc4c8e9 · zhuwenwen · d9ef7ce7 · 0dc4c8e9 · 0dc4c8e9
Commit 0dc4c8e9 authored Mar 19, 2025 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 13 additions and 13 deletions

csrc/ops.h csrc/ops.h +7 -7

csrc/torch_bindings.cpp csrc/torch_bindings.cpp +6 -6

No files found.
--- a/csrc/ops.h
+++ b/csrc/ops.h
@@ -68,13 +68,13 @@ void fused_add_rms_norm(torch::Tensor& input, torch::Tensor& residual,
 //                                          torch::Tensor& weight,
 //                                          torch::Tensor& scale, double epsilon);
-void rms_norm_dynamic_per_token_quant(torch::Tensor& out,
+// void rms_norm_dynamic_per_token_quant(torch::Tensor& out,
-                                      torch::Tensor const& input,
+//                                       torch::Tensor const& input,
-                                      torch::Tensor const& weight,
+//                                       torch::Tensor const& weight,
-                                      torch::Tensor& scales,
+//                                       torch::Tensor& scales,
-                                      double const epsilon,
+//                                       double const epsilon,
-                                      std::optional<torch::Tensor> scale_ub,
+//                                       std::optional<torch::Tensor> scale_ub,
-                                      std::optional<torch::Tensor> residual);
+//                                       std::optional<torch::Tensor> residual);
 void rotary_embedding(torch::Tensor& positions, torch::Tensor& query,
                      torch::Tensor& key, int64_t head_size,

--- a/csrc/torch_bindings.cpp
+++ b/csrc/torch_bindings.cpp
@@ -142,12 +142,12 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
 //            &fused_add_rms_norm_static_fp8_quant);
  // Fused Layernorm + Quant kernels
-  ops.def(
+//   ops.def(
-      "rms_norm_dynamic_per_token_quant(Tensor! result, Tensor input, "
+//       "rms_norm_dynamic_per_token_quant(Tensor! result, Tensor input, "
-      "Tensor weight, Tensor! scale, float epsilon, "
+//       "Tensor weight, Tensor! scale, float epsilon, "
-      "Tensor? scale_ub, Tensor!? residual) -> ()");
+//       "Tensor? scale_ub, Tensor!? residual) -> ()");
-  ops.impl("rms_norm_dynamic_per_token_quant", torch::kCUDA,
+//   ops.impl("rms_norm_dynamic_per_token_quant", torch::kCUDA,
-           &rms_norm_dynamic_per_token_quant);
+//            &rms_norm_dynamic_per_token_quant);
  // Rotary embedding
  // Apply GPT-NeoX or GPT-J style rotary embedding to query and key.