merge v0.4.3

b9e12416 · zhuwenwen · e5d707db · e9d3aa04 · b9e12416 · b9e12416
Commit b9e12416 authored May 31, 2024 by zhuwenwen
20 changed files
--- a/csrc/cpu/layernorm.cpp
+++ b/csrc/cpu/layernorm.cpp
@@ -2,10 +2,10 @@
 namespace {
 template <typename scalar_t>
-void rms_norm_impl(scalar_t *__restrict__ out,
+void rms_norm_impl(scalar_t* __restrict__ out,
-                       const scalar_t *__restrict__ input,
+                   const scalar_t* __restrict__ input,
-                       const scalar_t *__restrict__ weight, const float epsilon,
+                   const scalar_t* __restrict__ weight, const float epsilon,
-                       const int num_tokens, const int hidden_size) {
+                   const int num_tokens, const int hidden_size) {
  using scalar_vec_t = vec_op::vec_t<scalar_t>;
  constexpr int VEC_ELEM_NUM = scalar_vec_t::get_elem_num();
  TORCH_CHECK(hidden_size % VEC_ELEM_NUM == 0);
@@ -41,11 +41,11 @@ void rms_norm_impl(scalar_t *__restrict__ out,
 }
 template <typename scalar_t>
-void fused_add_rms_norm_impl(scalar_t *__restrict__ input,
+void fused_add_rms_norm_impl(scalar_t* __restrict__ input,
-                                 scalar_t *__restrict__ residual,
+                             scalar_t* __restrict__ residual,
-                                 const scalar_t *__restrict__ weight,
+                             const scalar_t* __restrict__ weight,
-                                 const float epsilon, const int num_tokens,
+                             const float epsilon, const int num_tokens,
-                                 const int hidden_size) {
+                             const int hidden_size) {
  using scalar_vec_t = vec_op::vec_t<scalar_t>;
  constexpr int VEC_ELEM_NUM = scalar_vec_t::get_elem_num();
  TORCH_CHECK(hidden_size % VEC_ELEM_NUM == 0);
@@ -85,24 +85,24 @@ void fused_add_rms_norm_impl(scalar_t *__restrict__ input,
    }
  }
 }
-} // namespace
+}  // namespace
-void rms_norm(torch::Tensor &out, torch::Tensor &input,
+void rms_norm(torch::Tensor& out, torch::Tensor& input, torch::Tensor& weight,
-                  torch::Tensor &weight, float epsilon) {
+              float epsilon) {
  int hidden_size = input.size(-1);
  int num_tokens = input.numel() / hidden_size;
  VLLM_DISPATCH_FLOATING_TYPES(input.scalar_type(), "rms_norm_impl", [&] {
    CPU_KERNEL_GUARD_IN(rms_norm_impl)
    rms_norm_impl(out.data_ptr<scalar_t>(), input.data_ptr<scalar_t>(),
-                      weight.data_ptr<scalar_t>(), epsilon, num_tokens,
+                  weight.data_ptr<scalar_t>(), epsilon, num_tokens,
-                      hidden_size);
+                  hidden_size);
    CPU_KERNEL_GUARD_OUT(rms_norm_impl)
  });
 }
-void fused_add_rms_norm(torch::Tensor &input, torch::Tensor &residual,
+void fused_add_rms_norm(torch::Tensor& input, torch::Tensor& residual,
-                            torch::Tensor &weight, float epsilon) {
+                        torch::Tensor& weight, float epsilon) {
  int hidden_size = input.size(-1);
  int num_tokens = input.numel() / hidden_size;

--- a/csrc/cpu/pos_encoding.cpp
+++ b/csrc/cpu/pos_encoding.cpp
--- a/csrc/cpu/pybind.cpp
+++ b/csrc/cpu/pybind.cpp
--- a/csrc/cuda_compat.h
+++ b/csrc/cuda_compat.h
--- a/csrc/cuda_utils.h
+++ b/csrc/cuda_utils.h
@@ -2,9 +2,6 @@
 #include <torch/extension.h>
-int get_device_attribute(
+int get_device_attribute(int attribute, int device_id);
-    int attribute,
-    int device_id);
-int get_max_shared_memory_per_block_device_attribute(
+int get_max_shared_memory_per_block_device_attribute(int device_id);
-    int device_id);
--- a/csrc/cuda_utils_kernels.cu
+++ b/csrc/cuda_utils_kernels.cu
--- a/csrc/custom_all_reduce.cu
+++ b/csrc/custom_all_reduce.cu
--- a/csrc/custom_all_reduce.cuh
+++ b/csrc/custom_all_reduce.cuh
--- a/csrc/custom_all_reduce_test.cu
+++ b/csrc/custom_all_reduce_test.cu
--- a/csrc/dispatch_utils.h
+++ b/csrc/dispatch_utils.h
--- a/csrc/layernorm_kernels.cu
+++ b/csrc/layernorm_kernels.cu
--- a/csrc/moe/moe_ops.cpp
+++ b/csrc/moe/moe_ops.cpp
@@ -3,5 +3,6 @@
 #include <torch/extension.h>
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
-  m.def("topk_softmax", &topk_softmax, "Apply topk softmax to the gating outputs.");
+  m.def("topk_softmax", &topk_softmax,
+        "Apply topk softmax to the gating outputs.");
 }
--- a/csrc/moe/moe_ops.h
+++ b/csrc/moe/moe_ops.h
@@ -2,8 +2,6 @@
 #include <torch/extension.h>
-void topk_softmax(
+void topk_softmax(torch::Tensor& topk_weights, torch::Tensor& topk_indices,
-  torch::Tensor& topk_weights,
+                  torch::Tensor& token_expert_indices,
-  torch::Tensor& topk_indices,
+                  torch::Tensor& gating_output);
-  torch::Tensor& token_expert_indices,
-  torch::Tensor& gating_output);
--- a/csrc/moe_align_block_size_kernels.cu
+++ b/csrc/moe_align_block_size_kernels.cu
--- a/csrc/ops.h
+++ b/csrc/ops.h
--- a/csrc/pos_encoding_kernels.cu
+++ b/csrc/pos_encoding_kernels.cu
--- a/csrc/punica/bgmv/bgmv_config.h
+++ b/csrc/punica/bgmv/bgmv_config.h
--- a/csrc/punica/bgmv/bgmv_impl.cuh
+++ b/csrc/punica/bgmv/bgmv_impl.cuh
--- a/csrc/punica/bgmv/vec_dtypes.cuh
+++ b/csrc/punica/bgmv/vec_dtypes.cuh
--- a/csrc/punica/punica_ops.cc
+++ b/csrc/punica/punica_ops.cc