Blame · server/vllm/csrc/quantization.cpp · 70056d1e9c53dc85d00690cd20fab22f26fbbc46 · OpenDAS / text-generation-inference · GitLab

Switch branch/tag

text-generation-inference

server

vllm

csrc

quantization.cpp
Find file
Normal viewHistoryPermalink

quantization.cpp

303 Bytes

Newer

Older

add custom vllm source code

huangwb
committed
May 29, 2024

#include <torch/extension.h>

torch::Tensor awq_gemm(
  torch::Tensor _in_feats,
  torch::Tensor _kernel,
  torch::Tensor _scaling_factors,
  torch::Tensor _zeros,
  int split_k_iters);

PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
  m.def(
    "awq_gemm",
    &awq_gemm,
    "Quantized GEMM for AWQ");
}