fix kernel build bug

203a74a3 · huangwb · 70056d1e · 203a74a3 · 203a74a3 · 203a74a3
Commit 203a74a3 authored May 29, 2024 by huangwb
Showing with 38 additions and 7 deletions

server/custom_kernels/setup.py server/custom_kernels/setup.py +13 -1

server/exllama_kernels/setup.py server/exllama_kernels/setup.py +15 -0

server/exllamav2_kernels/setup.py server/exllamav2_kernels/setup.py +10 -6

No files found.
--- a/server/custom_kernels/setup.py
+++ b/server/custom_kernels/setup.py
@@ -2,7 +2,19 @@ from setuptools import setup
 from torch.utils.cpp_extension import BuildExtension, CUDAExtension
 import torch

-extra_compile_args = ["-std=c++17"]
+# Compiler flags.
+CXX_FLAGS = ["-g", "-O2", "-std=c++17"]
+# TODO(woosuk): Should we use -O3?
+NVCC_FLAGS = ["-O2", "-std=c++17","--gpu-max-threads-per-block=1024"]
+
+ABI = 1 if torch._C._GLIBCXX_USE_CXX11_ABI else 0
+CXX_FLAGS += [f"-D_GLIBCXX_USE_CXX11_ABI={ABI}"]
+NVCC_FLAGS += [f"-D_GLIBCXX_USE_CXX11_ABI={ABI}"]
+
+extra_compile_args={
+    "cxx": CXX_FLAGS,
+    "nvcc": NVCC_FLAGS,
+}
 if not torch.version.hip:
    extra_compile_args.append("-arch=compute_80")


--- a/server/exllama_kernels/setup.py
+++ b/server/exllama_kernels/setup.py
 from setuptools import setup
 from torch.utils.cpp_extension import BuildExtension, CUDAExtension
+import torch
+# Compiler flags.
+CXX_FLAGS = ["-g", "-O2", "-std=c++17"]
+# TODO(woosuk): Should we use -O3?
+NVCC_FLAGS = ["-O2", "-std=c++17","--gpu-max-threads-per-block=1024"]
+
+ABI = 1 if torch._C._GLIBCXX_USE_CXX11_ABI else 0
+CXX_FLAGS += [f"-D_GLIBCXX_USE_CXX11_ABI={ABI}"]
+NVCC_FLAGS += [f"-D_GLIBCXX_USE_CXX11_ABI={ABI}"]
+
+extra_compile_args={
+    "cxx": CXX_FLAGS,
+    "nvcc": NVCC_FLAGS,
+}

 setup(
    name="exllama_kernels",
@@ -13,6 +27,7 @@ setup(
                "exllama_kernels/cuda_func/q4_matmul.cu",
                "exllama_kernels/cuda_func/q4_matrix.cu",
            ],
+            extra_compile_args=extra_compile_args,
        )
    ],
    cmdclass={"build_ext": BuildExtension},

--- a/server/exllamav2_kernels/setup.py
+++ b/server/exllamav2_kernels/setup.py
@@ -2,14 +2,18 @@ from setuptools import setup
 from torch.utils.cpp_extension import BuildExtension, CUDAExtension
 import torch

-extra_cuda_cflags = ["-lineinfo", "-O3"]
+# Compiler flags.
+CXX_FLAGS = ["-g", "-O2", "-std=c++17"]
+# TODO(woosuk): Should we use -O3?
+NVCC_FLAGS = ["-O2", "-std=c++17","--gpu-max-threads-per-block=1024"]

-if torch.version.hip:
-    extra_cuda_cflags += ["-DHIPBLAS_USE_HIP_HALF"]
-    extra_cuda_cflags += ["-DUSE_ROCM"]
+ABI = 1 if torch._C._GLIBCXX_USE_CXX11_ABI else 0
+CXX_FLAGS += [f"-D_GLIBCXX_USE_CXX11_ABI={ABI}"]
+NVCC_FLAGS += [f"-D_GLIBCXX_USE_CXX11_ABI={ABI}"]

-extra_compile_args = {
-    "nvcc": extra_cuda_cflags,
+extra_compile_args={
+    "cxx": CXX_FLAGS,
+    "nvcc": NVCC_FLAGS,
 }

 setup(