Fixing rocm gptq by using triton code too (renamed cuda into triton). (#2691)

cece8635 · Nicolas Patry · GitHub · 43df056e · cece8635 · cece8635
Unverified Commit cece8635 authored Oct 25, 2024 by Nicolas Patry Committed by GitHub Oct 25, 2024
Showing with 2 additions and 2 deletions

server/text_generation_server/layers/gptq/__init__.py server/text_generation_server/layers/gptq/__init__.py +2 -2

server/text_generation_server/layers/gptq/triton.py server/text_generation_server/layers/gptq/triton.py +0 -0

No files found.
--- a/server/text_generation_server/layers/gptq/__init__.py
+++ b/server/text_generation_server/layers/gptq/__init__.py
@@ -10,8 +10,8 @@ from text_generation_server.utils.weights import Weight, Weights, WeightsLoader
 if SYSTEM == "ipex":
    from .ipex import QuantLinear
-elif SYSTEM == "cuda":
+elif SYSTEM in {"cuda", "rocm"}:
-    from .cuda import QuantLinear
+    from .triton import QuantLinear
 @dataclass

--- a/server/text_generation_server/layers/gptq/cuda.py
+++ b/server/text_generation_server/layers/gptq/cuda.py