Replace all the interfaces of Triton with the implementation of ExLlamaV2

c5eae25b · xuxzh1 · bb9e670a · c5eae25b
Commit c5eae25b authored Jan 24, 2025 by xuxzh1 🎱
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 4 deletions

server/text_generation_server/layers/gptq/__init__.py server/text_generation_server/layers/gptq/__init__.py +4 -4

No files found.
--- a/server/text_generation_server/layers/gptq/__init__.py
+++ b/server/text_generation_server/layers/gptq/__init__.py
@@ -171,7 +171,7 @@ class GPTQWeightsLoader(WeightsLoader):
            g_idx=g_idx,
            bits=self.bits,
            groupsize=self.groupsize,
-            use_exllama=use_exllama,
+            use_exllama=True,
        )

    def get_weights_col_packed(
@@ -227,7 +227,7 @@ class GPTQWeightsLoader(WeightsLoader):
            bits=self.bits,
            groupsize=self.groupsize,
            use_awq_kernel=self.quantize == "awq",
-            use_exllama=False,
+            use_exllama=True,
        )

    def get_multi_weights_col(self, weights: Weights, prefixes: List[str], dim: int):
@@ -294,7 +294,7 @@ class GPTQWeightsLoader(WeightsLoader):
            bits=self.bits,
            groupsize=self.groupsize,
            use_awq_kernel=self.quantize == "awq",
-            use_exllama=use_exllama,
+            use_exllama=True,
        )

    def get_weights_row(self, weights: Weights, prefix: str):
@@ -394,7 +394,7 @@ class GPTQWeightsLoader(WeightsLoader):
            bits=self.bits,
            groupsize=self.groupsize,
            use_awq_kernel=self.quantize == "awq",
-            use_exllama=use_exllama,
+            use_exllama=True,
        )

    def _get_gptq_params(self, weights: Weights):