marlin: support tp>1 when group_size==-1

0d96468e · Daniël de Kok · Daniël de Kok · 4594e6fa · 0d96468e
Commit 0d96468e authored Jun 06, 2024 by Daniël de Kok Committed by Daniël de Kok Jun 06, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 7 additions and 1 deletion

server/text_generation_server/utils/weights.py server/text_generation_server/utils/weights.py +7 -1

No files found.
--- a/server/text_generation_server/utils/weights.py
+++ b/server/text_generation_server/utils/weights.py
@@ -513,7 +513,13 @@ class Weights:
                    "Cannot load `marlin` weight, make sure the model is already quantized, or quantize it with `text-generation-server quantize ORIGINAL_MODEL_ID NEW_MODEL_ID`"
                )
-            s = self.get_sharded(f"{prefix}.s", dim=0)
+            num_groups = self._get_slice(f"{prefix}.s").get_shape()[0]
+            if num_groups == 1:
+                # The number of groups is 1 when group_size == -1. share
+                # scales between all shards in this case.
+                s = self.get_tensor(f"{prefix}.s")
+            else:
+                s = self.get_sharded(f"{prefix}.s", dim=0)
            weight = MarlinWeight(B=B, s=s)
        else: