Add CPU-loaded multi-GPU quantization (#289)

46415f5a · Blake Wyatt · GitHub · 2edb3f6f · 46415f5a
Unverified Commit 46415f5a authored Jan 04, 2024 by Blake Wyatt Committed by GitHub Jan 04, 2024
Show whitespace changes
Inline Side-by-side

Showing with 8 additions and 2 deletions

awq/quantize/quantizer.py awq/quantize/quantizer.py +8 -2

No files found.
--- a/awq/quantize/quantizer.py
+++ b/awq/quantize/quantizer.py
@@ -81,9 +81,15 @@ class AwqQuantizer:
            # Move module and inputs to correct device
            common_device = next(self.modules[i].parameters()).device
            if common_device is None or str(common_device) == "cpu":
-                self.modules[i] = self.modules[i].cuda()
+                self.modules[i] = self.modules[i].cuda("cuda:" + str(i % torch.cuda.device_count()))
                common_device = next(self.modules[i].parameters()).device
+            if self.module_kwargs.get("position_ids") is not None:
+                self.module_kwargs["position_ids"] = self.module_kwargs["position_ids"].to(common_device)
+            if self.module_kwargs.get("attention_mask") is not None:
+                self.module_kwargs["attention_mask"] = self.module_kwargs["attention_mask"].to(common_device)
            self.inps = self.inps.to(common_device)
            # [STEP 1]: Get layer, extract linear modules, extract input features