Merge pull request #867 from jph00/patch-2

Avoid double-quantizing when calling `cuda()`

Merge pull request #867 from jph00/patch-2
Avoid double-quantizing when calling `cuda()`
2ee289fb · Titus · GitHub · 744d36f7 · a403c0ed · 2ee289fb
Unverified Commit 2ee289fb authored Dec 03, 2023 by Titus Committed by GitHub Dec 03, 2023
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 0 deletions

bitsandbytes/nn/modules.py bitsandbytes/nn/modules.py +2 -0

No files found.
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -165,6 +165,8 @@ class Params4bit(torch.nn.Parameter):
        return self

    def cuda(self, device):
+        if self.quant_state is not None:
+            return self
        w = self.data.contiguous().half().cuda(device)
        w_4bit, quant_state = bnb.functional.quantize_4bit(w, blocksize=self.blocksize, compress_statistics=self.compress_statistics, quant_type=self.quant_type)
        self.data = w_4bit