Avoid double-quantizing when calling `cuda()`

a403c0ed · Jeremy Howard · GitHub · 726f1470 · a403c0ed
Unverified Commit a403c0ed authored Nov 10, 2023 by Jeremy Howard Committed by GitHub Nov 10, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 0 deletions

bitsandbytes/nn/modules.py bitsandbytes/nn/modules.py +2 -0

No files found.
--- a/bitsandbytes/nn/modules.py
+++ b/bitsandbytes/nn/modules.py
@@ -165,6 +165,8 @@ class Params4bit(torch.nn.Parameter):
        return self
    def cuda(self, device):
+        if self.quant_state is not None:
+            return self
        w = self.data.contiguous().half().cuda(device)
        w_4bit, quant_state = bnb.functional.quantize_4bit(w, blocksize=self.blocksize, compress_statistics=self.compress_statistics, quant_type=self.quant_type)
        self.data = w_4bit