Rely on accelerate.dispatch_model() only

ffaaa259 · s4rduk4r · 91de3bfa · ffaaa259
Commit ffaaa259 authored Sep 27, 2023 by s4rduk4r
Hide whitespace changes
Inline Side-by-side

Showing with 9 additions and 16 deletions

awq/models/base.py awq/models/base.py +9 -16

No files found.
--- a/awq/models/base.py
+++ b/awq/models/base.py
@@ -168,23 +168,16 @@ class BaseAWQForCausalLM(nn.Module):
        )
        
        # Dispath to devices
-        if max_memory is None:
-            # VRAM only
-            model = simple_dispatch_model(model, device_map)
+        if fuse_layers:
+            self.fuse_layers(model, quant_config)

-            if fuse_layers:
-                self.fuse_layers(model, quant_config)
-        else:
-            if fuse_layers:
-                self.fuse_layers(model, quant_config)
-
-            # Offloading dispatch
-            from accelerate import dispatch_model
-            model = dispatch_model(
-                model,
-                device_map=device_map,
-                offload_dir=offload_folder
-            )
+        # Offloading dispatch
+        from accelerate import dispatch_model
+        model = dispatch_model(
+            model,
+            device_map=device_map,
+            offload_dir=offload_folder
+        )
        

        return self(model, model_type, is_quantized=is_quantized, quant_config=quant_config)