[Major] Add CPU offloading support for apply_scale, apply_clip,...

[Major] Add CPU offloading support for apply_scale, apply_clip, pseudo_quantize_model_weight, real_quantize_model_weight

[Major] Add CPU offloading support for apply_scale, apply_clip,...
[Major] Add CPU offloading support for apply_scale, apply_clip, pseudo_quantize_model_weight, real_quantize_model_weight
d32095ab · Abhinav Kulkarni · 95cd9c2d · d32095ab
Commit d32095ab authored Jul 01, 2023 by Abhinav Kulkarni
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 0 deletions

awq/quantize/auto_clip.py awq/quantize/auto_clip.py +2 -0

No files found.
--- a/awq/quantize/auto_clip.py
+++ b/awq/quantize/auto_clip.py
@@ -75,9 +75,11 @@ def auto_clip_block(module,
        # due to qk bmm, it is hard to clip precisely
        if any([_ in name for _ in ["q_", "k_", "query", "key", "Wqkv"]]):
            continue
+        named_linears[name].cuda()
        max_val = auto_clip_layer(
            named_linears[name].weight, input_feat[name], n_bit=w_bit, q_config=q_config)
        clip_list.append((name, max_val))
+        named_linears[name].cpu()
    return clip_list