[`bnb`] fix `bnb` decoders bug (#21688)

* fix `bnb` decoders bug * make fixup

[`bnb`] fix `bnb` decoders bug (#21688)
* fix `bnb` decoders bug * make fixup
c9a06714 · Younes Belkada · GitHub · f56174ac · c9a06714 · c9a06714
Unverified Commit c9a06714 authored Feb 20, 2023 by Younes Belkada Committed by GitHub Feb 20, 2023
Show whitespace changes
Inline Side-by-side

Showing with 16 additions and 1 deletion

src/transformers/utils/bitsandbytes.py src/transformers/utils/bitsandbytes.py +10 -1

tests/mixed_int8/test_mixed_int8.py tests/mixed_int8/test_mixed_int8.py +6 -0

No files found.
--- a/src/transformers/utils/bitsandbytes.py
+++ b/src/transformers/utils/bitsandbytes.py
@@ -171,4 +171,13 @@ def get_keys_to_not_convert(model):
    intersection = set(list_last_module) - set(tied_keys)
    list_untouched = tied_keys + list(intersection)

-    return [module_name.split(".")[0] for module_name in list_untouched]
+    # remove ".weight" from the keys
+    names_to_remove = [".weight", ".bias"]
+    filtered_module_names = []
+    for name in list_untouched:
+        for name_to_remove in names_to_remove:
+            if name_to_remove in name:
+                name = name.replace(name_to_remove, "")
+        filtered_module_names.append(name)
+
+    return filtered_module_names
--- a/tests/mixed_int8/test_mixed_int8.py
+++ b/tests/mixed_int8/test_mixed_int8.py
@@ -269,10 +269,16 @@ class MixedInt8T5Test(unittest.TestCase):
        `flan-t5-small` uses `T5DenseGatedActDense` whereas `t5-small` uses `T5DenseReluDense`. We need to test
        both cases.
        """
+        import bitsandbytes as bnb
+
        from transformers import T5ForConditionalGeneration

        # test with `t5-small`
        model = T5ForConditionalGeneration.from_pretrained(self.model_name, load_in_8bit=True, device_map="auto")
+
+        # there was a bug with decoders - this test checks that it is fixed
+        self.assertTrue(isinstance(model.decoder.block[0].layer[0].SelfAttention.q, bnb.nn.Linear8bitLt))
+
        encoded_input = self.tokenizer(self.input_text, return_tensors="pt").to(0)
        _ = model.generate(**encoded_input)