[WIP] Add support for Mistral-Nemo by supporting head_dim through config (#2254)

* Support passing head_dim through config * Using `head_dim` as a fallback is necessary since it's a non standard key in mistralConfig (as defined in transformers). * Shorter diff. --------- Co-authored-by: Nicolas Patry <patry.nicolas@protonmail.com>

[WIP] Add support for Mistral-Nemo by supporting head_dim through config (#2254)
* Support passing head_dim through config * Using `head_dim` as a fallback is necessary since it's a non standard key in mistralConfig (as defined in transformers). * Shorter diff. --------- Co-authored-by: Nicolas Patry <patry.nicolas@protonmail.com>
3961e323 · shaltielshmid · GitHub · 9935720c · 3961e323
Unverified Commit 3961e323 authored Jul 23, 2024 by shaltielshmid Committed by GitHub Jul 23, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 4 deletions

server/text_generation_server/models/custom_modeling/flash_mistral_modeling.py ...n_server/models/custom_modeling/flash_mistral_modeling.py +3 -4

No files found.
--- a/server/text_generation_server/models/custom_modeling/flash_mistral_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_mistral_modeling.py
@@ -149,15 +149,14 @@ class MistralAttention(torch.nn.Module):
            bias=False,
        )
-        head_size = config.hidden_size // config.num_attention_heads
        self.query_key_value = TensorParallelMultiAdapterLinear.load(
            query_key_value,
            layer_id,
            ["q_proj", "k_proj", "v_proj"],
            sizes=[
-                head_size * config.num_attention_heads,
+                self.head_size * config.num_attention_heads,
-                head_size * config.num_key_value_heads,
+                self.head_size * config.num_key_value_heads,
-                head_size * config.num_key_value_heads,
+                self.head_size * config.num_key_value_heads,
            ],
            process_group=weights.process_group,
        )