Support tied embeddings in 0.5B and 1.5B Qwen2 models (#2313)

4b49c50f · Daniël de Kok · GitHub · 3905f854 · 4b49c50f
Unverified Commit 4b49c50f authored Jul 26, 2024 by Daniël de Kok Committed by GitHub Jul 26, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 9 additions and 5 deletions

server/text_generation_server/models/custom_modeling/flash_qwen2_modeling.py ...ion_server/models/custom_modeling/flash_qwen2_modeling.py +9 -5

No files found.
--- a/server/text_generation_server/models/custom_modeling/flash_qwen2_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_qwen2_modeling.py
@@ -262,6 +262,9 @@ class Qwen2Layer(nn.Module):
 class Qwen2Model(torch.nn.Module):
    def __init__(self, prefix: str, config, weights):
        super().__init__()
+        prefix = f"{prefix}.model" if prefix else "model"
        process_group = weights.process_group
        self.tp_rank = process_group.rank()
        self.tp_world_size = process_group.size()
@@ -335,15 +338,16 @@ class Qwen2ForCausalLM(torch.nn.Module):
    def __init__(self, prefix: str, config, weights):
        super().__init__()
-        if not prefix:
+        self.model = Qwen2Model(prefix, config, weights)
-            prefix = "model"
+        if config.tie_word_embeddings:
+            suffix = "model.embed_tokens"
        else:
-            prefix = f"{prefix}.model"
+            suffix = "lm_head"
-        self.model = Qwen2Model(prefix, config, weights)
        self.lm_head = SpeculativeHead.load(
            config,
-            prefix="lm_head",
+            prefix=f"{prefix}.{suffix}" if prefix else suffix,
            weights=weights,
        )
        self.max_past = config.sliding_window