[Bugfix] Enable Proper `attention_bias` Usage in Llama Model Configuration (#3767)

Co-authored-by: roy <jasonailu87@gmail.com>

[Bugfix] Enable Proper `attention_bias` Usage in Llama Model Configuration (#3767)
Co-authored-by: roy <jasonailu87@gmail.com>
bc0c0192 · Kiran R · GitHub · f46864d6 · bc0c0192
Unverified Commit bc0c0192 authored Apr 09, 2024 by Kiran R Committed by GitHub Apr 08, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 1 deletion

vllm/model_executor/models/llama.py vllm/model_executor/models/llama.py +5 -1

No files found.
--- a/vllm/model_executor/models/llama.py
+++ b/vllm/model_executor/models/llama.py
@@ -184,6 +184,10 @@ class LlamaDecoderLayer(nn.Module):
        max_position_embeddings = getattr(config, "max_position_embeddings",
                                          8192)
        sliding_window = getattr(config, "sliding_window", None)
+        # Support abacusai/Smaug-72B-v0.1 with attention_bias
+        # Support internlm/internlm-7b with bias
+        attention_bias = getattr(config, "attention_bias", False) or getattr(
+            config, "bias", False)
        self.self_attn = LlamaAttention(
            hidden_size=self.hidden_size,
            num_heads=config.num_attention_heads,
@@ -193,7 +197,7 @@ class LlamaDecoderLayer(nn.Module):
            rope_scaling=rope_scaling,
            max_position_embeddings=max_position_embeddings,
            linear_method=linear_method,
-            bias=getattr(config, "bias", False),
+            bias=attention_bias,
            sliding_window=sliding_window,
        )
        self.mlp = LlamaMLP(