make build_mpt_alibi_tensor a method of MptModel so that deepspeed co… (#25193)

make build_mpt_alibi_tensor a method of MptModel so that deepspeed could override it to make autoTP work Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>

make build_mpt_alibi_tensor a method of MptModel so that deepspeed co… (#25193)
make build_mpt_alibi_tensor a method of MptModel so that deepspeed could override it to make autoTP work Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>
4033ea71 · Wang, Yi · GitHub · 0fd8d2aa · 4033ea71
Unverified Commit 4033ea71 authored Aug 01, 2023 by Wang, Yi Committed by GitHub Aug 01, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 1 deletion

src/transformers/models/mpt/modeling_mpt.py src/transformers/models/mpt/modeling_mpt.py +4 -1

No files found.
--- a/src/transformers/models/mpt/modeling_mpt.py
+++ b/src/transformers/models/mpt/modeling_mpt.py
@@ -413,6 +413,9 @@ class MptModel(MptPreTrainedModel):
    def get_input_embeddings(self):
        return self.wte
+    def build_mpt_alibi_tensor(self, num_heads, sequence_length, alibi_bias_max=8, device=None):
+        return build_mpt_alibi_tensor(num_heads, sequence_length, alibi_bias_max, device)
    def _prepare_attn_mask(
        self, attention_mask: torch.Tensor, input_shape: Tuple[int, int], past_key_values_length: int
    ) -> torch.BoolTensor:
@@ -507,7 +510,7 @@ class MptModel(MptPreTrainedModel):
        else:
            attention_mask = attention_mask.to(hidden_states.device)
-        alibi = build_mpt_alibi_tensor(self.num_heads, self.config.max_seq_len, device=hidden_states.device)
+        alibi = self.build_mpt_alibi_tensor(self.num_heads, self.config.max_seq_len, device=hidden_states.device)
        causal_mask = self._prepare_attn_mask(
            attention_mask,