Merge pull request #71 from Azure-Tang/main

[fix] Fix qlen > chunk_size mask is none error

Merge pull request #71 from Azure-Tang/main
[fix] Fix qlen > chunk_size mask is none error
be81269e · UnicornChan · GitHub · 022b8938 · c55de02f · be81269e
Unverified Commit be81269e authored Sep 02, 2024 by UnicornChan Committed by GitHub Sep 02, 2024
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

ktransformers/operators/attention.py ktransformers/operators/attention.py +2 -2

No files found.
--- a/ktransformers/operators/attention.py
+++ b/ktransformers/operators/attention.py
@@ -195,11 +195,11 @@ class KDeepseekV2Attention(BaseInjectedModule, DeepseekV2Attention):
                        [:,:min(self.chunck_size, min(past_key_value.max_cache_len-cur_idx, self.chunck_size))]
                self.attn_mask[:, :, :, cur_idx+self.chunck_size:] = -1e+38
                self.attn_mask[:, :, :, :cur_idx] = 0
-                chunck_mask = torch.narrow(self.attn_mask, 2, 0, min(self.chunck_size, q_len-cur_idx))
+                chunk_mask = torch.narrow(self.attn_mask, 2, 0, min(self.chunck_size, q_len-cur_idx))

            cur_output, _, _ = self.forward_chunck(
                            hidden_states[:, cur_idx:min(cur_idx + self.chunck_size, q_len), ...],
-                            chunck_mask,
+                            chunk_mask,
                            position_ids[:, cur_idx:min(cur_idx + self.chunck_size, q_len)],
                            past_key_value,
                            output_attentions,