addressing more comments

07ffa1b7 · Mostofa Patwary · df521589 · 07ffa1b7
Commit 07ffa1b7 authored Apr 03, 2023 by Mostofa Patwary
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 4 deletions

megatron/model/transformer.py megatron/model/transformer.py +4 -4

No files found.
--- a/megatron/model/transformer.py
+++ b/megatron/model/transformer.py
@@ -453,8 +453,6 @@ class ParallelAttention(MegatronModule):
            key_layer = inputs[1]
            value_layer = inputs[2]
            attention_mask = inputs[3]
-            rotary_pos_emb = inputs[4] if inputs[4] is None \
-                else (inputs[4], inputs[5])
            output_ = self.core_attention(query_layer, key_layer,
                                          value_layer, attention_mask)
            return output_
@@ -548,8 +546,10 @@ class ParallelAttention(MegatronModule):

        # duplicate the pos_emb for self attention
        if rotary_pos_emb is not None:
-            rotary_pos_emb = rotary_pos_emb if isinstance(rotary_pos_emb, \
-                tuple) else ((rotary_pos_emb,) * 2)
+            if isinstance(rotary_pos_emb, tuple):
+                rotary_pos_emb = rotary_pos_emb
+            else:
+                rotary_pos_emb = ((rotary_pos_emb,) * 2)

        if inference_params:
            batch_start = inference_params.batch_size_offset