[PyTorch] Relax the contiguous check for flash attention (#1176)

* relax contiguous check for flash attention Signed-off-by: Xin Yao <xiny@nvidia.com> * force contiguous for cp Signed-off-by: Xin Yao <xiny@nvidia.com> --------- Signed-off-by: Xin Yao <xiny@nvidia.com>

[PyTorch] Relax the contiguous check for flash attention (#1176)
* relax contiguous check for flash attention Signed-off-by: Xin Yao <xiny@nvidia.com> * force contiguous for cp Signed-off-by: Xin Yao <xiny@nvidia.com> --------- Signed-off-by: Xin Yao <xiny@nvidia.com>
0ee5ccda · Xin Yao · GitHub · c0caadbe · 0ee5ccda
Unverified Commit 0ee5ccda authored Sep 19, 2024 by Xin Yao Committed by GitHub Sep 18, 2024
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 11 deletions

transformer_engine/pytorch/attention.py transformer_engine/pytorch/attention.py +6 -11

No files found.
--- a/transformer_engine/pytorch/attention.py
+++ b/transformer_engine/pytorch/attention.py
@@ -4881,20 +4881,19 @@ class FlashAttention(torch.nn.Module):
                    )
                else:
                    query_layer, key_layer, value_layer = [
-                        x.transpose(0, 1).contiguous()
+                        x.transpose(0, 1) for x in (query_layer, key_layer, value_layer)
-                        for x in (query_layer, key_layer, value_layer)
                    ]
-            elif qkv_format in ["bshd", "thd"]:
+            if context_parallel:
                query_layer, key_layer, value_layer = [
                    x.contiguous() for x in (query_layer, key_layer, value_layer)
                ]
        else:
            if qkv_format == "sbhd":
                query_layer._data, key_layer._data, value_layer._data = [
-                    x.transpose(0, 1).contiguous()
+                    x.transpose(0, 1)
                    for x in (query_layer._data, key_layer._data, value_layer._data)
                ]
-            elif qkv_format in ["bshd", "thd"]:
+            if context_parallel:
                query_layer._data, key_layer._data, value_layer._data = [
                    x.contiguous() for x in (query_layer._data, key_layer._data, value_layer._data)
                ]
@@ -5092,11 +5091,7 @@ class FlashAttention(torch.nn.Module):
                output.reshape(batch_size * max_seqlen_q // cp_size, -1).transpose_2d()
                output = output.reshape(batch_size, max_seqlen_q // cp_size, -1)
            else:
-                output = (
+                output = output.view(batch_size, max_seqlen_q // cp_size, -1).transpose(0, 1)
-                    output.view(batch_size, max_seqlen_q // cp_size, -1)
-                    .transpose(0, 1)
-                    .contiguous()
-                )
        elif qkv_format == "bshd":
            # (bs)hd -> bs(hd)
            output = output.reshape(batch_size, max_seqlen_q // cp_size, -1)
@@ -5104,7 +5099,7 @@ class FlashAttention(torch.nn.Module):
            # thd -> t(hd)
            output = output.reshape(output.shape[0], -1)
-        return output
+        return output.contiguous()
 def _combine_tensors(