Merge pull request #222 from beiwang2003/main

FP16 fixes

Merge pull request #222 from beiwang2003/main
FP16 fixes
9082c254 · Gustaf Ahdritz · GitHub · 499b9a84 · 4d5fa31c · 9082c254
Unverified Commit 9082c254 authored Sep 27, 2022 by Gustaf Ahdritz Committed by GitHub Sep 27, 2022
5 changed files
--- a/openfold/model/heads.py
+++ b/openfold/model/heads.py
@@ -137,7 +137,7 @@ class DistogramHead(nn.Module):

        self.linear = Linear(self.c_z, self.no_bins, init="final")

-    def forward(self, z):  # [*, N, N, C_z]
+    def _forward(self, z):  # [*, N, N, C_z]
        """
        Args:
            z:
@@ -149,8 +149,16 @@ class DistogramHead(nn.Module):
        logits = self.linear(z)
        logits = logits + logits.transpose(-2, -3)
        return logits
-
-
+    
+    def forward(self, z):
+        
+        float16_enabled = (torch.get_autocast_gpu_dtype() == torch.float16)
+        if float16_enabled and torch.is_autocast_enabled():
+            with torch.cuda.amp.autocast(enabled=False):
+                return self._forward(z.float())
+        else:
+            return self._forward(z)
+        
 class TMScoreHead(nn.Module):
    """
    For use in computation of TM-score, subsection 1.9.7

--- a/openfold/model/outer_product_mean.py
+++ b/openfold/model/outer_product_mean.py
@@ -93,7 +93,7 @@ class OuterProductMean(nn.Module):

        return outer

-    def forward(self, 
+    def _forward(self, 
        m: torch.Tensor, 
        mask: Optional[torch.Tensor] = None,
        chunk_size: Optional[int] = None,
@@ -143,3 +143,18 @@ class OuterProductMean(nn.Module):
            outer = outer / norm

        return outer
+
+    def forward(self,
+                m: torch.Tensor,
+                mask: Optional[torch.Tensor] = None,
+                chunk_size: Optional[int] = None,
+                inplace_safe: bool = False,
+    ) -> torch.Tensor:
+
+        float16_enabled = (torch.get_autocast_gpu_dtype() == torch.float16)
+        if float16_enabled and torch.is_autocast_enabled():
+            with torch.cuda.amp.autocast(enabled=False):
+                return self._forward(m.float(), mask, chunk_size, inplace_safe)
+        else:
+            return self._forward(m, mask, chunk_size, inplace_safe)
+        
--- a/openfold/model/primitives.py
+++ b/openfold/model/primitives.py
@@ -479,6 +479,9 @@ class Attention(nn.Module):
        q, k, v = self._prep_qkv(q_x, kv_x)

        # [*, Q, H, C_hidden]
+        float16_enabled = (torch.get_autocast_gpu_dtype() == torch.float16)
+        if float16_enabled:
+            use_memory_efficient_kernel = False
        if(use_memory_efficient_kernel):
            if(len(biases) > 2):
                raise ValueError(

--- a/openfold/model/structure_module.py
+++ b/openfold/model/structure_module.py
@@ -312,10 +312,18 @@ class InvariantPointAttention(nn.Module):
            z[0] = z[0].cpu()

        # [*, H, N_res, N_res]
-        a = torch.matmul(
-            permute_final_dims(q, (1, 0, 2)),  # [*, H, N_res, C_hidden]
-            permute_final_dims(k, (1, 2, 0)),  # [*, H, C_hidden, N_res]
-        )
+        float16_enabled = (torch.get_autocast_gpu_dtype() == torch.float16)
+        if float16_enabled and torch.is_autocast_enabled():
+            with torch.cuda.amp.autocast(enabled=False):
+                a = torch.matmul(
+                    permute_final_dims(q.float(), (1, 0, 2)),  # [*, H, N_res, C_hidden]
+                    permute_final_dims(k.float(), (1, 2, 0)),  # [*, H, C_hidden, N_res]
+                )
+        else:
+            a = torch.matmul(
+                permute_final_dims(q, (1, 0, 2)),  # [*, H, N_res, C_hidden]
+                permute_final_dims(k, (1, 2, 0)),  # [*, H, C_hidden, N_res]
+            )
        a *= math.sqrt(1.0 / (3 * self.c_hidden))
        a += (math.sqrt(1.0 / 3) * permute_final_dims(b, (2, 0, 1)))


--- a/openfold/model/triangular_multiplicative_update.py
+++ b/openfold/model/triangular_multiplicative_update.py
@@ -391,7 +391,12 @@ class TriangleMultiplicativeUpdate(nn.Module):
        b = mask
        b = b * self.sigmoid(self.linear_b_g(z))
        b = b * self.linear_b_p(z)
-        x = self._combine_projections(a, b)
+        float16_enabled = (torch.get_autocast_gpu_dtype() == torch.float16)
+        if float16_enabled and torch.is_autocast_enabled():
+            with torch.cuda.amp.autocast(enabled=False):
+                x = self._combine_projections(a.float(), b.float())
+        else:
+            x = self._combine_projections(a, b)
        del a, b
        x = self.layer_norm_out(x)
        x = self.linear_z(x)