tf model [WIP]

45dc04f3 · thomwolf · 24831477 · 45dc04f3 · 45dc04f3
Commit 45dc04f3 authored Oct 08, 2019 by thomwolf
Expand all Show whitespace changes
Inline Side-by-side

Showing with 493 additions and 18 deletions

transformers/modeling_ctrl.py transformers/modeling_ctrl.py +18 -18

transformers/modeling_tf_ctrl.py transformers/modeling_tf_ctrl.py +475 -0

No files found.
--- a/transformers/modeling_ctrl.py
+++ b/transformers/modeling_ctrl.py
@@ -111,7 +111,7 @@ class MultiHeadAttention(torch.nn.Module):
        v = self.split_into_heads(v, batch_size)
        if layer_past is not None:
            past_key, past_value = layer_past[0], layer_past[1]
-            k = torch.cat((past_key, k), dim=-1)
+            k = torch.cat((past_key, k), dim=-2)
            v = torch.cat((past_value, v), dim=-2)
        present = torch.stack((k, v))


--- a/transformers/modeling_tf_ctrl.py
+++ b/transformers/modeling_tf_ctrl.py