Fix buffers in sinusoidal positional embeddings

81b47e7e · Myle Ott · 5935fe2f · 81b47e7e · 81b47e7e
Commit 81b47e7e authored Apr 03, 2018 by Myle Ott
Hide whitespace changes
Inline Side-by-side

Showing with 22 additions and 7 deletions

fairseq/models/transformer.py fairseq/models/transformer.py +16 -0

fairseq/modules/sinusoidal_positional_embedding.py fairseq/modules/sinusoidal_positional_embedding.py +6 -7

No files found.
--- a/fairseq/models/transformer.py
+++ b/fairseq/models/transformer.py
@@ -150,6 +150,14 @@ class TransformerEncoder(FairseqEncoder):
        """Maximum input length supported by the encoder."""
        return self.embed_positions.max_positions()

+    def upgrade_state_dict(self, state_dict):
+        if isinstance(self.embed_positions, SinusoidalPositionalEmbedding):
+            if 'encoder.embed_positions.weights' in state_dict:
+                del state_dict['encoder.embed_positions.weights']
+            if 'encoder.embed_positions._float_tensor' not in state_dict:
+                state_dict['encoder.embed_positions._float_tensor'] = torch.FloatTensor()
+        return state_dict
+

 class TransformerDecoder(FairseqDecoder):
    """Transformer decoder."""
@@ -222,6 +230,14 @@ class TransformerDecoder(FairseqDecoder):
        """Maximum output length supported by the decoder."""
        return self.embed_positions.max_positions()

+    def upgrade_state_dict(self, state_dict):
+        if isinstance(self.embed_positions, SinusoidalPositionalEmbedding):
+            if 'decoder.embed_positions.weights' in state_dict:
+                del state_dict['decoder.embed_positions.weights']
+            if 'decoder.embed_positions._float_tensor' not in state_dict:
+                state_dict['decoder.embed_positions._float_tensor'] = torch.FloatTensor()
+        return state_dict
+

 class TransformerEncoderLayer(nn.Module):
    """Encoder layer block.

--- a/fairseq/modules/sinusoidal_positional_embedding.py
+++ b/fairseq/modules/sinusoidal_positional_embedding.py
@@ -26,14 +26,12 @@ class SinusoidalPositionalEmbedding(nn.Module):
        self.embedding_dim = embedding_dim
        self.padding_idx = padding_idx
        self.left_pad = left_pad
-        self.register_buffer(
-            'weights',
-            SinusoidalPositionalEmbedding.get_embedding(
-                init_size,
-                embedding_dim,
-                padding_idx,
-            ),
+        self.weights = SinusoidalPositionalEmbedding.get_embedding(
+            init_size,
+            embedding_dim,
+            padding_idx,
        )
+        self.register_buffer('_float_tensor', torch.FloatTensor())

    @staticmethod
    def get_embedding(num_embeddings, embedding_dim, padding_idx=None):
@@ -65,6 +63,7 @@ class SinusoidalPositionalEmbedding(nn.Module):
                self.embedding_dim,
                self.padding_idx,
            ).type_as(self.weights)
+        self.weights = self.weights.type_as(self._float_tensor)
        weights = Variable(self.weights)

        if incremental_state is not None: