Don't use 0-dimensional buffers in sinusoidal positional embeddings

5aa4a627 · Myle Ott · c2794070 · 5aa4a627 · 5aa4a627
Commit 5aa4a627 authored Jul 24, 2018 by Myle Ott
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 5 deletions

fairseq/models/transformer.py fairseq/models/transformer.py +2 -4

fairseq/modules/sinusoidal_positional_embedding.py fairseq/modules/sinusoidal_positional_embedding.py +1 -1

No files found.
--- a/fairseq/models/transformer.py
+++ b/fairseq/models/transformer.py
@@ -244,8 +244,7 @@ class TransformerEncoder(FairseqEncoder):
        if isinstance(self.embed_positions, SinusoidalPositionalEmbedding):
            if 'encoder.embed_positions.weights' in state_dict:
                del state_dict['encoder.embed_positions.weights']
-            if 'encoder.embed_positions._float_tensor' not in state_dict:
+            state_dict['encoder.embed_positions._float_tensor'] = torch.FloatTensor(1)
-                state_dict['encoder.embed_positions._float_tensor'] = torch.FloatTensor()
        return state_dict
@@ -340,8 +339,7 @@ class TransformerDecoder(FairseqIncrementalDecoder):
        if isinstance(self.embed_positions, SinusoidalPositionalEmbedding):
            if 'decoder.embed_positions.weights' in state_dict:
                del state_dict['decoder.embed_positions.weights']
-            if 'decoder.embed_positions._float_tensor' not in state_dict:
+            state_dict['decoder.embed_positions._float_tensor'] = torch.FloatTensor(1)
-                state_dict['decoder.embed_positions._float_tensor'] = torch.FloatTensor()
        for i in range(len(self.layers)):
            # update layer norms

--- a/fairseq/modules/sinusoidal_positional_embedding.py
+++ b/fairseq/modules/sinusoidal_positional_embedding.py
@@ -30,7 +30,7 @@ class SinusoidalPositionalEmbedding(nn.Module):
            embedding_dim,
            padding_idx,
        )
-        self.register_buffer('_float_tensor', torch.FloatTensor())
+        self.register_buffer('_float_tensor', torch.FloatTensor(1))
    @staticmethod
    def get_embedding(num_embeddings, embedding_dim, padding_idx=None):