Fix LayerNorm API param names (#42)

Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

Fix LayerNorm API param names (#42)
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
0e9b2771 · Kirthi Shankar Sivamani · GitHub · e456110b · 0e9b2771
Unverified Commit 0e9b2771 authored Dec 15, 2022 by Kirthi Shankar Sivamani Committed by GitHub Dec 15, 2022
Hide whitespace changes
Inline Side-by-side

Showing with 31 additions and 10 deletions

transformer_engine/pytorch/module.py transformer_engine/pytorch/module.py +31 -10

No files found.
--- a/transformer_engine/pytorch/module.py
+++ b/transformer_engine/pytorch/module.py
@@ -6,7 +6,7 @@
 import os
 import warnings
 from abc import ABC, abstractmethod
-from typing import Union, Optional, Callable, Tuple, Dict, List, Any
+from typing import Union, Optional, Callable, Tuple, Dict, List, Any, Mapping
 from functools import partial
 import torch
@@ -2535,31 +2535,52 @@ class LayerNorm(torch.nn.Module):
    ) -> None:
        super().__init__()
        self.eps = eps
-        self.layer_norm_weight = Parameter(
+        self.weight = Parameter(
            torch.empty(
                hidden_size,
                device=torch.cuda.current_device(),
                dtype=params_dtype,
            )
        )
-        self.layer_norm_bias = Parameter(
+        self.bias = Parameter(
            torch.empty(
                hidden_size,
                device=torch.cuda.current_device(),
                dtype=params_dtype,
            )
        )
-        setattr(self.layer_norm_weight, "sequence_parallel", sequence_parallel)
+        setattr(self.weight, "sequence_parallel", sequence_parallel)
-        setattr(self.layer_norm_bias, "sequence_parallel", sequence_parallel)
+        setattr(self.bias, "sequence_parallel", sequence_parallel)
        self.reset_layer_norm_parameters()
+    def load_state_dict(
+        self,
+        state_dict: Mapping[str, Any],
+        strict: bool = True,
+    ) -> None:
+        """Override PyTorch loader to maintain backward compatibility
+        with previous version of LayerNorm parameter names.
+        """
+        if "layer_norm_weight" in state_dict:
+            state_dict["weight"] = state_dict["layer_norm_weight"]
+            del state_dict["layer_norm_weight"]
+        if "layer_norm_bias" in state_dict:
+            state_dict["bias"] = state_dict["layer_norm_bias"]
+            del state_dict["layer_norm_bias"]
+        super().load_state_dict(state_dict, strict)
    def reset_layer_norm_parameters(self) -> None:
        """Init LN params"""
-        init.ones_(self.layer_norm_weight)
+        init.ones_(self.weight)
-        init.zeros_(self.layer_norm_bias)
+        init.zeros_(self.bias)
    def forward(self, inp: torch.Tensor) -> torch.Tensor:
        """LayerNorm FWD"""
-        return _LayerNorm.apply(
+        # Maintain backward compatibility.
-            inp, self.layer_norm_weight, self.layer_norm_bias, self.eps
+        if hasattr(self, "layer_norm_weight"):
-        )
+            setattr(self, "weight", self.layer_norm_weight)
+        if hasattr(self, "layer_norm_bias"):
+            setattr(self, "bias", self.layer_norm_bias)
+        return _LayerNorm.apply(inp, self.weight, self.bias, self.eps)