Merge pull request #10 from laekov/megatron-mlp-init

use magatron's init method for ffn

Merge pull request #10 from laekov/megatron-mlp-init
use magatron's init method for ffn
593feab2 · Rick Ho · GitHub · 5e5b4044 · 8ddd246f · 593feab2
Unverified Commit 593feab2 authored Feb 26, 2021 by Rick Ho Committed by GitHub Feb 26, 2021
Show whitespace changes
Inline Side-by-side

Showing with 19 additions and 2 deletions

fmoe/megatron.py fmoe/megatron.py +19 -2

No files found.
--- a/fmoe/megatron.py
+++ b/fmoe/megatron.py
@@ -30,6 +30,20 @@ class _FakeMegatronMLP(nn.Module):
        x = self.fc2(x)
        return x, torch.zeros_like(x)
+def _magatron_init_method(self, rng, sigma):
+    r'''
+    Init method based on N(0, sigma).
+    Copied from Megatron-LM
+    '''
+    device = self.weight.device
+    dtype = self.weight.dtype
+    weight = rng.normal(loc=0.0, scale=sigma, size=tuple(self.weight.size()))
+    self.weight.data = torch.tensor(weight, dtype=dtype, device=device)
+    if self.bias is not None:
+        # Always initialize bias to zero.
+        with torch.no_grad():
+            self.bias.zero_()
 def _random_init_weight(self, rng):
    r'''
@@ -71,6 +85,8 @@ class MegatronMLP(FMoETransformerMLP):
                expert_dp_comm='none' if args.distributed_experts else 'dp')
        self.hidden_size = args.hidden_size
        self.rank = args.rank
+        self.sigma = args.init_method_std
+        self.num_layers = args.num_layers
        self.reset_parameters()
    def reset_parameters(self):
@@ -80,8 +96,9 @@ class MegatronMLP(FMoETransformerMLP):
        additional numpy rng is used.
        '''
        rng = np.random.default_rng(np.random.randint(2048) + self.rank)
-        _random_init_weight(self.experts.htoh4, rng)
+        _magatron_init_method(self.experts.htoh4, rng, self.sigma)
-        _random_init_weight(self.experts.h4toh, rng)
+        std = self.sigma / math.sqrt(2.0 * self.num_layers)
+        _magatron_init_method(self.experts.h4toh, rng, std)
    def forward(self, inp):
        return super().forward(inp), torch.zeros(self.hidden_size,