fix megatron adapter for swipe

57bdfe88 · Rick Ho · 8a56481b · 57bdfe88 · 57bdfe88 · 57bdfe88
Commit 57bdfe88 authored Oct 26, 2021 by Rick Ho
5 changed files
--- a/fmoe/gates/__init__.py
+++ b/fmoe/gates/__init__.py
@@ -7,3 +7,5 @@ from .noisy_gate import NoisyGate
 from .gshard_gate import GShardGate
 from .switch_gate import SwitchGate
+from .swipe_gate import SwipeGate
--- a/fmoe/gates/base_gate.py
+++ b/fmoe/gates/base_gate.py
@@ -23,3 +23,7 @@ class BaseGate(nn.Module):
        if clear:
            self.loss = None
        return loss
+    @property
+    def has_loss(self):
+        return self.loss is not None
--- a/fmoe/megatron/balance.py
+++ b/fmoe/megatron/balance.py
@@ -51,9 +51,12 @@ def add_balance_log(model, writer, iteration):
    while hasattr(model, 'module'):
        model = model.module
-    balance_dict_tensor = torch.vstack(
+    losses = [l.mlp.gate.get_loss(clear=True)
-        [l.mlp.gate.get_loss(clear=True) for l in model.language_model.transformer.layers]
+            for l in model.language_model.transformer.layers
-    ).detach()
+            if l.mlp.gate.has_loss]
+    if len(losses) == 0:
+        return
+    balance_dict_tensor = torch.vstack(losses).detach()
    world_group = get_torch_default_comm()
    world_size = torch.distributed.get_world_size(group=world_group)
    torch.distributed.all_reduce(balance_dict_tensor, group=world_group)

--- a/fmoe/megatron/layers.py
+++ b/fmoe/megatron/layers.py
@@ -95,6 +95,9 @@ class MegatronMLP(FMoETransformerMLP):
        elif args.balance_strategy == "switch":
            from fmoe.gates import SwitchGate
            gate = SwitchGate
+        elif args.balance_strategy == "swipe":
+            from fmoe.gates import SwipeGate
+            gate = SwipeGate
        elif gate is None:
            assert False, "Undefined balance strategy {}" % (args.balance_strategy)

--- a/fmoe/megatron/patch.py
+++ b/fmoe/megatron/patch.py
@@ -20,15 +20,19 @@ def patch_forward_step(forward_step_func):
        args = get_args()
        output = forward_step_func(data_iterator, model, input_tensor)
-        if not is_pipeline_last_stage() or not args.balance_strategy or args.balance_strategy == 'naive':
+        if not is_pipeline_last_stage() or not args.balance_strategy:
            return output
-        loss_name = args.balance_strategy + "_loss"
        while hasattr(model, 'module'):
            model = model.module
        loss_list = [l.mlp.gate.get_loss(clear=False).view(1)
-                for l in model.language_model.transformer.layers]
+                for l in model.language_model.transformer.layers
+                if l.mlp.gate.has_loss]
+        if len(loss_list) == 0:
+            return output
+        loss_name = args.balance_strategy + "_loss"
        (loss, state_dict), bal_loss = (
            output,
            torch.cat(loss_list).mean() * args.balance_loss_weight