debugging.

4c598f9d · Lawrence McAfee · 53f3efc4 · 4c598f9d · 4c598f9d · 4c598f9d
Commit 4c598f9d authored Mar 15, 2022 by Lawrence McAfee
Showing with 41 additions and 4 deletions

megatron/model/fused_layer_norm.py megatron/model/fused_layer_norm.py +27 -4

megatron/model/language_model.py megatron/model/language_model.py +6 -0

megatron/schedules.py megatron/schedules.py +8 -0

No files found.
--- a/megatron/model/fused_layer_norm.py
+++ b/megatron/model/fused_layer_norm.py
@@ -100,12 +100,35 @@ class MixedFusedLayerNorm(torch.nn.Module):
    init.zeros_(self.bias)
+  # def forward(self, input):
+  #   if self.no_persist_layer_norm:
+  #       return FusedLayerNormAffineFunction.apply(
+  #         input, self.weight, self.bias, self.normalized_shape, self.eps)
+  #   else:
+  #       return FastLayerNormFN.apply(
+  #         input, self.weight, self.bias, self.eps)
  def forward(self, input):
    if self.no_persist_layer_norm:
-        return FusedLayerNormAffineFunction.apply(
+        result = FusedLayerNormAffineFunction.apply(
            input, self.weight, self.bias, self.normalized_shape, self.eps)
    else:
-        return FastLayerNormFN.apply(
+        result = FastLayerNormFN.apply(
            input, self.weight, self.bias, self.eps)
+        result = make_viewless_tensor(inp = input, requires_grad = input.requires_grad, keep_grad = True)
+    # >>>
+    # if torch.distributed.get_rank() == 3:
+    #     # from lutil import pax
+    #     # pax({"result": result})
+    #     from megatron import get_args
+    #     args = get_args()
+    #     raise Exception("r %d ... hid %d, persist %d, view %d." % (
+    #         torch.distributed.get_rank(),
+    #         args.hidden_size,
+    #         not args.no_persist_layer_norm,
+    #         result._base is not None,
+    #     ))
+    # <<<
+    return result
--- a/megatron/model/language_model.py
+++ b/megatron/model/language_model.py
@@ -337,6 +337,12 @@ class TransformerLanguageModel(MegatronModule):
        else:
            self.encoder = None
+        # >>>
+        # if torch.distributed.get_rank() == 3:
+        #     print(self.encoder)
+        #     raise Exception("bye.")
+        # <<<
        # Decoder (usually set to False, True if part of an encoder-decoder
        # architecture and in decoder-only stage).
        if self.add_decoder:

--- a/megatron/schedules.py
+++ b/megatron/schedules.py
@@ -651,6 +651,14 @@ def forward_backward_pipelining_without_interleaving(forward_step_func,
        if not forward_only:
            input_tensors.append(input_tensor)
            output_tensors.append(output_tensor)
+            # >>>
+            if output_tensor[0]._base is not None:
+                # from lutil import pax
+                # pax({
+                #     "output tensor / 0" : output_tensor[0],
+                # })
+                raise Exception(">>>>>> r %d, output / 0 == view." % torch.distributed.get_rank())
+            # <<<
            deallocate_output_tensor(output_tensor[0])
    # Before running 1F1B, need to receive first forward tensor.