removed count-zeros debuggables.

9044bc42 · Lawrence McAfee · 7fccd6a1 · 9044bc42
Commit 9044bc42 authored Jun 08, 2022 by Lawrence McAfee
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 15 deletions

megatron/optimizer/clip_grads.py megatron/optimizer/clip_grads.py +3 -15

No files found.
--- a/megatron/optimizer/clip_grads.py
+++ b/megatron/optimizer/clip_grads.py
@@ -124,10 +124,7 @@ def count_zeros_fp32(parameters, model_parallel_group):
    #   - grad should not be none
    #   - parameter should not be shared
    #   - should not be a replica due to tensor model parallelism
-    # >>>
-    # total_num_zeros = 0.0
    total_num_zeros = torch.cuda.FloatTensor([0.0])
-    # <<<
    for param in parameters:
        grad_not_none = param.grad is not None
        is_not_shared = param_is_not_shared(param)
@@ -138,18 +135,9 @@ def count_zeros_fp32(parameters, model_parallel_group):
            total_num_zeros = num_zeros + total_num_zeros
    # Sum across all model-parallel GPUs.
-    # >>>
+    torch.distributed.all_reduce(total_num_zeros,
-    try:
+                                 op=torch.distributed.ReduceOp.SUM,
-        torch.distributed.all_reduce(total_num_zeros,
+                                 group=model_parallel_group)
-                                     op=torch.distributed.ReduceOp.SUM,
-                                     group=model_parallel_group)
-    except:
-        from lutil import pax
-        pax({
-            "total_num_zeros" : total_num_zeros,
-            "parameters" : parameters,
-        })
-    # <<<
    total_num_zeros = total_num_zeros.item()