Revert "Revert "add 'find_unused_parameters' in dist train""

This reverts commit eda7242b.

Revert "Revert "add 'find_unused_parameters' in dist train""
This reverts commit eda7242b.
f90f3671 · taokong · eda7242b · f90f3671 · f90f3671 · f90f3671
Commit f90f3671 authored Apr 02, 2020 by taokong
Hide whitespace changes
Inline Side-by-side

Showing with 18 additions and 5 deletions

mmdet/apis/train.py mmdet/apis/train.py +8 -3

tools/test.py tools/test.py +5 -1

tools/test_robustness.py tools/test_robustness.py +5 -1

No files found.
--- a/mmdet/apis/train.py
+++ b/mmdet/apis/train.py
@@ -206,9 +206,14 @@ def _dist_train(model,
    ]
    # put model on gpus
    # model = MMDistributedDataParallel(model.cuda())
-    model = MMDistributedDataParallel(model.cuda(), 
+    find_unused_parameters = True
-                                      device_ids=[torch.cuda.current_device()], 
+    # Sets the `find_unused_parameters` parameter in
-                                      broadcast_buffers=False)
+    # torch.nn.parallel.DistributedDataParallel
+    model = MMDistributedDataParallel(
+        model.cuda(),
+        device_ids=[torch.cuda.current_device()],
+        broadcast_buffers=False,
+        find_unused_parameters=find_unused_parameters)
    # build runner
    optimizer = build_optimizer(model, cfg.optimizer)

--- a/tools/test.py
+++ b/tools/test.py
@@ -240,7 +240,11 @@ def main():
        model = MMDataParallel(model, device_ids=[0])
        outputs = single_gpu_test(model, data_loader, args.show)
    else:
-        model = MMDistributedDataParallel(model.cuda())
+        # model = MMDistributedDataParallel(model.cuda())
+        model = MMDistributedDataParallel(
+            model.cuda(),
+            device_ids=[torch.cuda.current_device()],
+            broadcast_buffers=False)
        outputs = multi_gpu_test(model, data_loader, args.tmpdir,
                                 args.gpu_collect)

--- a/tools/test_robustness.py
+++ b/tools/test_robustness.py
@@ -375,7 +375,11 @@ def main():
                model = MMDataParallel(model, device_ids=[0])
                outputs = single_gpu_test(model, data_loader, args.show)
            else:
-                model = MMDistributedDataParallel(model.cuda())
+                # model = MMDistributedDataParallel(model.cuda())
+                model = MMDistributedDataParallel(
+                    model.cuda(),
+                    device_ids=[torch.cuda.current_device()],
+                    broadcast_buffers=False)
                outputs = multi_gpu_test(model, data_loader, args.tmpdir)
            rank, _ = get_dist_info()