Adjusting learning rate for batch size

dc41c5ce · Michael Carilli · 437bcf22 · dc41c5ce · dc41c5ce · dc41c5ce
Commit dc41c5ce authored Aug 27, 2018 by Michael Carilli
Showing with 4 additions and 3 deletions

examples/imagenet/README.md examples/imagenet/README.md +0 -3

examples/imagenet/main.py examples/imagenet/main.py +2 -0

examples/imagenet/main_fp16_optimizer.py examples/imagenet/main_fp16_optimizer.py +2 -0

No files found.
--- a/examples/imagenet/README.md
+++ b/examples/imagenet/README.md
@@ -64,9 +64,6 @@ $ python -m torch.distributed.launch --nproc_per_node=NUM_GPUS main_fp16_optimiz
 ## Usage for `main.py` and `main_fp16_optimizer.py`
-```bash
-```
 `main_fp16_optimizer.py` also accepts the optional flag
 ```bash
  --dynamic-loss-scale  Use dynamic loss scaling. If supplied, this argument

--- a/examples/imagenet/main.py
+++ b/examples/imagenet/main.py
@@ -133,6 +133,8 @@ def main():
    # define loss function (criterion) and optimizer
    criterion = nn.CrossEntropyLoss().cuda()
+    # Scale learning rate based on per-process batch size
+    args.lr = args.lr*float(args.batch_size)/256. 
    optimizer = torch.optim.SGD(master_params, args.lr,
                                momentum=args.momentum,
                                weight_decay=args.weight_decay)

--- a/examples/imagenet/main_fp16_optimizer.py
+++ b/examples/imagenet/main_fp16_optimizer.py
@@ -134,6 +134,8 @@ def main():
    # define loss function (criterion) and optimizer
    criterion = nn.CrossEntropyLoss().cuda()
+    # Scale learning rate based on per-process batch size
+    args.lr = args.lr*float(args.batch_size)/256. 
    optimizer = torch.optim.SGD(model.parameters(), args.lr,
                                momentum=args.momentum,
                                weight_decay=args.weight_decay)