keep old fused* name and rename new optimizers without prefix

adad5996 · Deyu Fu · 4d6ed501 · adad5996 · adad5996 · adad5996
Commit adad5996 authored Aug 12, 2019 by Deyu Fu
11 changed files
--- a/apex/optimizers/__init__.py
+++ b/apex/optimizers/__init__.py
 from .fused_sgd import FusedSGD
-from .novograd import FusedNovoGrad
-from .fused_adam_v1 import FusedAdam_v1
-from .adam import FusedAdam
-#from .sgd import FusedSGD
+from .fused_adam import FusedAdam
 from .fp16_optimizer import FP16_Optimizer
+from .sgd import SGD
+from .adam import Adam
+from .novograd import NovoGrad
--- a/apex/optimizers/adam.py
+++ b/apex/optimizers/adam.py
@@ -2,7 +2,7 @@ import torch
 from apex.multi_tensor_apply import multi_tensor_applier
 from amp_C import multi_tensor_adam

-class FusedAdam(torch.optim.Optimizer):
+class Adam(torch.optim.Optimizer):

    """Implements Adam algorithm. Currently GPU-only.  Requires Apex to be installed via
    ``python setup.py install --cuda_ext --cpp_ext``.
@@ -45,7 +45,7 @@ class FusedAdam(torch.optim.Optimizer):
            raise RuntimeError('FusedAdam does not support the AMSGrad variant.')
        defaults = dict(lr=lr, bias_correction=bias_correction,
                        betas=betas, eps=eps, weight_decay=weight_decay)
-        super(FusedAdam, self).__init__(params, defaults)
+        super(Adam, self).__init__(params, defaults)
        self.eps_mode = 0 if  eps_inside_sqrt else 1
        self.dummy_overflow_buf = torch.cuda.IntTensor([0])

@@ -57,8 +57,8 @@ class FusedAdam(torch.optim.Optimizer):
                and returns the loss.
        """
        if any(p is not None for p in [grads, output_params, scale, grad_norms]):
-            raise RuntimeError('FusedAdam has been updated, please use with AMP for mixed precision. '
-                               'For legacy code using fp16_optimizer, use FusedAdam_v1.')
+            raise RuntimeError('Adam has been updated, please use with AMP for mixed precision. '
+                               'For legacy code using fp16_optimizer, use FusedAdam.')
        loss = None
        if closure is not None:
            loss = closure()

--- a/apex/optimizers/fp16_optimizer.py
+++ b/apex/optimizers/fp16_optimizer.py
@@ -35,7 +35,8 @@ class FP16_Optimizer(object):
                 dynamic_loss_args=None,
                 verbose=True):

-        print("\nfp16_optimizer will be removed in future. To update, use fused optimizers with AMP.")
+        print("\nfp16_optimizer is designed to work with apex.optimizers.Fused*, and will be removed in future")
+        print("To update, use updated optimizers without Fused prefix with AMP.")
        # The fused optimizer does all the work. We need this layer for two reason:
        # 1. maintain same user API from apex.fp16_utils
        # 2. keep common stuff here in case we need to add new fused optimizer later

--- a/apex/optimizers/fused_adam_v1.py
+++ b/apex/optimizers/fused_adam_v1.py
@@ -2,9 +2,9 @@ import types
 import torch
 import importlib

-from ..multi_tensor_apply import multi_tensor_applier
+from apex.multi_tensor_apply import multi_tensor_applier

-class FusedAdam_v1(torch.optim.Optimizer):
+class FusedAdam(torch.optim.Optimizer):
    """Implements Adam algorithm. Currently GPU-only.  Requires Apex to be installed via
    ``python setup.py install --cuda_ext --cpp_ext``.

@@ -40,6 +40,8 @@ class FusedAdam_v1(torch.optim.Optimizer):
                 betas=(0.9, 0.999), eps=1e-8, eps_inside_sqrt = False,
                 weight_decay=0., max_grad_norm=0., amsgrad=False, use_mt=False,
                 amp_scale_adjustment=1.0):
+        print("\nFusedAdam will be removed in future. To update, use apex.optimizers.Adam with AMP.")
+
        global fused_adam_cuda
        fused_adam_cuda = importlib.import_module("fused_adam_cuda")

@@ -58,7 +60,7 @@ class FusedAdam_v1(torch.optim.Optimizer):
        defaults = dict(lr=lr, bias_correction=bias_correction,
                        betas=betas, eps=eps, weight_decay=weight_decay,
                        max_grad_norm=max_grad_norm)
-        super(FusedAdam_v1, self).__init__(params, defaults)
+        super(FusedAdam, self).__init__(params, defaults)
        self.eps_mode = 0 if  eps_inside_sqrt else 1

    def step(self, closure=None, grads=None, output_params=None, scale=1., grad_norms=None):
@@ -195,4 +197,3 @@ class FusedAdam_v1(torch.optim.Optimizer):
                    group['weight_decay'])

        return loss
-
--- a/apex/optimizers/fused_sgd.py
+++ b/apex/optimizers/fused_sgd.py
@@ -53,6 +53,9 @@ class FusedSGD(Optimizer):
                 weight_decay=0, nesterov=False,
                 wd_after_momentum=False,
                 materialize_master_grads=True):
+
+        print("\nFusedSGD will be removed in future. To update, use apex.optimizers.SGD with AMP.")
+
        if lr is not required and lr < 0.0:
            raise ValueError("Invalid learning rate: {}".format(lr))
        if momentum < 0.0:

--- a/apex/optimizers/novograd.py
+++ b/apex/optimizers/novograd.py
@@ -2,7 +2,7 @@ import torch
 from apex.multi_tensor_apply import multi_tensor_applier
 from amp_C import multi_tensor_novograd

-class FusedNovoGrad(torch.optim.Optimizer):
+class NovoGrad(torch.optim.Optimizer):

    """Implements NovoGrad algorithm. Currently GPU-only.  Requires Apex to be installed via
    ``python setup.py install --cuda_ext --cpp_ext``.
@@ -48,12 +48,12 @@ class FusedNovoGrad(torch.optim.Optimizer):
                 grad_averaging=True, norm_type=2, init_zero=False,
                 set_grad_none=True):
        if amsgrad:
-            raise RuntimeError('FusedNovoGrad does not support the AMSGrad variant.')
+            raise RuntimeError('NovoGrad does not support the AMSGrad variant.')
        defaults = dict(lr=lr, bias_correction=bias_correction,
                        betas=betas, eps=eps, weight_decay=weight_decay,
                        grad_averaging=grad_averaging, norm_type=norm_type,
                        init_zero=init_zero)
-        super(FusedNovoGrad, self).__init__(params, defaults)
+        super(NovoGrad, self).__init__(params, defaults)
        self.moment_mode = 0 if reg_inside_moment else 1
        self.dummy_overflow_buf = torch.cuda.IntTensor([0])
        self.set_grad_none = set_grad_none
@@ -64,7 +64,7 @@ class FusedNovoGrad(torch.optim.Optimizer):
                for p in group['params']:
                    p.grad = None
        else:
-            super(FusedNovoGrad, self).zero_grad()
+            super(NovoGrad, self).zero_grad()

    def step(self, closure=None):
        """Performs a single optimization step.
@@ -96,7 +96,7 @@ class FusedNovoGrad(torch.optim.Optimizer):
                if p.grad is None:
                    continue
                if p.grad.data.is_sparse:
-                    raise RuntimeError('FusedNovoGrad does not support sparse gradients, please consider SparseAdam instead')
+                    raise RuntimeError('NovoGrad does not support sparse gradients, please consider SparseAdam instead')

                state = self.state[p]
                # State initialization
@@ -119,7 +119,7 @@ class FusedNovoGrad(torch.optim.Optimizer):
                    elif group['norm_type'] == 2:
                        m2 = [torch.sum(torch.pow(g, 2)).sqrt().item() for g in g_list]
                    else:
-                        raise RuntimeError('FusedNovoGrad only support l2/inf norm now.')
+                        raise RuntimeError('NovoGrad only support l2/inf norm now.')
                    group['exp_avg_sq'] = torch.cuda.FloatTensor(m2)
            else:
                assert(len(g_list) == group['exp_avg_sq'].numel())

--- a/apex/optimizers/sgd.py
+++ b/apex/optimizers/sgd.py
@@ -4,7 +4,7 @@ from torch.optim import Optimizer
 from amp_C import multi_tensor_axpby
 from apex.multi_tensor_apply import multi_tensor_applier

-class FusedSGD(Optimizer):
+class SGD(Optimizer):
    r"""Implements stochastic gradient descent (optionally with momentum).
    Nesterov momentum is based on the formula from
    `On the importance of initialization and momentum in deep learning`__.
@@ -52,10 +52,10 @@ class FusedSGD(Optimizer):
                        weight_decay=weight_decay, nesterov=nesterov)
        if nesterov and (momentum <= 0 or dampening != 0):
            raise ValueError("Nesterov momentum requires a momentum and zero dampening")
-        super(FusedSGD, self).__init__(params, defaults)
+        super(SGD, self).__init__(params, defaults)

    def __setstate__(self, state):
-        super(FusedSGD, self).__setstate__(state)
+        super(SGD, self).__setstate__(state)
        for group in self.param_groups:
            group.setdefault('nesterov', False)


--- a/tests/L0/run_mixed_adam/test_fp16_optimizer.py
+++ b/tests/L0/run_mixed_adam/test_fp16_optimizer.py
@@ -36,7 +36,7 @@ class TestFP16Optimizer(unittest.TestCase):
        ref_optim = torch.optim.Adam(self.ref_model.parameters())
        ref_optim = apex.fp16_utils.FP16_Optimizer(ref_optim, verbose=False)

-        tst_optim = apex.optimizers.FusedAdam_v1(self.tst_model.parameters())
+        tst_optim = apex.optimizers.FusedAdam(self.tst_model.parameters())
        tst_optim = apex.optimizers.FP16_Optimizer(tst_optim)

        for i in range(self.iters):
@@ -58,7 +58,7 @@ class TestFP16Optimizer(unittest.TestCase):
        ref_optim = torch.optim.Adam(self.ref_model.parameters())
        ref_optim = apex.fp16_utils.FP16_Optimizer(ref_optim, static_loss_scale=128.0, verbose=False)

-        tst_optim = apex.optimizers.FusedAdam_v1(self.tst_model.parameters())
+        tst_optim = apex.optimizers.FusedAdam(self.tst_model.parameters())
        tst_optim = apex.optimizers.FP16_Optimizer(tst_optim, static_loss_scale=128.0)

        for i in range(self.iters):
@@ -81,7 +81,7 @@ class TestFP16Optimizer(unittest.TestCase):
        ref_optim = apex.fp16_utils.FP16_Optimizer(ref_optim, verbose=False)

        tst_groups = [{'params': [self.tst_model.weight]},{'params': [self.tst_model.bias]}]
-        tst_optim = apex.optimizers.FusedAdam_v1(tst_groups)
+        tst_optim = apex.optimizers.FusedAdam(tst_groups)
        tst_optim = apex.optimizers.FP16_Optimizer(tst_optim)

        for i in range(self.iters):
@@ -101,7 +101,7 @@ class TestFP16Optimizer(unittest.TestCase):
        ref_optim = torch.optim.Adam(self.ref_model.parameters())
        ref_optim = apex.fp16_utils.FP16_Optimizer(ref_optim, verbose=False)

-        tst_optim = apex.optimizers.FusedAdam_v1(self.tst_model.parameters(), max_grad_norm=0.01)
+        tst_optim = apex.optimizers.FusedAdam(self.tst_model.parameters(), max_grad_norm=0.01)
        tst_optim = apex.optimizers.FP16_Optimizer(tst_optim)

        for i in range(self.iters):

--- a/tests/L0/run_mixed_adam/test_mixed_adam.py
+++ b/tests/L0/run_mixed_adam/test_mixed_adam.py
@@ -24,10 +24,10 @@ class TestFusedAdam(unittest.TestCase):

        ref_optim = torch.optim.Adam(ref_param, **ref_adam_option)
        if tst_adam_option:
-            tst_optim = apex.optimizers.FusedAdam_v1(tst_param, **tst_adam_option)
+            tst_optim = apex.optimizers.FusedAdam(tst_param, **tst_adam_option)
        else:
-            tst_optim = apex.optimizers.FusedAdam_v1(tst_param, **ref_adam_option)
-       
+            tst_optim = apex.optimizers.FusedAdam(tst_param, **ref_adam_option)
+
        return (ref_param, tst_param, ref_optim, tst_optim)

    def gen_grad(self, ref_param, tst_param):

--- a/tests/L0/run_fused_optimizers/__init__.py
+++ b/tests/L0/run_fused_optimizers/__init__.py
--- a/tests/L0/run_fused_optimizers/test_fused_adam.py
+++ b/tests/L0/run_fused_optimizers/test_fused_adam.py
@@ -23,7 +23,7 @@ class TestFusedAdam(unittest.TestCase):
            tst_param.append(torch.nn.Parameter(tensor.clone()))

        ref_optim = torch.optim.Adam(ref_param, **adam_option)
-        tst_optim = apex.optimizers.FusedAdam(tst_param, **adam_option)
+        tst_optim = apex.optimizers.Adam(tst_param, **adam_option)

        return (ref_param, tst_param, ref_optim, tst_optim)