Disable tests for mixed opt_levels, add bitwise accurate test of parameters (#520)

* increase atol for Half-Float comparison to 1.5e-4 * disable tests for different opt_levels * reset atol * add bitwise accurate comparison

Disable tests for mixed opt_levels, add bitwise accurate test of parameters (#520)
* increase atol for Half-Float comparison to 1.5e-4 * disable tests for different opt_levels * reset atol * add bitwise accurate comparison
0b74bfd9 · ptrblck · mcarilli · 03421e87 · 0b74bfd9
Commit 0b74bfd9 authored Oct 03, 2019 by ptrblck Committed by mcarilli Oct 03, 2019
Hide whitespace changes
Inline Side-by-side

Showing with 16 additions and 51 deletions

tests/L0/run_amp/test_checkpointing.py tests/L0/run_amp/test_checkpointing.py +16 -51

No files found.
--- a/tests/L0/run_amp/test_checkpointing.py
+++ b/tests/L0/run_amp/test_checkpointing.py
@@ -57,18 +57,18 @@ class TestCheckpointing(unittest.TestCase):
        optimizer.step()
        return output
-    def compare_models(self, modelA, modelB):
+    def compare_models(self, modelA, modelB, test_setup=''):
        state_dictA = modelA.state_dict()
        state_dictB = modelB.state_dict()
        self.assertEqual(len(state_dictA), len(state_dictB),
-                         'state_dicts have different lengths')
+                         'state_dicts have different lengths' + test_setup)
        for key in state_dictA:
            paramA = state_dictA[key]
            paramB = state_dictB[key]
-            self.assertTrue(torch.allclose(paramA.float(), paramB.float(), rtol=0, atol=1e-4),
+            self.assertTrue((paramA==paramB).all(),
-                 msg='Parameters in state_dicts not equal.' + 
+                msg='Parameters in state_dices not equal.' +
-                     'key: {}\nparam: {}\nrestored: {}\ndiff: {}'.format(
+                    'key: {}\nparam: {}\nrestored: {}\ndiff: {} for {}'.format(
-                         key, paramA, paramB, paramA - paramB))
+                        key, paramA, paramB, paramA - paramB, test_setup))
    def test_restoring(self):
        nb_epochs = 10
@@ -77,11 +77,11 @@ class TestCheckpointing(unittest.TestCase):
            for res_opt_level in self.test_opt_levels:
                for amp_before_load in [True, False]:
                    for num_losses in range(1, 3):
-#                        print('#' * 75 + '\n' + \
+                        test_setup = ('#' * 75 + '\n' + \
-#                              f'opt_level {opt_level}\n' + \
+                              f'opt_level {opt_level}\n' + \
-#                              f'restore_opt_level {res_opt_level}\n' + \
+                              f'restore_opt_level {res_opt_level}\n' + \
-#                              f'amp_before_load {amp_before_load}\n' + \
+                              f'amp_before_load {amp_before_load}\n' + \
-#                              f'num_losses {num_losses}\n')
+                              f'num_losses {num_losses}\n')
                        self.seed()
@@ -154,47 +154,12 @@ class TestCheckpointing(unittest.TestCase):
                                        range(num_losses, num_losses*2))
                                    self.assertTrue(
                                        torch.allclose(output.float(), restore_output.float()),
-                                        'Output of reference and restored models differ')
+                                        'Output of reference and restored models differ for ' + test_setup)
-                                    self.compare_models(model, restore_model)
+                                    self.compare_models(model, restore_model, test_setup)
                        # if opt_level != res_opt_level
                        else:
-                            # Only check state_dict
+                            # skip tests for different opt_levels
-                            checkpoint = {
+                            continue
-                                'model': model.state_dict(),
-                                'optimizer': optimizer.state_dict(),
-                                'amp': amp.state_dict()
-                            }
-                            # Check state_dict for FP32 tensors
-                            self.check_state_dict_fp32(checkpoint['model'])
-                            # Restore model
-                            restore_model = MyModel().to('cuda')
-                            restore_optimizer = optim.SGD(
-                                restore_model.parameters(),
-                                lr=self.initial_lr)
-                            if amp_before_load:
-                                restore_model, restore_optimizer = amp.initialize(
-                                    restore_model,
-                                    restore_optimizer,
-                                    opt_level=res_opt_level,
-                                    num_losses=num_losses,
-                                    verbosity=0)
-                            restore_model.load_state_dict(checkpoint['model'])
-                            restore_optimizer.load_state_dict(checkpoint['optimizer'])
-                            # FIXME: We cannot test the amp.state_dict in the same script
-                            # amp.load_state_dict(checkpoint['amp'])
-                            if not amp_before_load:
-                                restore_model, restore_optimizer = amp.initialize(
-                                    restore_model,
-                                    restore_optimizer,
-                                    opt_level=res_opt_level,
-                                    num_losses=num_losses,
-                                    verbosity=0)
-                            self.compare_models(model, restore_model)
    def test_loss_scale_decrease(self):
        num_losses = 3
@@ -207,7 +172,7 @@ class TestCheckpointing(unittest.TestCase):
            model = MyModel().to('cuda')
            optimizer = optim.SGD(model.parameters(),
-                                  lr=1e-3)#self.initial_lr)
+                                  lr=self.initial_lr)
            model, optimizer = amp.initialize(
                model, optimizer, opt_level=opt_level, num_losses=num_losses,