refine rngstate in trainer

4c06a4fd · Guolin Ke · 70dcdf17 · 4c06a4fd
Commit 4c06a4fd authored Sep 05, 2022 by Guolin Ke
Show whitespace changes
Inline Side-by-side

Showing with 15 additions and 9 deletions

unicore/trainer.py unicore/trainer.py +15 -9

No files found.
--- a/unicore/trainer.py
+++ b/unicore/trainer.py
@@ -717,7 +717,7 @@ class Trainer(object):

            with torch.autograd.profiler.record_function("optimizer"):
                # fixed the seed in case for the stochastic rounding in different ranks
-                with utils.torch_seed(self.args.seed, self.get_num_updates(), -1):
+                with utils.torch_seed(self.args.seed, self.get_num_updates()):
                    # take an optimization step
                    self.task.optimizer_step(
                        self.optimizer,
@@ -733,8 +733,14 @@ class Trainer(object):
            # out where it fails
            self.zero_grad()
            with NanDetector(self.get_model()):
-                for _, sample in enumerate(samples):
+                for i, sample in enumerate(samples):
                    sample, _ = self._prepare_sample(sample)
+                    with utils.torch_seed(
+                        self.args.seed,
+                        self.get_num_updates(),
+                        i,
+                        self.data_parallel_rank,
+                    ):
                        self.task.train_step(
                            sample,
                            self.model,