Load optimizer state on CPU to avoid CUDA OOM (#22159)

b7036f49 · Sylvain Gugger · GitHub · ebdb185b · b7036f49
Unverified Commit b7036f49 authored Mar 14, 2023 by Sylvain Gugger Committed by GitHub Mar 14, 2023
Show whitespace changes
Inline Side-by-side

Showing with 1 addition and 2 deletions

src/transformers/trainer.py src/transformers/trainer.py +1 -2

No files found.
--- a/src/transformers/trainer.py
+++ b/src/transformers/trainer.py
@@ -2416,7 +2416,6 @@ class Trainer:
                self.optimizer.load_state_dict(optimizer_state)
                self.lr_scheduler.load_state_dict(lr_scheduler_state)
            else:
-                map_location = "cpu" if is_sagemaker_mp_enabled() else self.args.device
                if is_sagemaker_mp_enabled():
                    if os.path.isfile(os.path.join(checkpoint, "user_content.pt")):
                        # Optimizer checkpoint was saved with smp >= 1.10
@@ -2436,7 +2435,7 @@ class Trainer:
                    self.model_wrapped.register_post_step_hook(opt_load_hook)
                else:
                    self.optimizer.load_state_dict(
-                        torch.load(os.path.join(checkpoint, OPTIMIZER_NAME), map_location=map_location)
+                        torch.load(os.path.join(checkpoint, OPTIMIZER_NAME), map_location="cpu")
                    )
                with warnings.catch_warnings(record=True) as caught_warnings:
                    self.lr_scheduler.load_state_dict(torch.load(os.path.join(checkpoint, SCHEDULER_NAME)))