Set syncfree AdamW as the default optimizer for xla:gpu device in amp mode (#15361)

* Use syncfree AdamW for xla:gpu device by default * Make syncfree AdamW optional

Set syncfree AdamW as the default optimizer for xla:gpu device in amp mode (#15361)
* Use syncfree AdamW for xla:gpu device by default * Make syncfree AdamW optional
c4d1fd77 · Yanming Wang · GitHub · 2e4559fa · c4d1fd77 · c4d1fd77
Unverified Commit c4d1fd77 authored Jan 27, 2022 by Yanming Wang Committed by GitHub Jan 27, 2022
Hide whitespace changes
Inline Side-by-side

Showing with 9 additions and 0 deletions

src/transformers/trainer.py src/transformers/trainer.py +8 -0

src/transformers/training_args.py src/transformers/training_args.py +1 -0

No files found.
--- a/src/transformers/trainer.py
+++ b/src/transformers/trainer.py
@@ -868,6 +868,14 @@ class Trainer:
            optimizer_cls = AdamW
            optimizer_kwargs.update(adam_kwargs)
+        elif args.optim == OptimizerNames.ADAMW_TORCH_XLA:
+            try:
+                from torch_xla.amp.syncfree import AdamW
+                optimizer_cls = AdamW
+                optimizer_kwargs.update(adam_kwargs)
+            except ImportError:
+                raise ValueError("Trainer failed to import syncfree AdamW from torch_xla.")
        elif args.optim == OptimizerNames.ADAMW_APEX_FUSED:
            try:
                from apex.optimizers import FusedAdam

--- a/src/transformers/training_args.py
+++ b/src/transformers/training_args.py
@@ -77,6 +77,7 @@ class OptimizerNames(ExplicitEnum):
    ADAMW_HF = "adamw_hf"
    ADAMW_TORCH = "adamw_torch"
+    ADAMW_TORCH_XLA = "adamw_torch_xla"
    ADAMW_APEX_FUSED = "adamw_apex_fused"
    ADAFACTOR = "adafactor"