Extend Trainer to enable Ascend NPU to use the fused Adamw optimizer when training (#26194)

4fdf47cd · statelesshz · GitHub · fc296f41 · 4fdf47cd · 4fdf47cd
Unverified Commit 4fdf47cd authored Oct 04, 2023 by statelesshz Committed by GitHub Oct 04, 2023
Show whitespace changes
Inline Side-by-side

Showing with 9 additions and 0 deletions

src/transformers/trainer.py src/transformers/trainer.py +8 -0

src/transformers/training_args.py src/transformers/training_args.py +1 -0

No files found.
--- a/src/transformers/trainer.py
+++ b/src/transformers/trainer.py
@@ -1068,6 +1068,14 @@ class Trainer:
                optimizer_kwargs.update(adam_kwargs)
            except ImportError:
                raise ValueError("Trainer failed to import syncfree AdamW from torch_xla.")
+        elif args.optim == OptimizerNames.ADAMW_TORCH_NPU_FUSED:
+            try:
+                from torch_npu.optim import NpuFusedAdamW
+
+                optimizer_cls = NpuFusedAdamW
+                optimizer_kwargs.update(adam_kwargs)
+            except ImportError:
+                raise ValueError("Trainer failed to import FusedAdamW from torch_npu.")
        elif args.optim == OptimizerNames.ADAMW_APEX_FUSED:
            try:
                from apex.optimizers import FusedAdam

--- a/src/transformers/training_args.py
+++ b/src/transformers/training_args.py
@@ -140,6 +140,7 @@ class OptimizerNames(ExplicitEnum):
    ADAMW_TORCH = "adamw_torch"
    ADAMW_TORCH_FUSED = "adamw_torch_fused"
    ADAMW_TORCH_XLA = "adamw_torch_xla"
+    ADAMW_TORCH_NPU_FUSED = "adamw_torch_npu_fused"
    ADAMW_APEX_FUSED = "adamw_apex_fused"
    ADAFACTOR = "adafactor"
    ADAMW_ANYPRECISION = "adamw_anyprecision"