fix FSDP ShardedGradScaler (#18358)

renaming it

fix FSDP ShardedGradScaler (#18358)
renaming it
b2e4b091 · Sourab Mangrulkar · GitHub · 51227e26 · b2e4b091
Unverified Commit b2e4b091 authored Jul 30, 2022 by Sourab Mangrulkar Committed by GitHub Jul 30, 2022
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 2 deletions

src/transformers/trainer.py src/transformers/trainer.py +6 -2

No files found.
--- a/src/transformers/trainer.py
+++ b/src/transformers/trainer.py
@@ -565,9 +565,11 @@ class Trainer:
                    self.scaler = ShardedGradScaler()
                elif self.fsdp is not None:
                    if self.amp_dtype == torch.float16:
-                        from torch.distributed.fsdp.sharded_grad_scaler import ShardedGradScaler
+                        from torch.distributed.fsdp.sharded_grad_scaler import (
+                            ShardedGradScaler as FSDPShardedGradScaler,
+                        )

-                        self.scaler = ShardedGradScaler()
+                        self.scaler = FSDPShardedGradScaler()
                    else:
                        self.do_grad_scaling = False
                        self.use_cuda_amp = False
@@ -1366,6 +1368,8 @@ class Trainer:
                    transformer_cls_to_wrap = get_module_class_from_name(
                        model, self.args.fsdp_transformer_layer_cls_to_wrap
                    )
+                    if transformer_cls_to_wrap is None:
+                        raise Exception("Could not find the transformer layer class to wrap in the model.")
                    auto_wrap_policy = functools.partial(
                        transformer_auto_wrap_policy,
                        # Transformer layer class to wrap