fixing error when using sharded ddp (#18435)

22a0dd2e · Sourab Mangrulkar · GitHub · 5096a654 · 22a0dd2e
Unverified Commit 22a0dd2e authored Aug 03, 2022 by Sourab Mangrulkar Committed by GitHub Aug 03, 2022
Show whitespace changes
Inline Side-by-side

Showing with 1 addition and 3 deletions

src/transformers/trainer.py src/transformers/trainer.py +1 -3

No files found.
--- a/src/transformers/trainer.py
+++ b/src/transformers/trainer.py
@@ -1344,9 +1344,8 @@ class Trainer:
                    reshard_after_forward=zero_3,
                    cpu_offload=cpu_offload,
                ).to(self.args.device)
-
        # Distributed training using PyTorch FSDP
-        if self.fsdp is not None:
+        elif self.fsdp is not None:
            # PyTorch FSDP!
            from torch.distributed.fsdp.fully_sharded_data_parallel import CPUOffload
            from torch.distributed.fsdp.fully_sharded_data_parallel import FullyShardedDataParallel as FSDP
@@ -1394,7 +1393,6 @@ class Trainer:
                )
                if FSDPOption.OFFLOAD not in self.args.fsdp:
                    model.to(self.args.device)
-
        elif is_sagemaker_dp_enabled():
            model = nn.parallel.DistributedDataParallel(
                model, device_ids=[int(os.getenv("SMDATAPARALLEL_LOCAL_RANK"))]