Fix Trainer in DataParallel setting (#5685)

* Fix Trainer in DataParallel setting * Fix typo Co-authored-by: Sam Shleifer <sshleifer@gmail.com>

Fix Trainer in DataParallel setting (#5685)
* Fix Trainer in DataParallel setting * Fix typo Co-authored-by: Sam Shleifer <sshleifer@gmail.com>
ce374ba8 · Sylvain Gugger · GitHub · 0a19a49d · ce374ba8
Unverified Commit ce374ba8 authored Jul 13, 2020 by Sylvain Gugger Committed by GitHub Jul 13, 2020
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 0 deletions

src/transformers/trainer.py src/transformers/trainer.py +6 -0

No files found.
--- a/src/transformers/trainer.py
+++ b/src/transformers/trainer.py
@@ -618,6 +618,9 @@ class Trainer:

        if self.args.past_index >= 0 and self._past is not None:
            inputs["mems"] = self._past
+        # Our model outputs do not work with DataParallel, so forcing return tuple.
+        if self.args.n_gpu > 1:
+            inputs["return_tuple"] = True

        outputs = model(**inputs)
        loss = outputs[0]  # model outputs are always tuple in transformers (see doc)
@@ -818,6 +821,9 @@ class Trainer:
                    inputs[k] = v.to(self.args.device)
            if self.args.past_index >= 0:
                inputs["mems"] = past
+            # Our model outputs do not work with DataParallel, so forcing return tuple.
+            if self.args.n_gpu > 1:
+                inputs["return_tuple"] = True

            with torch.no_grad():
                outputs = model(**inputs)