fix error reported 'find_unused_parameters' running in mutiple GPUs (#5355)

* fix error reported 'find_unused_parameters' running in mutiple GPUs or NPUs * fix code check of importing module by its alphabetic order --------- Co-authored-by: jiaqiw <wangjiaqi50@huawei.com> Co-authored-by: Dhruv Nair <dhruv.nair@gmail.com>

fix error reported 'find_unused_parameters' running in mutiple GPUs (#5355)
* fix error reported 'find_unused_parameters' running in mutiple GPUs or NPUs * fix code check of importing module by its alphabetic order --------- Co-authored-by: jiaqiw <wangjiaqi50@huawei.com> Co-authored-by: Dhruv Nair <dhruv.nair@gmail.com>
e140c056 · jiaqiw09 · GitHub · 595ba6f7 · e140c056 · e140c056
Unverified Commit e140c056 authored Oct 27, 2023 by jiaqiw09 Committed by GitHub Oct 27, 2023
Showing with 6 additions and 4 deletions

examples/dreambooth/train_dreambooth_lora_sdxl.py examples/dreambooth/train_dreambooth_lora_sdxl.py +3 -2

examples/text_to_image/train_text_to_image_lora_sdxl.py examples/text_to_image/train_text_to_image_lora_sdxl.py +3 -2

No files found.
--- a/examples/dreambooth/train_dreambooth_lora_sdxl.py
+++ b/examples/dreambooth/train_dreambooth_lora_sdxl.py
@@ -31,7 +31,7 @@ import torch.utils.checkpoint
 import transformers
 from accelerate import Accelerator
 from accelerate.logging import get_logger
-from accelerate.utils import ProjectConfiguration, set_seed
+from accelerate.utils import DistributedDataParallelKwargs, ProjectConfiguration, set_seed
 from huggingface_hub import create_repo, upload_folder
 from packaging import version
 from PIL import Image
@@ -579,12 +579,13 @@ def main(args):
    logging_dir = Path(args.output_dir, args.logging_dir)

    accelerator_project_config = ProjectConfiguration(project_dir=args.output_dir, logging_dir=logging_dir)
-
+    kwargs = DistributedDataParallelKwargs(find_unused_parameters=True)
    accelerator = Accelerator(
        gradient_accumulation_steps=args.gradient_accumulation_steps,
        mixed_precision=args.mixed_precision,
        log_with=args.report_to,
        project_config=accelerator_project_config,
+        kwargs_handlers=[kwargs],
    )

    if args.report_to == "wandb":

--- a/examples/text_to_image/train_text_to_image_lora_sdxl.py
+++ b/examples/text_to_image/train_text_to_image_lora_sdxl.py
@@ -33,7 +33,7 @@ import torch.utils.checkpoint
 import transformers
 from accelerate import Accelerator
 from accelerate.logging import get_logger
-from accelerate.utils import ProjectConfiguration, set_seed
+from accelerate.utils import DistributedDataParallelKwargs, ProjectConfiguration, set_seed
 from datasets import load_dataset
 from huggingface_hub import create_repo, upload_folder
 from packaging import version
@@ -491,12 +491,13 @@ def main(args):
    logging_dir = Path(args.output_dir, args.logging_dir)

    accelerator_project_config = ProjectConfiguration(project_dir=args.output_dir, logging_dir=logging_dir)
-
+    kwargs = DistributedDataParallelKwargs(find_unused_parameters=True)
    accelerator = Accelerator(
        gradient_accumulation_steps=args.gradient_accumulation_steps,
        mixed_precision=args.mixed_precision,
        log_with=args.report_to,
        project_config=accelerator_project_config,
+        kwargs_handlers=[kwargs],
    )

    if args.report_to == "wandb":