Polish Code

de84c031 · natalie_cao · アマデウス · 152239bb · de84c031 · de84c031
Commit de84c031 authored Apr 11, 2023 by natalie_cao Committed by アマデウス Apr 12, 2023
15 changed files
--- a/examples/images/diffusion/configs/Inference/v2-inference-v.yaml
+++ b/examples/images/diffusion/configs/Inference/v2-inference-v.yaml
 model:
  base_learning_rate: 1.0e-4
-  target: ldm.models.diffusion.ddpm.LatentDiffusion
  params:
    parameterization: "v"
    linear_start: 0.00085
@@ -19,8 +18,6 @@ model:
    use_ema: False # we set this to false because this is an inference only config

    unet_config:
-      target: ldm.modules.diffusionmodules.openaimodel.UNetModel
-      params:
      use_checkpoint: True
      use_fp16: True
      image_size: 32 # unused
@@ -38,8 +35,6 @@ model:
      legacy: False

    first_stage_config:
-      target: ldm.models.autoencoder.AutoencoderKL
-      params:
      embed_dim: 4
      monitor: val/rec_loss
      ddconfig:
@@ -58,11 +53,7 @@ model:
        num_res_blocks: 2
        attn_resolutions: []
        dropout: 0.0
-        lossconfig:
-          target: torch.nn.Identity

    cond_stage_config:
-      target: ldm.modules.encoders.modules.FrozenOpenCLIPEmbedder
-      params:
      freeze: True
      layer: "penultimate"
--- a/examples/images/diffusion/configs/Inference/v2-inference.yaml
+++ b/examples/images/diffusion/configs/Inference/v2-inference.yaml
 model:
  base_learning_rate: 1.0e-4
-  target: ldm.models.diffusion.ddpm.LatentDiffusion
  params:
    linear_start: 0.00085
    linear_end: 0.0120
@@ -18,8 +17,6 @@ model:
    use_ema: False # we set this to false because this is an inference only config

    unet_config:
-      target: ldm.modules.diffusionmodules.openaimodel.UNetModel
-      params:
      use_checkpoint: True
      use_fp16: True
      image_size: 32 # unused
@@ -37,8 +34,6 @@ model:
      legacy: False

    first_stage_config:
-      target: ldm.models.autoencoder.AutoencoderKL
-      params:
      embed_dim: 4
      monitor: val/rec_loss
      ddconfig:
@@ -57,11 +52,7 @@ model:
        num_res_blocks: 2
        attn_resolutions: []
        dropout: 0.0
-        lossconfig:
-          target: torch.nn.Identity

    cond_stage_config:
-      target: ldm.modules.encoders.modules.FrozenOpenCLIPEmbedder
-      params:
      freeze: True
      layer: "penultimate"
--- a/examples/images/diffusion/configs/Inference/v2-inpainting-inference.yaml
+++ b/examples/images/diffusion/configs/Inference/v2-inpainting-inference.yaml
@@ -19,8 +19,6 @@ model:
    use_ema: False

    unet_config:
-      target: ldm.modules.diffusionmodules.openaimodel.UNetModel
-      params:
      use_checkpoint: True
      image_size: 32 # unused
      in_channels: 9
@@ -37,8 +35,6 @@ model:
      legacy: False

    first_stage_config:
-      target: ldm.models.autoencoder.AutoencoderKL
-      params:
      embed_dim: 4
      monitor: val/rec_loss
      ddconfig:
@@ -58,18 +54,13 @@ model:
        attn_resolutions: [ ]
        dropout: 0.0
      lossconfig:
-          target: torch.nn.Identity

    cond_stage_config:
-      target: ldm.modules.encoders.modules.FrozenOpenCLIPEmbedder
-      params:
      freeze: True
      layer: "penultimate"


 data:
-  target: ldm.data.laion.WebDataModuleFromConfig
-  params:
  tar_base: null  # for concat as in LAION-A
  p_unsafe_threshold: 0.1
  filter_word_list: "data/filters.yaml"
@@ -132,8 +123,6 @@ lightning:
        every_n_train_steps: 10000

    image_logger:
-      target: main.ImageLogger
-      params:
        enable_autocast: False
        disabled: False
        batch_frequency: 1000

--- a/examples/images/diffusion/configs/Inference/v2-midas-inference.yaml
+++ b/examples/images/diffusion/configs/Inference/v2-midas-inference.yaml
@@ -19,13 +19,9 @@ model:
    use_ema: False

    depth_stage_config:
-      target: ldm.modules.midas.api.MiDaSInference
-      params:
      model_type: "dpt_hybrid"

    unet_config:
-      target: ldm.modules.diffusionmodules.openaimodel.UNetModel
-      params:
      use_checkpoint: True
      image_size: 32 # unused
      in_channels: 5
@@ -42,8 +38,6 @@ model:
      legacy: False

    first_stage_config:
-      target: ldm.models.autoencoder.AutoencoderKL
-      params:
      embed_dim: 4
      monitor: val/rec_loss
      ddconfig:
@@ -63,10 +57,7 @@ model:
        attn_resolutions: [ ]
        dropout: 0.0
      lossconfig:
-          target: torch.nn.Identity

    cond_stage_config:
-      target: ldm.modules.encoders.modules.FrozenOpenCLIPEmbedder
-      params:
      freeze: True
      layer: "penultimate"
--- a/examples/images/diffusion/configs/Inference/x4-upscaling.yaml
+++ b/examples/images/diffusion/configs/Inference/x4-upscaling.yaml
@@ -20,16 +20,12 @@ model:
    use_ema: False

    low_scale_config:
-      target: ldm.modules.diffusionmodules.upscaling.ImageConcatWithNoiseAugmentation
-      params:
      noise_schedule_config: # image space
        linear_start: 0.0001
        linear_end: 0.02
      max_noise_level: 350

    unet_config:
-      target: ldm.modules.diffusionmodules.openaimodel.UNetModel
-      params:
      use_checkpoint: True
      num_classes: 1000  # timesteps for noise conditioning (here constant, just need one)
      image_size: 128
@@ -49,8 +45,6 @@ model:
      use_linear_in_transformer: True

    first_stage_config:
-      target: ldm.models.autoencoder.AutoencoderKL
-      params:
      embed_dim: 4
      ddconfig:
        # attn_type: "vanilla-xformers" this model needs efficient attention to be feasible on HR data, also the decoder seems to break in half precision (UNet is fine though)
@@ -64,12 +58,9 @@ model:
        num_res_blocks: 2
        attn_resolutions: [ ]
        dropout: 0.0
-
      lossconfig:
-          target: torch.nn.Identity
+

    cond_stage_config:
-      target: ldm.modules.encoders.modules.FrozenOpenCLIPEmbedder
-      params:
      freeze: True
      layer: "penultimate"
--- a/examples/images/diffusion/configs/Teyvat/train_colossalai_teyvat.yaml
+++ b/examples/images/diffusion/configs/Teyvat/train_colossalai_teyvat.yaml
 model:
  base_learning_rate: 1.0e-4
-  target: ldm.models.diffusion.ddpm.LatentDiffusion
  params:
    parameterization: "v"
    linear_start: 0.00085
@@ -20,8 +19,6 @@ model:
    use_ema: False

    scheduler_config: # 10000 warmup steps
-      target: ldm.lr_scheduler.LambdaLinearScheduler
-      params:
      warm_up_steps: [ 1 ] # NOTE for resuming. use 10000 if starting from scratch
      cycle_lengths: [ 10000000000000 ] # incredibly large number to prevent corner cases
      f_start: [ 1.e-6 ]
@@ -30,8 +27,6 @@ model:


    unet_config:
-      target: ldm.modules.diffusionmodules.openaimodel.UNetModel
-      params:
      use_checkpoint: True
      use_fp16: True
      image_size: 32 # unused
@@ -49,8 +44,6 @@ model:
      legacy: False

    first_stage_config:
-      target: ldm.models.autoencoder.AutoencoderKL
-      params:
      embed_dim: 4
      monitor: val/rec_loss
      ddconfig:
@@ -70,17 +63,12 @@ model:
        attn_resolutions: []
        dropout: 0.0
      lossconfig:
-          target: torch.nn.Identity

    cond_stage_config:
-      target: ldm.modules.encoders.modules.FrozenOpenCLIPEmbedder
-      params:
      freeze: True
      layer: "penultimate"

 data:
-  target: main.DataModuleFromConfig
-  params:
  batch_size: 16
  num_workers: 4
  train:
@@ -105,8 +93,6 @@ lightning:
    precision: 16
    auto_select_gpus: False
    strategy:
-      target: strategies.ColossalAIStrategy
-      params:
      use_chunk: True
      enable_distributed_storage: True
      placement_policy: cuda
@@ -120,8 +106,6 @@ lightning:

  logger_config:
    wandb:
-      target: loggers.WandbLogger
-      params:
      name: nowname
      save_dir: "/tmp/diff_log/"
      offline: opt.debug

--- a/examples/images/diffusion/configs/train_colossalai.yaml
+++ b/examples/images/diffusion/configs/train_colossalai.yaml
 model:
  base_learning_rate: 1.0e-4
-  target: ldm.models.diffusion.ddpm.LatentDiffusion
  params:
    parameterization: "v"
    linear_start: 0.00085
@@ -19,8 +18,6 @@ model:
    use_ema: False # we set this to false because this is an inference only config

    scheduler_config: # 10000 warmup steps
-      target: ldm.lr_scheduler.LambdaLinearScheduler
-      params:
      warm_up_steps: [ 1 ] # NOTE for resuming. use 10000 if starting from scratch
      cycle_lengths: [ 10000000000000 ] # incredibly large number to prevent corner cases
      f_start: [ 1.e-6 ]
@@ -29,8 +26,6 @@ model:


    unet_config:
-      target: ldm.modules.diffusionmodules.openaimodel.UNetModel
-      params:
      use_checkpoint: True
      use_fp16: True
      image_size: 32 # unused
@@ -48,8 +43,6 @@ model:
      legacy: False

    first_stage_config:
-      target: ldm.models.autoencoder.AutoencoderKL
-      params:
      embed_dim: 4
      monitor: val/rec_loss
      ddconfig:
@@ -69,17 +62,13 @@ model:
        attn_resolutions: []
        dropout: 0.0
      lossconfig:
-          target: torch.nn.Identity
+

    cond_stage_config:
-      target: ldm.modules.encoders.modules.FrozenOpenCLIPEmbedder
-      params:
      freeze: True
      layer: "penultimate"

 data:
-  target: main.DataModuleFromConfig
-  params:
  batch_size: 128
  wrap: False
  # num_workwers should be 2 * batch_size, and total num less than 1024
@@ -95,14 +84,12 @@ data:
 lightning:
  trainer:
    accelerator: 'gpu'
-    devices: 8
+    devices: 2
    log_gpu_memory: all
    max_epochs: 2
    precision: 16
    auto_select_gpus: False
    strategy:
-      target: strategies.ColossalAIStrategy
-      params:
      use_chunk: True
      enable_distributed_storage: True
      placement_policy: cuda
@@ -116,8 +103,6 @@ lightning:

  logger_config:
    wandb:
-      target: loggers.WandbLogger
-      params:
      name: nowname
      save_dir: "/tmp/diff_log/"
      offline: opt.debug

--- a/examples/images/diffusion/configs/train_colossalai_cifar10.yaml
+++ b/examples/images/diffusion/configs/train_colossalai_cifar10.yaml
 model:
  base_learning_rate: 1.0e-4
-  target: ldm.models.diffusion.ddpm.LatentDiffusion
  params:
    parameterization: "v"
    linear_start: 0.00085
@@ -19,8 +18,6 @@ model:
    use_ema: False # we set this to false because this is an inference only config

    scheduler_config: # 10000 warmup steps
-      target: ldm.lr_scheduler.LambdaLinearScheduler
-      params:
      warm_up_steps: [ 1 ] # NOTE for resuming. use 10000 if starting from scratch
      cycle_lengths: [ 10000000000000 ] # incredibly large number to prevent corner cases
      f_start: [ 1.e-6 ]
@@ -29,8 +26,6 @@ model:


    unet_config:
-      target: ldm.modules.diffusionmodules.openaimodel.UNetModel
-      params:
      use_checkpoint: True
      use_fp16: True
      image_size: 32 # unused
@@ -48,8 +43,6 @@ model:
      legacy: False

    first_stage_config:
-      target: ldm.models.autoencoder.AutoencoderKL
-      params:
      embed_dim: 4
      monitor: val/rec_loss
      ddconfig:
@@ -69,17 +62,12 @@ model:
        attn_resolutions: []
        dropout: 0.0
      lossconfig:
-          target: torch.nn.Identity

    cond_stage_config:
-      target: ldm.modules.encoders.modules.FrozenOpenCLIPEmbedder
-      params:
      freeze: True
      layer: "penultimate"

 data:
-  target: main.DataModuleFromConfig
-  params:
  batch_size: 4
  num_workers: 4
  train:
@@ -105,8 +93,6 @@ lightning:
    precision: 16
    auto_select_gpus: False
    strategy:
-      target: strategies.ColossalAIStrategy
-      params:
      use_chunk: True
      enable_distributed_storage: True
      placement_policy: cuda
@@ -120,8 +106,6 @@ lightning:

  logger_config:
    wandb:
-      target: loggers.WandbLogger
-      params:
        name: nowname
        save_dir: "/tmp/diff_log/"
        offline: opt.debug

--- a/examples/images/diffusion/configs/train_ddp.yaml
+++ b/examples/images/diffusion/configs/train_ddp.yaml
 model:
  base_learning_rate: 1.0e-4
-  target: ldm.models.diffusion.ddpm.LatentDiffusion
  params:
    parameterization: "v"
    linear_start: 0.00085
@@ -19,8 +18,6 @@ model:
    use_ema: False # we set this to false because this is an inference only config

    scheduler_config: # 10000 warmup steps
-      target: ldm.lr_scheduler.LambdaLinearScheduler
-      params:
      warm_up_steps: [ 1 ] # NOTE for resuming. use 10000 if starting from scratch
      cycle_lengths: [ 10000000000000 ] # incredibly large number to prevent corner cases
      f_start: [ 1.e-6 ]
@@ -29,8 +26,6 @@ model:


    unet_config:
-      target: ldm.modules.diffusionmodules.openaimodel.UNetModel
-      params:
      use_checkpoint: True
      use_fp16: True
      image_size: 32 # unused
@@ -48,8 +43,6 @@ model:
      legacy: False

    first_stage_config:
-      target: ldm.models.autoencoder.AutoencoderKL
-      params:
      embed_dim: 4
      monitor: val/rec_loss
      ddconfig:
@@ -68,18 +61,12 @@ model:
        num_res_blocks: 2
        attn_resolutions: []
        dropout: 0.0
-        lossconfig:
-          target: torch.nn.Identity

    cond_stage_config:
-      target: ldm.modules.encoders.modules.FrozenOpenCLIPEmbedder
-      params:
      freeze: True
      layer: "penultimate"

 data:
-  target: main.DataModuleFromConfig
-  params:
  batch_size: 128
  # num_workwers should be 2 * batch_size, and the total num less than 1024
  # e.g. if use 8 devices, no more than 128
@@ -100,8 +87,6 @@ lightning:
    precision: 16
    auto_select_gpus: False
    strategy:
-      target: strategies.DDPStrategy
-      params:
      find_unused_parameters: False
    log_every_n_steps: 2
 #    max_steps: 6o
@@ -111,8 +96,6 @@ lightning:

  logger_config:
    wandb:
-      target: loggers.WandbLogger
-      params:
      name: nowname
      save_dir: "/data2/tmp/diff_log/"
      offline: opt.debug

--- a/examples/images/diffusion/ldm/models/autoencoder.py
+++ b/examples/images/diffusion/ldm/models/autoencoder.py
 import torch
-try:
-    import lightning.pytorch as pl
-except:
-    import pytorch_lightning as pl
+import lightning.pytorch as pl

-import torch.nn.functional as F
+from torch import nn
+from torch.nn import functional as F
+from torch.nn import Identity
 from contextlib import contextmanager

 from ldm.modules.diffusionmodules.model import Encoder, Decoder
 from ldm.modules.distributions.distributions import DiagonalGaussianDistribution
-
-from ldm.util import instantiate_from_config
 from ldm.modules.ema import LitEma


@@ -32,7 +29,7 @@ class AutoencoderKL(pl.LightningModule):
        self.image_key = image_key
        self.encoder = Encoder(**ddconfig)
        self.decoder = Decoder(**ddconfig)
-        self.loss = instantiate_from_config(lossconfig)
+        self.loss = Identity()
        assert ddconfig["double_z"]
        self.quant_conv = torch.nn.Conv2d(2*ddconfig["z_channels"], 2*embed_dim, 1)
        self.post_quant_conv = torch.nn.Conv2d(embed_dim, ddconfig["z_channels"], 1)

--- a/examples/images/diffusion/ldm/models/diffusion/classifier.py
+++ b/examples/images/diffusion/ldm/models/diffusion/classifier.py
@@ -9,9 +9,10 @@ from copy import deepcopy
 from einops import rearrange
 from glob import glob
 from natsort import natsorted
-
+from ldm.models.diffusion.ddpm import LatentDiffusion
+from ldm.lr_scheduler import LambdaLinearScheduler
 from ldm.modules.diffusionmodules.openaimodel import EncoderUNetModel, UNetModel
-from ldm.util import log_txt_as_img, default, ismap, instantiate_from_config
+from ldm.util import log_txt_as_img, default, ismap

 __models__ = {
    'class_label': EncoderUNetModel,
@@ -86,7 +87,7 @@ class NoisyLatentImageClassifier(pl.LightningModule):
            print(f"Unexpected Keys: {unexpected}")

    def load_diffusion(self):
-        model = instantiate_from_config(self.diffusion_config)
+        model = LatentDiffusion(**self.diffusion_config.get('params',dict()))
        self.diffusion_model = model.eval()
        self.diffusion_model.train = disabled_train
        for param in self.diffusion_model.parameters():
@@ -221,7 +222,7 @@ class NoisyLatentImageClassifier(pl.LightningModule):
        optimizer = AdamW(self.model.parameters(), lr=self.learning_rate, weight_decay=self.weight_decay)

        if self.use_scheduler:
-            scheduler = instantiate_from_config(self.scheduler_config)
+            scheduler = LambdaLinearScheduler(**self.scheduler_config.get('params',dict()))

            print("Setting up LambdaLR scheduler...")
            scheduler = [

--- a/examples/images/diffusion/ldm/models/diffusion/ddpm.py
+++ b/examples/images/diffusion/ldm/models/diffusion/ddpm.py
@@ -22,19 +22,22 @@ from contextlib import contextmanager, nullcontext
 from functools import partial

 from einops import rearrange, repeat
+from ldm.lr_scheduler import LambdaLinearScheduler
 from ldm.models.autoencoder import *
 from ldm.models.autoencoder import AutoencoderKL, IdentityFirstStage
 from ldm.models.diffusion.ddim import *
 from ldm.models.diffusion.ddim import DDIMSampler
+from ldm.modules.midas.api import MiDaSInference
 from ldm.modules.diffusionmodules.model import *
 from ldm.modules.diffusionmodules.model import Decoder, Encoder, Model
 from ldm.modules.diffusionmodules.openaimodel import *
-from ldm.modules.diffusionmodules.openaimodel import AttentionPool2d
+from ldm.modules.diffusionmodules.openaimodel import AttentionPool2d, UNetModel
 from ldm.modules.diffusionmodules.util import extract_into_tensor, make_beta_schedule, noise_like
 from ldm.modules.distributions.distributions import DiagonalGaussianDistribution, normal_kl
+from ldm.modules.diffusionmodules.upscaling import ImageConcatWithNoiseAugmentation
 from ldm.modules.ema import LitEma
 from ldm.modules.encoders.modules import *
-from ldm.util import count_params, default, exists, instantiate_from_config, isimage, ismap, log_txt_as_img, mean_flat
+from ldm.util import count_params, default, exists, isimage, ismap, log_txt_as_img, mean_flat
 from omegaconf import ListConfig
 from torch.optim.lr_scheduler import LambdaLR
 from torchvision.utils import make_grid
@@ -690,7 +693,7 @@ class LatentDiffusion(DDPM):
            self.make_cond_schedule()

    def instantiate_first_stage(self, config):
-        model = instantiate_from_config(config)
+        model = AutoencoderKL(**config)
        self.first_stage_model = model.eval()
        self.first_stage_model.train = disabled_train
        for param in self.first_stage_model.parameters():
@@ -706,15 +709,13 @@ class LatentDiffusion(DDPM):
                self.cond_stage_model = None
                # self.be_unconditional = True
            else:
-                model = instantiate_from_config(config)
+                model = FrozenOpenCLIPEmbedder(**config)
                self.cond_stage_model = model.eval()
                self.cond_stage_model.train = disabled_train
                for param in self.cond_stage_model.parameters():
                    param.requires_grad = False
        else:
-            assert config != '__is_first_stage__'
-            assert config != '__is_unconditional__'
-            model = instantiate_from_config(config)
+            model = FrozenOpenCLIPEmbedder(**config)
            self.cond_stage_model = model

    def _get_denoise_row_from_list(self, samples, desc='', force_no_decoder_quantization=False):
@@ -1479,8 +1480,7 @@ class LatentDiffusion(DDPM):

        # opt = torch.optim.AdamW(params, lr=lr)
        if self.use_scheduler:
-            assert 'target' in self.scheduler_config
-            scheduler = instantiate_from_config(self.scheduler_config)
+            scheduler = LambdaLinearScheduler(**self.scheduler_config)

            rank_zero_info("Setting up LambdaLR scheduler...")
            scheduler = [{'scheduler': LambdaLR(opt, lr_lambda=scheduler.schedule), 'interval': 'step', 'frequency': 1}]
@@ -1502,7 +1502,7 @@ class DiffusionWrapper(pl.LightningModule):
    def __init__(self, diff_model_config, conditioning_key):
        super().__init__()
        self.sequential_cross_attn = diff_model_config.pop("sequential_crossattn", False)
-        self.diffusion_model = instantiate_from_config(diff_model_config)
+        self.diffusion_model = UNetModel(**diff_model_config)
        self.conditioning_key = conditioning_key
        assert self.conditioning_key in [None, 'concat', 'crossattn', 'hybrid', 'adm', 'hybrid-adm', 'crossattn-adm']

@@ -1551,7 +1551,7 @@ class LatentUpscaleDiffusion(LatentDiffusion):
        self.noise_level_key = noise_level_key

    def instantiate_low_stage(self, config):
-        model = instantiate_from_config(config)
+        model = ImageConcatWithNoiseAugmentation(**config)
        self.low_scale_model = model.eval()
        self.low_scale_model.train = disabled_train
        for param in self.low_scale_model.parameters():
@@ -1933,7 +1933,7 @@ class LatentDepth2ImageDiffusion(LatentFinetuneDiffusion):

    def __init__(self, depth_stage_config, concat_keys=("midas_in",), *args, **kwargs):
        super().__init__(concat_keys=concat_keys, *args, **kwargs)
-        self.depth_model = instantiate_from_config(depth_stage_config)
+        self.depth_model = MiDaSInference(**depth_stage_config)
        self.depth_stage_key = concat_keys[0]

    @torch.no_grad()
@@ -2006,7 +2006,7 @@ class LatentUpscaleFinetuneDiffusion(LatentFinetuneDiffusion):
            self.low_scale_key = low_scale_key

    def instantiate_low_stage(self, config):
-        model = instantiate_from_config(config)
+        model = ImageConcatWithNoiseAugmentation(**config)
        self.low_scale_model = model.eval()
        self.low_scale_model.train = disabled_train
        for param in self.low_scale_model.parameters():

--- a/examples/images/diffusion/main.py
+++ b/examples/images/diffusion/main.py
@@ -10,11 +10,8 @@ import time
 import numpy as np
 import torch
 import torchvision
+import lightning.pytorch as pl

-try:
-    import lightning.pytorch as pl
-except:
-    import pytorch_lightning as pl

 from functools import partial

@@ -23,19 +20,15 @@ from packaging import version
 from PIL import Image
 from prefetch_generator import BackgroundGenerator
 from torch.utils.data import DataLoader, Dataset, Subset, random_split
+from ldm.models.diffusion.ddpm import LatentDiffusion

-try:
-    from lightning.pytorch import seed_everything
-    from lightning.pytorch.callbacks import Callback, LearningRateMonitor, ModelCheckpoint
-    from lightning.pytorch.trainer import Trainer
-    from lightning.pytorch.utilities import rank_zero_info, rank_zero_only
-    LIGHTNING_PACK_NAME = "lightning.pytorch."
-except:
-    from pytorch_lightning import seed_everything
-    from pytorch_lightning.callbacks import Callback, LearningRateMonitor, ModelCheckpoint
-    from pytorch_lightning.trainer import Trainer
-    from pytorch_lightning.utilities import rank_zero_info, rank_zero_only
-    LIGHTNING_PACK_NAME = "pytorch_lightning."
+from lightning.pytorch import seed_everything
+from lightning.pytorch.callbacks import Callback, LearningRateMonitor, ModelCheckpoint
+from lightning.pytorch.trainer import Trainer
+from lightning.pytorch.utilities import rank_zero_info, rank_zero_only
+from lightning.pytorch.loggers import WandbLogger, TensorBoardLogger
+from lightning.pytorch.strategies import ColossalAIStrategy,DDPStrategy
+LIGHTNING_PACK_NAME = "lightning.pytorch."

 from ldm.data.base import Txt2ImgIterableBaseDataset
 from ldm.util import instantiate_from_config
@@ -687,86 +680,72 @@ if __name__ == "__main__":
            config.model["params"].update({"ckpt": ckpt})
            rank_zero_info("Using ckpt_path = {}".format(config.model["params"]["ckpt"]))

-        model = instantiate_from_config(config.model)
+        model = LatentDiffusion(**config.model.get("params", dict()))
        # trainer and callbacks
        trainer_kwargs = dict()

        # config the logger
        # Default logger configs to  log training metrics during the training process.
-        # These loggers are specified as targets in the dictionary, along with the configuration settings specific to each logger.
        default_logger_cfgs = {
            "wandb": {
-                "target": LIGHTNING_PACK_NAME + "loggers.WandbLogger",
-                "params": {
                    "name": nowname,
                    "save_dir": logdir,
                    "offline": opt.debug,
                    "id": nowname,
                }
-            },
+            ,
            "tensorboard": {
-                "target": LIGHTNING_PACK_NAME + "loggers.TensorBoardLogger",
-                "params": {
                    "save_dir": logdir,
                    "name": "diff_tb",
                    "log_graph": True
                }
        }
-        }

        # Set up the logger for TensorBoard
        default_logger_cfg = default_logger_cfgs["tensorboard"]
        if "logger" in lightning_config:
            logger_cfg = lightning_config.logger
+            trainer_kwargs["logger"] = WandbLogger(**logger_cfg)
        else:
            logger_cfg = default_logger_cfg
-        logger_cfg = OmegaConf.merge(default_logger_cfg, logger_cfg)
-        trainer_kwargs["logger"] = instantiate_from_config(logger_cfg)
+            trainer_kwargs["logger"] = TensorBoardLogger(**logger_cfg)

        # config the strategy, defualt is ddp
        if "strategy" in trainer_config:
            strategy_cfg = trainer_config["strategy"]
-            strategy_cfg["target"] = LIGHTNING_PACK_NAME + strategy_cfg["target"]
+            trainer_kwargs["strategy"] = ColossalAIStrategy(**strategy_cfg)
        else:
-            strategy_cfg = {
-                "target": LIGHTNING_PACK_NAME + "strategies.DDPStrategy",
-                "params": {
-                    "find_unused_parameters": False
-                }
-            }
-
-        trainer_kwargs["strategy"] = instantiate_from_config(strategy_cfg)
+            strategy_cfg = {"find_unused_parameters": False}
+            trainer_kwargs["strategy"] = DDPStrategy(**strategy_cfg)

        # Set up ModelCheckpoint callback to save best models
        # modelcheckpoint - use TrainResult/EvalResult(checkpoint_on=metric) to
        # specify which metric is used to determine best models
        default_modelckpt_cfg = {
-            "target": LIGHTNING_PACK_NAME + "callbacks.ModelCheckpoint",
-            "params": {
                "dirpath": ckptdir,
                "filename": "{epoch:06}",
                "verbose": True,
                "save_last": True,
            }
-        }
        if hasattr(model, "monitor"):
-            default_modelckpt_cfg["params"]["monitor"] = model.monitor
-            default_modelckpt_cfg["params"]["save_top_k"] = 3
+            default_modelckpt_cfg["monitor"] = model.monitor
+            default_modelckpt_cfg["save_top_k"] = 3

        if "modelcheckpoint" in lightning_config:
-            modelckpt_cfg = lightning_config.modelcheckpoint
+            modelckpt_cfg = lightning_config.modelcheckpoint["params"]
        else:
            modelckpt_cfg = OmegaConf.create()
        modelckpt_cfg = OmegaConf.merge(default_modelckpt_cfg, modelckpt_cfg)
        if version.parse(pl.__version__) < version.parse('1.4.0'):
-            trainer_kwargs["checkpoint_callback"] = instantiate_from_config(modelckpt_cfg)
-
-        # Set up various callbacks, including logging, learning rate monitoring, and CUDA management
-        # add callback which sets up log directory
-        default_callbacks_cfg = {
-            "setup_callback": {                           # callback to set up the training
-                "target": "main.SetupCallback",
-                "params": {
+            trainer_kwargs["checkpoint_callback"] = ModelCheckpoint(**modelckpt_cfg)
+
+        #Create an empty OmegaConf configuration object
+
+        callbacks_cfg = OmegaConf.create()
+       
+        #Instantiate items according to the configs
+        trainer_kwargs.setdefault("callbacks", [])
+        setup_callback_config = {
            "resume": opt.resume,                 # resume training if applicable
            "now": now, 
            "logdir": logdir,                     # directory to save the log file
@@ -775,43 +754,23 @@ if __name__ == "__main__":
            "config": config,                     # configuration dictionary
            "lightning_config": lightning_config, # LightningModule configuration
            }
-            },
-            "image_logger": {                             # callback to log image data
-                "target": "main.ImageLogger",
-                "params": {
+        trainer_kwargs["callbacks"].append(SetupCallback(**setup_callback_config))
+        
+        image_logger_config = {
+    
            "batch_frequency": 750,               # how frequently to log images
            "max_images": 4,                      # maximum number of images to log
            "clamp": True                         # whether to clamp pixel values to [0,1]
            }
-            },
-            "learning_rate_logger": {                     # callback to log learning rate
-                "target": "main.LearningRateMonitor",
-                "params": {
+        trainer_kwargs["callbacks"].append(ImageLogger(**image_logger_config))
+        
+        learning_rate_logger_config = {
            "logging_interval": "step",           # logging frequency (either 'step' or 'epoch')
        # "log_momentum": True                            # whether to log momentum (currently commented out)
            }
-            },
-            "cuda_callback": {                            # callback to handle CUDA-related operations
-                "target": "main.CUDACallback"
-            },
-        }
-
-        # If the LightningModule configuration has specified callbacks, use those
-        # Otherwise, create an empty OmegaConf configuration object
-        if "callbacks" in lightning_config:
-            callbacks_cfg = lightning_config.callbacks
-        else:
-            callbacks_cfg = OmegaConf.create()
+        trainer_kwargs["callbacks"].append(LearningRateMonitor(**learning_rate_logger_config))
        
-        # If the 'metrics_over_trainsteps_checkpoint' callback is specified in the
-        # LightningModule configuration, update the default callbacks configuration
-        if 'metrics_over_trainsteps_checkpoint' in callbacks_cfg:
-            print(
-                'Caution: Saving checkpoints every n train steps without deleting. This might require some free space.')
-            default_metrics_over_trainsteps_ckpt_dict = {
-                'metrics_over_trainsteps_checkpoint': {
-                    "target": LIGHTNING_PACK_NAME + 'callbacks.ModelCheckpoint',
-                    'params': {
+        metrics_over_trainsteps_checkpoint_config= {
            "dirpath": os.path.join(ckptdir, 'trainstep_checkpoints'),
            "filename": "{epoch:06}-{step:09}",
            "verbose": True,
@@ -819,21 +778,16 @@ if __name__ == "__main__":
            'every_n_train_steps': 10000,
            'save_weights_only': True
            }
-                }
-            }
-            default_callbacks_cfg.update(default_metrics_over_trainsteps_ckpt_dict)
-        
-        # Merge the default callbacks configuration with the specified callbacks configuration, and instantiate the callbacks
-        callbacks_cfg = OmegaConf.merge(default_callbacks_cfg, callbacks_cfg)
-
-        trainer_kwargs["callbacks"] = [instantiate_from_config(callbacks_cfg[k]) for k in callbacks_cfg]
+        trainer_kwargs["callbacks"].append(ModelCheckpoint(**metrics_over_trainsteps_checkpoint_config))
+        trainer_kwargs["callbacks"].append(CUDACallback())

        # Create a Trainer object with the specified command-line arguments and keyword arguments, and set the log directory
        trainer = Trainer.from_argparse_args(trainer_opt, **trainer_kwargs)
        trainer.logdir = logdir

        # Create a data module based on the configuration file
-        data = instantiate_from_config(config.data)
+        data = DataModuleFromConfig(**config.data)
+
        # NOTE according to https://pytorch-lightning.readthedocs.io/en/latest/datamodules.html
        # calling these ourselves should not be necessary but it is.
        # lightning still takes care of proper multiprocessing though
@@ -846,7 +800,7 @@ if __name__ == "__main__":

        # Configure learning rate based on the batch size, base learning rate and number of GPUs
        # If scale_lr is true, calculate the learning rate based on additional factors
-        bs, base_lr = config.data.params.batch_size, config.model.base_learning_rate
+        bs, base_lr = config.data.batch_size, config.model.base_learning_rate
        if not cpu:
            ngpu = trainer_config["devices"]
        else:

--- a/examples/images/diffusion/scripts/tests/test_checkpoint.py
+++ b/examples/images/diffusion/scripts/tests/test_checkpoint.py
@@ -7,8 +7,9 @@ from datetime import datetime

 from diffusers import StableDiffusionPipeline
 import torch
-from ldm.util import instantiate_from_config
+
 from main import get_parser
+from ldm.modules.diffusionmodules.openaimodel import UNetModel

 if __name__ == "__main__":
    with torch.no_grad():
@@ -17,7 +18,7 @@ if __name__ == "__main__":
            config = f.read()
        base_config = yaml.load(config, Loader=yaml.FullLoader)
        unet_config = base_config['model']['params']['unet_config']
-        diffusion_model = instantiate_from_config(unet_config).to("cuda:0")
+        diffusion_model = UNetModel(**unet_config).to("cuda:0")

        pipe = StableDiffusionPipeline.from_pretrained(
            "/data/scratch/diffuser/stable-diffusion-v1-4"

--- a/examples/images/diffusion/train_colossalai.sh
+++ b/examples/images/diffusion/train_colossalai.sh
@@ -3,3 +3,4 @@ TRANSFORMERS_OFFLINE=1
 DIFFUSERS_OFFLINE=1

 python main.py --logdir /tmp --train --base configs/Teyvat/train_colossalai_teyvat.yaml --ckpt diffuser_root_dir/512-base-ema.ckpt
+