feat: 初始提交

08a21d59 · chenpangpang · 1a6b26f1 · 08a21d59 · 08a21d59 · 08a21d59
Commit 08a21d59 authored Dec 27, 2024 by chenpangpang
20 changed files
--- a/Ruyi-Models/ruyi/utils/diffusion_utils.py
+++ b/Ruyi-Models/ruyi/utils/diffusion_utils.py
+# Modified from OpenAI's diffusion repos
+#     GLIDE: https://github.com/openai/glide-text2im/blob/main/glide_text2im/gaussian_diffusion.py
+#     ADM:   https://github.com/openai/guided-diffusion/blob/main/guided_diffusion
+#     IDDPM: https://github.com/openai/improved-diffusion/blob/main/improved_diffusion/gaussian_diffusion.py
+
+import numpy as np
+import torch as th
+
+
+def normal_kl(mean1, logvar1, mean2, logvar2):
+    """
+    Compute the KL divergence between two gaussians.
+    Shapes are automatically broadcasted, so batches can be compared to
+    scalars, among other use cases.
+    """
+    tensor = next(
+        (
+            obj
+            for obj in (mean1, logvar1, mean2, logvar2)
+            if isinstance(obj, th.Tensor)
+        ),
+        None,
+    )
+    assert tensor is not None, "at least one argument must be a Tensor"
+
+    # Force variances to be Tensors. Broadcasting helps convert scalars to
+    # Tensors, but it does not work for th.exp().
+    logvar1, logvar2 = [
+        x if isinstance(x, th.Tensor) else th.tensor(x, device=tensor.device)
+        for x in (logvar1, logvar2)
+    ]
+
+    return 0.5 * (
+        -1.0
+        + logvar2
+        - logvar1
+        + th.exp(logvar1 - logvar2)
+        + ((mean1 - mean2) ** 2) * th.exp(-logvar2)
+    )
+
+
+def approx_standard_normal_cdf(x):
+    """
+    A fast approximation of the cumulative distribution function of the
+    standard normal.
+    """
+    return 0.5 * (1.0 + th.tanh(np.sqrt(2.0 / np.pi) * (x + 0.044715 * th.pow(x, 3))))
+
+
+def continuous_gaussian_log_likelihood(x, *, means, log_scales):
+    """
+    Compute the log-likelihood of a continuous Gaussian distribution.
+    :param x: the targets
+    :param means: the Gaussian mean Tensor.
+    :param log_scales: the Gaussian log stddev Tensor.
+    :return: a tensor like x of log probabilities (in nats).
+    """
+    centered_x = x - means
+    inv_stdv = th.exp(-log_scales)
+    normalized_x = centered_x * inv_stdv
+    return th.distributions.Normal(th.zeros_like(x), th.ones_like(x)).log_prob(
+        normalized_x
+    )
+
+
+def discretized_gaussian_log_likelihood(x, *, means, log_scales):
+    """
+    Compute the log-likelihood of a Gaussian distribution discretizing to a
+    given image.
+    :param x: the target images. It is assumed that this was uint8 values,
+              rescaled to the range [-1, 1].
+    :param means: the Gaussian mean Tensor.
+    :param log_scales: the Gaussian log stddev Tensor.
+    :return: a tensor like x of log probabilities (in nats).
+    """
+    assert x.shape == means.shape == log_scales.shape
+    centered_x = x - means
+    inv_stdv = th.exp(-log_scales)
+    plus_in = inv_stdv * (centered_x + 1.0 / 255.0)
+    cdf_plus = approx_standard_normal_cdf(plus_in)
+    min_in = inv_stdv * (centered_x - 1.0 / 255.0)
+    cdf_min = approx_standard_normal_cdf(min_in)
+    log_cdf_plus = th.log(cdf_plus.clamp(min=1e-12))
+    log_one_minus_cdf_min = th.log((1.0 - cdf_min).clamp(min=1e-12))
+    cdf_delta = cdf_plus - cdf_min
+    log_probs = th.where(
+        x < -0.999,
+        log_cdf_plus,
+        th.where(x > 0.999, log_one_minus_cdf_min, th.log(cdf_delta.clamp(min=1e-12))),
+    )
+    assert log_probs.shape == x.shape
+    return log_probs
\ No newline at end of file
--- a/Ruyi-Models/ruyi/utils/gaussian_diffusion.py
+++ b/Ruyi-Models/ruyi/utils/gaussian_diffusion.py
--- a/Ruyi-Models/ruyi/utils/lora_utils.py
+++ b/Ruyi-Models/ruyi/utils/lora_utils.py
--- a/Ruyi-Models/ruyi/utils/respace.py
+++ b/Ruyi-Models/ruyi/utils/respace.py
--- a/Ruyi-Models/ruyi/utils/utils.py
+++ b/Ruyi-Models/ruyi/utils/utils.py
--- a/Ruyi-Models/ruyi/vae/LICENSE
+++ b/Ruyi-Models/ruyi/vae/LICENSE
--- a/Ruyi-Models/ruyi/vae/README.md
+++ b/Ruyi-Models/ruyi/vae/README.md
--- a/Ruyi-Models/ruyi/vae/README_zh-CN.md
+++ b/Ruyi-Models/ruyi/vae/README_zh-CN.md
--- a/Ruyi-Models/ruyi/vae/configs/autoencoder/autoencoder_kl_32x32x4_mag.yaml
+++ b/Ruyi-Models/ruyi/vae/configs/autoencoder/autoencoder_kl_32x32x4_mag.yaml
--- a/Ruyi-Models/ruyi/vae/configs/autoencoder/autoencoder_kl_32x32x4_slice.yaml
+++ b/Ruyi-Models/ruyi/vae/configs/autoencoder/autoencoder_kl_32x32x4_slice.yaml
--- a/Ruyi-Models/ruyi/vae/configs/autoencoder/autoencoder_kl_32x32x4_slice_decoder_only.yaml
+++ b/Ruyi-Models/ruyi/vae/configs/autoencoder/autoencoder_kl_32x32x4_slice_decoder_only.yaml
--- a/Ruyi-Models/ruyi/vae/configs/autoencoder/autoencoder_kl_32x32x4_slice_t_downsample_8.yaml
+++ b/Ruyi-Models/ruyi/vae/configs/autoencoder/autoencoder_kl_32x32x4_slice_t_downsample_8.yaml
--- a/Ruyi-Models/ruyi/vae/environment.yaml
+++ b/Ruyi-Models/ruyi/vae/environment.yaml
+name: ldm
+channels:
+  - pytorch
+  - defaults
+dependencies:
+  - python=3.8.5
+  - pip=20.3
+  - cudatoolkit=11.3
+  - pytorch=1.11.0
+  - torchvision=0.12.0
+  - numpy=1.19.2
+  - pip:
+    - albumentations==0.4.3
+    - diffusers
+    - opencv-python==4.1.2.30
+    - pudb==2019.2
+    - invisible-watermark
+    - imageio==2.9.0
+    - imageio-ffmpeg==0.4.2
+    - pytorch-lightning==1.4.2
+    - omegaconf==2.1.1
+    - test-tube>=0.7.5
+    - streamlit>=0.73.1
+    - einops==0.3.0
+    - torch-fidelity==0.3.0
+    - transformers==4.19.2
+    - torchmetrics==0.6.0
+    - kornia==0.6
+    - -e .
--- a/Ruyi-Models/ruyi/vae/ldm/data/__init__.py
+++ b/Ruyi-Models/ruyi/vae/ldm/data/__init__.py
--- a/Ruyi-Models/ruyi/vae/ldm/data/base.py
+++ b/Ruyi-Models/ruyi/vae/ldm/data/base.py
--- a/Ruyi-Models/ruyi/vae/ldm/data/dataset_callback.py
+++ b/Ruyi-Models/ruyi/vae/ldm/data/dataset_callback.py
--- a/Ruyi-Models/ruyi/vae/ldm/data/dataset_image_video.py
+++ b/Ruyi-Models/ruyi/vae/ldm/data/dataset_image_video.py
--- a/Ruyi-Models/ruyi/vae/ldm/lr_scheduler.py
+++ b/Ruyi-Models/ruyi/vae/ldm/lr_scheduler.py
--- a/Ruyi-Models/ruyi/vae/ldm/models/__init__.py
+++ b/Ruyi-Models/ruyi/vae/ldm/models/__init__.py
--- a/Ruyi-Models/ruyi/vae/ldm/models/autoencoder.py
+++ b/Ruyi-Models/ruyi/vae/ldm/models/autoencoder.py