DPMSolverMultistep add `rescale_betas_zero_snr` (#7097)

* DPMMultistep rescale_betas_zero_snr * DPM upcast samples in step() * DPM rescale_betas_zero_snr UT * DPMSolverMulti move sample upcast after model convert Avoids having to re-use the dtype. * Add a newline for Ruff

DPMSolverMultistep add `rescale_betas_zero_snr` (#7097)
* DPMMultistep rescale_betas_zero_snr * DPM upcast samples in step() * DPM rescale_betas_zero_snr UT * DPMSolverMulti move sample upcast after model convert Avoids having to re-use the dtype. * Add a newline for Ruff
2e31a759 · Beinsezii · GitHub · e51862bb · 2e31a759 · 2e31a759
Unverified Commit 2e31a759 authored Feb 27, 2024 by Beinsezii Committed by GitHub Feb 27, 2024
Showing with 62 additions and 1 deletion

src/diffusers/schedulers/scheduling_dpmsolver_multistep.py src/diffusers/schedulers/scheduling_dpmsolver_multistep.py +58 -1

tests/schedulers/test_scheduler_dpm_multi.py tests/schedulers/test_scheduler_dpm_multi.py +4 -0

No files found.
--- a/src/diffusers/schedulers/scheduling_dpmsolver_multistep.py
+++ b/src/diffusers/schedulers/scheduling_dpmsolver_multistep.py
@@ -71,6 +71,43 @@ def betas_for_alpha_bar(
    return torch.tensor(betas, dtype=torch.float32)
+# Copied from diffusers.schedulers.scheduling_ddim.rescale_zero_terminal_snr
+def rescale_zero_terminal_snr(betas):
+    """
+    Rescales betas to have zero terminal SNR Based on https://arxiv.org/pdf/2305.08891.pdf (Algorithm 1)
+    Args:
+        betas (`torch.FloatTensor`):
+            the betas that the scheduler is being initialized with.
+    Returns:
+        `torch.FloatTensor`: rescaled betas with zero terminal SNR
+    """
+    # Convert betas to alphas_bar_sqrt
+    alphas = 1.0 - betas
+    alphas_cumprod = torch.cumprod(alphas, dim=0)
+    alphas_bar_sqrt = alphas_cumprod.sqrt()
+    # Store old values.
+    alphas_bar_sqrt_0 = alphas_bar_sqrt[0].clone()
+    alphas_bar_sqrt_T = alphas_bar_sqrt[-1].clone()
+    # Shift so the last timestep is zero.
+    alphas_bar_sqrt -= alphas_bar_sqrt_T
+    # Scale so the first timestep is back to the old value.
+    alphas_bar_sqrt *= alphas_bar_sqrt_0 / (alphas_bar_sqrt_0 - alphas_bar_sqrt_T)
+    # Convert alphas_bar_sqrt to betas
+    alphas_bar = alphas_bar_sqrt**2  # Revert sqrt
+    alphas = alphas_bar[1:] / alphas_bar[:-1]  # Revert cumprod
+    alphas = torch.cat([alphas_bar[0:1], alphas])
+    betas = 1 - alphas
+    return betas
 class DPMSolverMultistepScheduler(SchedulerMixin, ConfigMixin):
    """
    `DPMSolverMultistepScheduler` is a fast dedicated high-order solver for diffusion ODEs.
@@ -144,6 +181,10 @@ class DPMSolverMultistepScheduler(SchedulerMixin, ConfigMixin):
            An offset added to the inference steps. You can use a combination of `offset=1` and
            `set_alpha_to_one=False` to make the last step use step 0 for the previous alpha product like in Stable
            Diffusion.
+        rescale_betas_zero_snr (`bool`, defaults to `False`):
+            Whether to rescale the betas to have zero terminal SNR. This enables the model to generate very bright and
+            dark samples instead of limiting it to samples with medium brightness. Loosely related to
+            [`--offset_noise`](https://github.com/huggingface/diffusers/blob/74fd735eb073eb1d774b1ab4154a0876eb82f055/examples/dreambooth/train_dreambooth.py#L506).
    """
    _compatibles = [e.name for e in KarrasDiffusionSchedulers]
@@ -173,6 +214,7 @@ class DPMSolverMultistepScheduler(SchedulerMixin, ConfigMixin):
        variance_type: Optional[str] = None,
        timestep_spacing: str = "linspace",
        steps_offset: int = 0,
+        rescale_betas_zero_snr: bool = False,
    ):
        if algorithm_type in ["dpmsolver", "sde-dpmsolver"]:
            deprecation_message = f"algorithm_type {algorithm_type} is deprecated and will be removed in a future version. Choose from `dpmsolver++` or `sde-dpmsolver++` instead"
@@ -191,8 +233,17 @@ class DPMSolverMultistepScheduler(SchedulerMixin, ConfigMixin):
        else:
            raise NotImplementedError(f"{beta_schedule} does is not implemented for {self.__class__}")
+        if rescale_betas_zero_snr:
+            self.betas = rescale_zero_terminal_snr(self.betas)
        self.alphas = 1.0 - self.betas
        self.alphas_cumprod = torch.cumprod(self.alphas, dim=0)
+        if rescale_betas_zero_snr:
+            # Close to 0 without being 0 so first sigma is not inf
+            # FP16 smallest positive subnormal works well here
+            self.alphas_cumprod[-1] = 2**-24
        # Currently we only support VP-type noise schedule
        self.alpha_t = torch.sqrt(self.alphas_cumprod)
        self.sigma_t = torch.sqrt(1 - self.alphas_cumprod)
@@ -895,9 +946,12 @@ class DPMSolverMultistepScheduler(SchedulerMixin, ConfigMixin):
            self.model_outputs[i] = self.model_outputs[i + 1]
        self.model_outputs[-1] = model_output
+        # Upcast to avoid precision issues when computing prev_sample
+        sample = sample.to(torch.float32)
        if self.config.algorithm_type in ["sde-dpmsolver", "sde-dpmsolver++"]:
            noise = randn_tensor(
-                model_output.shape, generator=generator, device=model_output.device, dtype=model_output.dtype
+                model_output.shape, generator=generator, device=model_output.device, dtype=torch.float32
            )
        else:
            noise = None
@@ -912,6 +966,9 @@ class DPMSolverMultistepScheduler(SchedulerMixin, ConfigMixin):
        if self.lower_order_nums < self.config.solver_order:
            self.lower_order_nums += 1
+        # Cast sample back to expected dtype
+        prev_sample = prev_sample.to(model_output.dtype)
        # upon completion increase step index by one
        self._step_index += 1

--- a/tests/schedulers/test_scheduler_dpm_multi.py
+++ b/tests/schedulers/test_scheduler_dpm_multi.py
@@ -213,6 +213,10 @@ class DPMSolverMultistepSchedulerTest(SchedulerCommonTest):
        for num_inference_steps in [1, 2, 3, 5, 10, 50, 100, 999, 1000]:
            self.check_over_forward(num_inference_steps=num_inference_steps, time_step=0)
+    def test_rescale_betas_zero_snr(self):
+        for rescale_betas_zero_snr in [True, False]:
+            self.check_over_configs(rescale_betas_zero_snr=rescale_betas_zero_snr)
    def test_full_loop_no_noise(self):
        sample = self.full_loop()
        result_mean = torch.mean(torch.abs(sample))