Slight performance improvement to `Euler`, `EDMEuler`, `FlowMatchHeun`, `KDPM2Ancestral` (#9616)

* Slight performance improvement to Euler * Slight performance improvement to EDMEuler * Slight performance improvement to FlowMatchHeun * Slight performance improvement to KDPM2Ancestral * Update KDPM2AncestralDiscreteSchedulerTest --------- Co-authored-by: YiYi Xu <yixu310@gmail.com>

Slight performance improvement to `Euler`, `EDMEuler`, `FlowMatchHeun`, `KDPM2Ancestral` (#9616)
* Slight performance improvement to Euler * Slight performance improvement to EDMEuler * Slight performance improvement to FlowMatchHeun * Slight performance improvement to KDPM2Ancestral * Update KDPM2AncestralDiscreteSchedulerTest --------- Co-authored-by: YiYi Xu <yixu310@gmail.com>
9d061618 · hlky · GitHub · 5f0df177 · 9d061618 · 9d061618
Unverified Commit 9d061618 authored Oct 15, 2024 by hlky Committed by GitHub Oct 14, 2024
5 changed files
--- a/src/diffusers/schedulers/scheduling_edm_euler.py
+++ b/src/diffusers/schedulers/scheduling_edm_euler.py
@@ -333,14 +333,13 @@ class EDMEulerScheduler(SchedulerMixin, ConfigMixin):

        gamma = min(s_churn / (len(self.sigmas) - 1), 2**0.5 - 1) if s_tmin <= sigma <= s_tmax else 0.0

-        noise = randn_tensor(
-            model_output.shape, dtype=model_output.dtype, device=model_output.device, generator=generator
-        )
-
-        eps = noise * s_noise
        sigma_hat = sigma * (gamma + 1)

        if gamma > 0:
+            noise = randn_tensor(
+                model_output.shape, dtype=model_output.dtype, device=model_output.device, generator=generator
+            )
+            eps = noise * s_noise
            sample = sample + eps * (sigma_hat**2 - sigma**2) ** 0.5

        # 1. compute predicted original sample (x_0) from sigma-scaled predicted noise

--- a/src/diffusers/schedulers/scheduling_euler_discrete.py
+++ b/src/diffusers/schedulers/scheduling_euler_discrete.py
@@ -638,14 +638,13 @@ class EulerDiscreteScheduler(SchedulerMixin, ConfigMixin):

        gamma = min(s_churn / (len(self.sigmas) - 1), 2**0.5 - 1) if s_tmin <= sigma <= s_tmax else 0.0

-        noise = randn_tensor(
-            model_output.shape, dtype=model_output.dtype, device=model_output.device, generator=generator
-        )
-
-        eps = noise * s_noise
        sigma_hat = sigma * (gamma + 1)

        if gamma > 0:
+            noise = randn_tensor(
+                model_output.shape, dtype=model_output.dtype, device=model_output.device, generator=generator
+            )
+            eps = noise * s_noise
            sample = sample + eps * (sigma_hat**2 - sigma**2) ** 0.5

        # 1. compute predicted original sample (x_0) from sigma-scaled predicted noise

--- a/src/diffusers/schedulers/scheduling_flow_match_heun_discrete.py
+++ b/src/diffusers/schedulers/scheduling_flow_match_heun_discrete.py
@@ -266,14 +266,13 @@ class FlowMatchHeunDiscreteScheduler(SchedulerMixin, ConfigMixin):

        gamma = min(s_churn / (len(self.sigmas) - 1), 2**0.5 - 1) if s_tmin <= sigma <= s_tmax else 0.0

-        noise = randn_tensor(
-            model_output.shape, dtype=model_output.dtype, device=model_output.device, generator=generator
-        )
-
-        eps = noise * s_noise
        sigma_hat = sigma * (gamma + 1)

        if gamma > 0:
+            noise = randn_tensor(
+                model_output.shape, dtype=model_output.dtype, device=model_output.device, generator=generator
+            )
+            eps = noise * s_noise
            sample = sample + eps * (sigma_hat**2 - sigma**2) ** 0.5

        if self.state_in_first_order:

--- a/src/diffusers/schedulers/scheduling_k_dpm_2_ancestral_discrete.py
+++ b/src/diffusers/schedulers/scheduling_k_dpm_2_ancestral_discrete.py
@@ -524,9 +524,6 @@ class KDPM2AncestralDiscreteScheduler(SchedulerMixin, ConfigMixin):
        gamma = 0
        sigma_hat = sigma * (gamma + 1)  # Note: sigma_hat == sigma for now

-        device = model_output.device
-        noise = randn_tensor(model_output.shape, dtype=model_output.dtype, device=device, generator=generator)
-
        # 1. compute predicted original sample (x_0) from sigma-scaled predicted noise
        if self.config.prediction_type == "epsilon":
            sigma_input = sigma_hat if self.state_in_first_order else sigma_interpol
@@ -564,6 +561,9 @@ class KDPM2AncestralDiscreteScheduler(SchedulerMixin, ConfigMixin):
            self.sample = None

            prev_sample = sample + derivative * dt
+            noise = randn_tensor(
+                model_output.shape, dtype=model_output.dtype, device=model_output.device, generator=generator
+            )
            prev_sample = prev_sample + noise * sigma_up

        # upon completion increase step index by one

--- a/tests/schedulers/test_scheduler_kdpm2_ancestral.py
+++ b/tests/schedulers/test_scheduler_kdpm2_ancestral.py
@@ -59,8 +59,8 @@ class KDPM2AncestralDiscreteSchedulerTest(SchedulerCommonTest):
        result_sum = torch.sum(torch.abs(sample))
        result_mean = torch.mean(torch.abs(sample))

-        assert abs(result_sum.item() - 13849.3877) < 1e-2
-        assert abs(result_mean.item() - 18.0331) < 5e-3
+        assert abs(result_sum.item() - 13979.9433) < 1e-2
+        assert abs(result_mean.item() - 18.2030) < 5e-3

    def test_prediction_type(self):
        for prediction_type in ["epsilon", "v_prediction"]:
@@ -92,8 +92,8 @@ class KDPM2AncestralDiscreteSchedulerTest(SchedulerCommonTest):
        result_sum = torch.sum(torch.abs(sample))
        result_mean = torch.mean(torch.abs(sample))

-        assert abs(result_sum.item() - 328.9970) < 1e-2
-        assert abs(result_mean.item() - 0.4284) < 1e-3
+        assert abs(result_sum.item() - 331.8133) < 1e-2
+        assert abs(result_mean.item() - 0.4320) < 1e-3

    def test_full_loop_device(self):
        if torch_device == "mps":
@@ -119,8 +119,8 @@ class KDPM2AncestralDiscreteSchedulerTest(SchedulerCommonTest):
        result_sum = torch.sum(torch.abs(sample))
        result_mean = torch.mean(torch.abs(sample))

-        assert abs(result_sum.item() - 13849.3818) < 1e-1
-        assert abs(result_mean.item() - 18.0331) < 1e-3
+        assert abs(result_sum.item() - 13979.9433) < 1e-1
+        assert abs(result_mean.item() - 18.2030) < 1e-3

    def test_full_loop_with_noise(self):
        if torch_device == "mps":
@@ -154,5 +154,5 @@ class KDPM2AncestralDiscreteSchedulerTest(SchedulerCommonTest):
        result_sum = torch.sum(torch.abs(sample))
        result_mean = torch.mean(torch.abs(sample))

-        assert abs(result_sum.item() - 93087.0312) < 1e-2, f" expected result sum 93087.0312, but get {result_sum}"
-        assert abs(result_mean.item() - 121.2071) < 5e-3, f" expected result mean 121.2071, but get {result_mean}"
+        assert abs(result_sum.item() - 93087.3437) < 1e-2, f" expected result sum 93087.3437, but get {result_sum}"
+        assert abs(result_mean.item() - 121.2074) < 5e-3, f" expected result mean 121.2074, but get {result_mean}"