Fix StableDiffusionPipeline when `text_encoder=None` (#8297)

* update * update --------- Co-authored-by: Sayak Paul <spsayakpaul@gmail.com>

Fix StableDiffusionPipeline when `text_encoder=None` (#8297)
* update * update --------- Co-authored-by: Sayak Paul <spsayakpaul@gmail.com>
42cae93b · Dhruv Nair · GitHub · a2ecce26 · 42cae93b · 42cae93b
Unverified Commit 42cae93b authored May 30, 2024 by Dhruv Nair Committed by GitHub May 29, 2024
20 changed files
--- a/src/diffusers/pipelines/animatediff/pipeline_animatediff.py
+++ b/src/diffusers/pipelines/animatediff/pipeline_animatediff.py
@@ -316,9 +316,10 @@ class AnimateDiffPipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/animatediff/pipeline_animatediff_video2video.py
+++ b/src/diffusers/pipelines/animatediff/pipeline_animatediff_video2video.py
@@ -420,9 +420,10 @@ class AnimateDiffVideoToVideoPipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/controlnet/pipeline_controlnet.py
+++ b/src/diffusers/pipelines/controlnet/pipeline_controlnet.py
@@ -463,9 +463,10 @@ class StableDiffusionControlNetPipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/controlnet/pipeline_controlnet_img2img.py
+++ b/src/diffusers/pipelines/controlnet/pipeline_controlnet_img2img.py
@@ -441,9 +441,10 @@ class StableDiffusionControlNetImg2ImgPipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/controlnet/pipeline_controlnet_inpaint.py
+++ b/src/diffusers/pipelines/controlnet/pipeline_controlnet_inpaint.py
@@ -566,9 +566,10 @@ class StableDiffusionControlNetInpaintPipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/controlnet_xs/pipeline_controlnet_xs.py
+++ b/src/diffusers/pipelines/controlnet_xs/pipeline_controlnet_xs.py
@@ -390,9 +390,10 @@ class StableDiffusionControlNetXSPipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_cycle_diffusion.py
+++ b/src/diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_cycle_diffusion.py
@@ -456,9 +456,10 @@ class CycleDiffusionPipeline(DiffusionPipeline, TextualInversionLoaderMixin, Lor
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_inpaint_legacy.py
+++ b/src/diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_inpaint_legacy.py
@@ -426,9 +426,10 @@ class StableDiffusionInpaintPipelineLegacy(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_model_editing.py
+++ b/src/diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_model_editing.py
@@ -364,9 +364,10 @@ class StableDiffusionModelEditingPipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_paradigms.py
+++ b/src/diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_paradigms.py
@@ -355,9 +355,10 @@ class StableDiffusionParadigmsPipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_pix2pix_zero.py
+++ b/src/diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_pix2pix_zero.py
@@ -578,9 +578,10 @@ class StableDiffusionPix2PixZeroPipeline(DiffusionPipeline, StableDiffusionMixin
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/latent_consistency_models/pipeline_latent_consistency_img2img.py
+++ b/src/diffusers/pipelines/latent_consistency_models/pipeline_latent_consistency_img2img.py
@@ -405,9 +405,10 @@ class LatentConsistencyModelImg2ImgPipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/latent_consistency_models/pipeline_latent_consistency_text2img.py
+++ b/src/diffusers/pipelines/latent_consistency_models/pipeline_latent_consistency_text2img.py
@@ -389,9 +389,10 @@ class LatentConsistencyModelPipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/pia/pipeline_pia.py
+++ b/src/diffusers/pipelines/pia/pipeline_pia.py
@@ -375,9 +375,10 @@ class PIAPipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion.py
+++ b/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion.py
@@ -474,9 +474,10 @@ class StableDiffusionPipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_depth2img.py
+++ b/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_depth2img.py
@@ -357,9 +357,10 @@ class StableDiffusionDepth2ImgPipeline(DiffusionPipeline, TextualInversionLoader
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_img2img.py
+++ b/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_img2img.py
@@ -517,9 +517,10 @@ class StableDiffusionImg2ImgPipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_inpaint.py
+++ b/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_inpaint.py
@@ -589,9 +589,10 @@ class StableDiffusionInpaintPipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_upscale.py
+++ b/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_upscale.py
@@ -377,9 +377,10 @@ class StableDiffusionUpscalePipeline(
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds

--- a/src/diffusers/pipelines/stable_diffusion/pipeline_stable_unclip.py
+++ b/src/diffusers/pipelines/stable_diffusion/pipeline_stable_unclip.py
@@ -458,9 +458,10 @@ class StableUnCLIPPipeline(DiffusionPipeline, StableDiffusionMixin, TextualInver
            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
            negative_prompt_embeds = negative_prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
-        if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
+        if self.text_encoder is not None:
-            # Retrieve the original scale by scaling back the LoRA layers
+            if isinstance(self, LoraLoaderMixin) and USE_PEFT_BACKEND:
-            unscale_lora_layers(self.text_encoder, lora_scale)
+                # Retrieve the original scale by scaling back the LoRA layers
+                unscale_lora_layers(self.text_encoder, lora_scale)
        return prompt_embeds, negative_prompt_embeds