Support SD2 attention slicing (#1397)

* Support SD2 attention slicing * Support SD2 attention slicing * Add more copies * Use attn_num_head_channels in blocks * fix-copies * Update tests * fix imports

Support SD2 attention slicing (#1397)
* Support SD2 attention slicing * Support SD2 attention slicing * Add more copies * Use attn_num_head_channels in blocks * fix-copies * Update tests * fix imports
d50e3217 · Anton Lozhkov · GitHub · 8e2c4cd5 · d50e3217 · d50e3217
Unverified Commit d50e3217 authored Nov 24, 2022 by Anton Lozhkov Committed by GitHub Nov 24, 2022
16 changed files
--- a/src/diffusers/models/unet_2d_blocks.py
+++ b/src/diffusers/models/unet_2d_blocks.py
@@ -404,15 +404,17 @@ class UNetMidBlock2DCrossAttn(nn.Module):
        self.resnets = nn.ModuleList(resnets)
    def set_attention_slice(self, slice_size):
-        if slice_size is not None and self.attn_num_head_channels % slice_size != 0:
+        head_dims = self.attn_num_head_channels
+        head_dims = [head_dims] if isinstance(head_dims, int) else head_dims
+        if slice_size is not None and any(dim % slice_size != 0 for dim in head_dims):
            raise ValueError(
-                f"Make sure slice_size {slice_size} is a divisor of "
+                f"Make sure slice_size {slice_size} is a common divisor of "
-                f"the number of heads used in cross_attention {self.attn_num_head_channels}"
+                f"the number of heads used in cross_attention: {head_dims}"
            )
-        if slice_size is not None and slice_size > self.attn_num_head_channels:
+        if slice_size is not None and slice_size > min(head_dims):
            raise ValueError(
-                f"Chunk_size {slice_size} has to be smaller or equal to "
+                f"slice_size {slice_size} has to be smaller or equal to "
-                f"the number of heads used in cross_attention {self.attn_num_head_channels}"
+                f"the lowest number of heads used in cross_attention: min({head_dims}) = {min(head_dims)}"
            )
        for attn in self.attentions:
@@ -600,15 +602,17 @@ class CrossAttnDownBlock2D(nn.Module):
        self.gradient_checkpointing = False
    def set_attention_slice(self, slice_size):
-        if slice_size is not None and self.attn_num_head_channels % slice_size != 0:
+        head_dims = self.attn_num_head_channels
+        head_dims = [head_dims] if isinstance(head_dims, int) else head_dims
+        if slice_size is not None and any(dim % slice_size != 0 for dim in head_dims):
            raise ValueError(
-                f"Make sure slice_size {slice_size} is a divisor of "
+                f"Make sure slice_size {slice_size} is a common divisor of "
-                f"the number of heads used in cross_attention {self.attn_num_head_channels}"
+                f"the number of heads used in cross_attention: {head_dims}"
            )
-        if slice_size is not None and slice_size > self.attn_num_head_channels:
+        if slice_size is not None and slice_size > min(head_dims):
            raise ValueError(
-                f"Chunk_size {slice_size} has to be smaller or equal to "
+                f"slice_size {slice_size} has to be smaller or equal to "
-                f"the number of heads used in cross_attention {self.attn_num_head_channels}"
+                f"the lowest number of heads used in cross_attention: min({head_dims}) = {min(head_dims)}"
            )
        for attn in self.attentions:
@@ -1197,15 +1201,17 @@ class CrossAttnUpBlock2D(nn.Module):
        self.gradient_checkpointing = False
    def set_attention_slice(self, slice_size):
-        if slice_size is not None and self.attn_num_head_channels % slice_size != 0:
+        head_dims = self.attn_num_head_channels
+        head_dims = [head_dims] if isinstance(head_dims, int) else head_dims
+        if slice_size is not None and any(dim % slice_size != 0 for dim in head_dims):
            raise ValueError(
-                f"Make sure slice_size {slice_size} is a divisor of "
+                f"Make sure slice_size {slice_size} is a common divisor of "
-                f"the number of heads used in cross_attention {self.attn_num_head_channels}"
+                f"the number of heads used in cross_attention: {head_dims}"
            )
-        if slice_size is not None and slice_size > self.attn_num_head_channels:
+        if slice_size is not None and slice_size > min(head_dims):
            raise ValueError(
-                f"Chunk_size {slice_size} has to be smaller or equal to "
+                f"slice_size {slice_size} has to be smaller or equal to "
-                f"the number of heads used in cross_attention {self.attn_num_head_channels}"
+                f"the lowest number of heads used in cross_attention: min({head_dims}) = {min(head_dims)}"
            )
        for attn in self.attentions:

--- a/src/diffusers/models/unet_2d_condition.py
+++ b/src/diffusers/models/unet_2d_condition.py
@@ -229,15 +229,17 @@ class UNet2DConditionModel(ModelMixin, ConfigMixin):
        self.conv_out = nn.Conv2d(block_out_channels[0], out_channels, kernel_size=3, padding=1)
    def set_attention_slice(self, slice_size):
-        if slice_size is not None and self.config.attention_head_dim % slice_size != 0:
+        head_dims = self.config.attention_head_dim
+        head_dims = [head_dims] if isinstance(head_dims, int) else head_dims
+        if slice_size is not None and any(dim % slice_size != 0 for dim in head_dims):
            raise ValueError(
-                f"Make sure slice_size {slice_size} is a divisor of "
+                f"Make sure slice_size {slice_size} is a common divisor of "
-                f"the number of heads used in cross_attention {self.config.attention_head_dim}"
+                f"the number of heads used in cross_attention: {head_dims}"
            )
-        if slice_size is not None and slice_size > self.config.attention_head_dim:
+        if slice_size is not None and slice_size > min(head_dims):
            raise ValueError(
-                f"Chunk_size {slice_size} has to be smaller or equal to "
+                f"slice_size {slice_size} has to be smaller or equal to "
-                f"the number of heads used in cross_attention {self.config.attention_head_dim}"
+                f"the lowest number of heads used in cross_attention: min({head_dims}) = {min(head_dims)}"
            )
        for block in self.down_blocks:

--- a/src/diffusers/pipelines/alt_diffusion/pipeline_alt_diffusion.py
+++ b/src/diffusers/pipelines/alt_diffusion/pipeline_alt_diffusion.py
@@ -198,9 +198,14 @@ class AltDiffusionPipeline(DiffusionPipeline):
                `attention_head_dim` must be a multiple of `slice_size`.
        """
        if slice_size == "auto":
-            # half the attention head size is usually a good trade-off between
+            if isinstance(self.unet.config.attention_head_dim, int):
-            # speed and memory
+                # half the attention head size is usually a good trade-off between
-            slice_size = self.unet.config.attention_head_dim // 2
+                # speed and memory
+                slice_size = self.unet.config.attention_head_dim // 2
+            else:
+                # if `attention_head_dim` is a list, take the smallest head size
+                slice_size = min(self.unet.config.attention_head_dim)
        self.unet.set_attention_slice(slice_size)
    def disable_attention_slicing(self):

--- a/src/diffusers/pipelines/alt_diffusion/pipeline_alt_diffusion_img2img.py
+++ b/src/diffusers/pipelines/alt_diffusion/pipeline_alt_diffusion_img2img.py
@@ -193,9 +193,14 @@ class AltDiffusionImg2ImgPipeline(DiffusionPipeline):
                `attention_head_dim` must be a multiple of `slice_size`.
        """
        if slice_size == "auto":
-            # half the attention head size is usually a good trade-off between
+            if isinstance(self.unet.config.attention_head_dim, int):
-            # speed and memory
+                # half the attention head size is usually a good trade-off between
-            slice_size = self.unet.config.attention_head_dim // 2
+                # speed and memory
+                slice_size = self.unet.config.attention_head_dim // 2
+            else:
+                # if `attention_head_dim` is a list, take the smallest head size
+                slice_size = min(self.unet.config.attention_head_dim)
        self.unet.set_attention_slice(slice_size)
    def disable_attention_slicing(self):

--- a/src/diffusers/pipelines/stable_diffusion/pipeline_cycle_diffusion.py
+++ b/src/diffusers/pipelines/stable_diffusion/pipeline_cycle_diffusion.py
@@ -224,9 +224,14 @@ class CycleDiffusionPipeline(DiffusionPipeline):
                `attention_head_dim` must be a multiple of `slice_size`.
        """
        if slice_size == "auto":
-            # half the attention head size is usually a good trade-off between
+            if isinstance(self.unet.config.attention_head_dim, int):
-            # speed and memory
+                # half the attention head size is usually a good trade-off between
-            slice_size = self.unet.config.attention_head_dim // 2
+                # speed and memory
+                slice_size = self.unet.config.attention_head_dim // 2
+            else:
+                # if `attention_head_dim` is a list, take the smallest head size
+                slice_size = min(self.unet.config.attention_head_dim)
        self.unet.set_attention_slice(slice_size)
    # Copied from diffusers.pipelines.stable_diffusion.pipeline_stable_diffusion.StableDiffusionPipeline.disable_attention_slicing

--- a/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion.py
+++ b/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion.py
@@ -197,9 +197,14 @@ class StableDiffusionPipeline(DiffusionPipeline):
                `attention_head_dim` must be a multiple of `slice_size`.
        """
        if slice_size == "auto":
-            # half the attention head size is usually a good trade-off between
+            if isinstance(self.unet.config.attention_head_dim, int):
-            # speed and memory
+                # half the attention head size is usually a good trade-off between
-            slice_size = self.unet.config.attention_head_dim // 2
+                # speed and memory
+                slice_size = self.unet.config.attention_head_dim // 2
+            else:
+                # if `attention_head_dim` is a list, take the smallest head size
+                slice_size = min(self.unet.config.attention_head_dim)
        self.unet.set_attention_slice(slice_size)
    def disable_attention_slicing(self):

--- a/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_image_variation.py
+++ b/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_image_variation.py
@@ -169,9 +169,14 @@ class StableDiffusionImageVariationPipeline(DiffusionPipeline):
                `attention_head_dim` must be a multiple of `slice_size`.
        """
        if slice_size == "auto":
-            # half the attention head size is usually a good trade-off between
+            if isinstance(self.unet.config.attention_head_dim, int):
-            # speed and memory
+                # half the attention head size is usually a good trade-off between
-            slice_size = self.unet.config.attention_head_dim // 2
+                # speed and memory
+                slice_size = self.unet.config.attention_head_dim // 2
+            else:
+                # if `attention_head_dim` is a list, take the smallest head size
+                slice_size = min(self.unet.config.attention_head_dim)
        self.unet.set_attention_slice(slice_size)
    # Copied from diffusers.pipelines.stable_diffusion.pipeline_stable_diffusion.StableDiffusionPipeline.disable_attention_slicing

--- a/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_img2img.py
+++ b/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_img2img.py
@@ -193,9 +193,14 @@ class StableDiffusionImg2ImgPipeline(DiffusionPipeline):
                `attention_head_dim` must be a multiple of `slice_size`.
        """
        if slice_size == "auto":
-            # half the attention head size is usually a good trade-off between
+            if isinstance(self.unet.config.attention_head_dim, int):
-            # speed and memory
+                # half the attention head size is usually a good trade-off between
-            slice_size = self.unet.config.attention_head_dim // 2
+                # speed and memory
+                slice_size = self.unet.config.attention_head_dim // 2
+            else:
+                # if `attention_head_dim` is a list, take the smallest head size
+                slice_size = min(self.unet.config.attention_head_dim)
        self.unet.set_attention_slice(slice_size)
    # Copied from diffusers.pipelines.stable_diffusion.pipeline_stable_diffusion.StableDiffusionPipeline.disable_attention_slicing

--- a/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_inpaint.py
+++ b/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_inpaint.py
@@ -258,9 +258,14 @@ class StableDiffusionInpaintPipeline(DiffusionPipeline):
                `attention_head_dim` must be a multiple of `slice_size`.
        """
        if slice_size == "auto":
-            # half the attention head size is usually a good trade-off between
+            if isinstance(self.unet.config.attention_head_dim, int):
-            # speed and memory
+                # half the attention head size is usually a good trade-off between
-            slice_size = self.unet.config.attention_head_dim // 2
+                # speed and memory
+                slice_size = self.unet.config.attention_head_dim // 2
+            else:
+                # if `attention_head_dim` is a list, take the smallest head size
+                slice_size = min(self.unet.config.attention_head_dim)
        self.unet.set_attention_slice(slice_size)
    # Copied from diffusers.pipelines.stable_diffusion.pipeline_stable_diffusion.StableDiffusionPipeline.disable_attention_slicing

--- a/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_inpaint_legacy.py
+++ b/src/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion_inpaint_legacy.py
@@ -206,9 +206,14 @@ class StableDiffusionInpaintPipelineLegacy(DiffusionPipeline):
                `attention_head_dim` must be a multiple of `slice_size`.
        """
        if slice_size == "auto":
-            # half the attention head size is usually a good trade-off between
+            if isinstance(self.unet.config.attention_head_dim, int):
-            # speed and memory
+                # half the attention head size is usually a good trade-off between
-            slice_size = self.unet.config.attention_head_dim // 2
+                # speed and memory
+                slice_size = self.unet.config.attention_head_dim // 2
+            else:
+                # if `attention_head_dim` is a list, take the smallest head size
+                slice_size = min(self.unet.config.attention_head_dim)
        self.unet.set_attention_slice(slice_size)
    # Copied from diffusers.pipelines.stable_diffusion.pipeline_stable_diffusion.StableDiffusionPipeline.disable_attention_slicing

--- a/src/diffusers/pipelines/versatile_diffusion/modeling_text_unet.py
+++ b/src/diffusers/pipelines/versatile_diffusion/modeling_text_unet.py
@@ -307,15 +307,17 @@ class UNetFlatConditionModel(ModelMixin, ConfigMixin):
        self.conv_out = LinearMultiDim(block_out_channels[0], out_channels, kernel_size=3, padding=1)
    def set_attention_slice(self, slice_size):
-        if slice_size is not None and self.config.attention_head_dim % slice_size != 0:
+        head_dims = self.config.attention_head_dim
+        head_dims = [head_dims] if isinstance(head_dims, int) else head_dims
+        if slice_size is not None and any(dim % slice_size != 0 for dim in head_dims):
            raise ValueError(
-                f"Make sure slice_size {slice_size} is a divisor of "
+                f"Make sure slice_size {slice_size} is a common divisor of "
-                f"the number of heads used in cross_attention {self.config.attention_head_dim}"
+                f"the number of heads used in cross_attention: {head_dims}"
            )
-        if slice_size is not None and slice_size > self.config.attention_head_dim:
+        if slice_size is not None and slice_size > min(head_dims):
            raise ValueError(
-                f"Chunk_size {slice_size} has to be smaller or equal to "
+                f"slice_size {slice_size} has to be smaller or equal to "
-                f"the number of heads used in cross_attention {self.config.attention_head_dim}"
+                f"the lowest number of heads used in cross_attention: min({head_dims}) = {min(head_dims)}"
            )
        for block in self.down_blocks:
@@ -743,15 +745,17 @@ class CrossAttnDownBlockFlat(nn.Module):
        self.gradient_checkpointing = False
    def set_attention_slice(self, slice_size):
-        if slice_size is not None and self.attn_num_head_channels % slice_size != 0:
+        head_dims = self.attn_num_head_channels
+        head_dims = [head_dims] if isinstance(head_dims, int) else head_dims
+        if slice_size is not None and any(dim % slice_size != 0 for dim in head_dims):
            raise ValueError(
-                f"Make sure slice_size {slice_size} is a divisor of "
+                f"Make sure slice_size {slice_size} is a common divisor of "
-                f"the number of heads used in cross_attention {self.attn_num_head_channels}"
+                f"the number of heads used in cross_attention: {head_dims}"
            )
-        if slice_size is not None and slice_size > self.attn_num_head_channels:
+        if slice_size is not None and slice_size > min(head_dims):
            raise ValueError(
-                f"Chunk_size {slice_size} has to be smaller or equal to "
+                f"slice_size {slice_size} has to be smaller or equal to "
-                f"the number of heads used in cross_attention {self.attn_num_head_channels}"
+                f"the lowest number of heads used in cross_attention: min({head_dims}) = {min(head_dims)}"
            )
        for attn in self.attentions:
@@ -954,15 +958,17 @@ class CrossAttnUpBlockFlat(nn.Module):
        self.gradient_checkpointing = False
    def set_attention_slice(self, slice_size):
-        if slice_size is not None and self.attn_num_head_channels % slice_size != 0:
+        head_dims = self.attn_num_head_channels
+        head_dims = [head_dims] if isinstance(head_dims, int) else head_dims
+        if slice_size is not None and any(dim % slice_size != 0 for dim in head_dims):
            raise ValueError(
-                f"Make sure slice_size {slice_size} is a divisor of "
+                f"Make sure slice_size {slice_size} is a common divisor of "
-                f"the number of heads used in cross_attention {self.attn_num_head_channels}"
+                f"the number of heads used in cross_attention: {head_dims}"
            )
-        if slice_size is not None and slice_size > self.attn_num_head_channels:
+        if slice_size is not None and slice_size > min(head_dims):
            raise ValueError(
-                f"Chunk_size {slice_size} has to be smaller or equal to "
+                f"slice_size {slice_size} has to be smaller or equal to "
-                f"the number of heads used in cross_attention {self.attn_num_head_channels}"
+                f"the lowest number of heads used in cross_attention: min({head_dims}) = {min(head_dims)}"
            )
        for attn in self.attentions:
@@ -1101,15 +1107,17 @@ class UNetMidBlockFlatCrossAttn(nn.Module):
        self.resnets = nn.ModuleList(resnets)
    def set_attention_slice(self, slice_size):
-        if slice_size is not None and self.attn_num_head_channels % slice_size != 0:
+        head_dims = self.attn_num_head_channels
+        head_dims = [head_dims] if isinstance(head_dims, int) else head_dims
+        if slice_size is not None and any(dim % slice_size != 0 for dim in head_dims):
            raise ValueError(
-                f"Make sure slice_size {slice_size} is a divisor of "
+                f"Make sure slice_size {slice_size} is a common divisor of "
-                f"the number of heads used in cross_attention {self.attn_num_head_channels}"
+                f"the number of heads used in cross_attention: {head_dims}"
            )
-        if slice_size is not None and slice_size > self.attn_num_head_channels:
+        if slice_size is not None and slice_size > min(head_dims):
            raise ValueError(
-                f"Chunk_size {slice_size} has to be smaller or equal to "
+                f"slice_size {slice_size} has to be smaller or equal to "
-                f"the number of heads used in cross_attention {self.attn_num_head_channels}"
+                f"the lowest number of heads used in cross_attention: min({head_dims}) = {min(head_dims)}"
            )
        for attn in self.attentions:

--- a/src/diffusers/pipelines/versatile_diffusion/pipeline_versatile_diffusion_dual_guided.py
+++ b/src/diffusers/pipelines/versatile_diffusion/pipeline_versatile_diffusion_dual_guided.py
@@ -178,9 +178,14 @@ class VersatileDiffusionDualGuidedPipeline(DiffusionPipeline):
                `attention_head_dim` must be a multiple of `slice_size`.
        """
        if slice_size == "auto":
-            # half the attention head size is usually a good trade-off between
+            if isinstance(self.image_unet.config.attention_head_dim, int):
-            # speed and memory
+                # half the attention head size is usually a good trade-off between
-            slice_size = self.image_unet.config.attention_head_dim // 2
+                # speed and memory
+                slice_size = self.image_unet.config.attention_head_dim // 2
+            else:
+                # if `attention_head_dim` is a list, take the smallest head size
+                slice_size = min(self.image_unet.config.attention_head_dim)
        self.image_unet.set_attention_slice(slice_size)
    # Copied from diffusers.pipelines.stable_diffusion.pipeline_stable_diffusion.StableDiffusionPipeline.disable_attention_slicing

--- a/src/diffusers/pipelines/versatile_diffusion/pipeline_versatile_diffusion_image_variation.py
+++ b/src/diffusers/pipelines/versatile_diffusion/pipeline_versatile_diffusion_image_variation.py
@@ -108,9 +108,14 @@ class VersatileDiffusionImageVariationPipeline(DiffusionPipeline):
                `attention_head_dim` must be a multiple of `slice_size`.
        """
        if slice_size == "auto":
-            # half the attention head size is usually a good trade-off between
+            if isinstance(self.image_unet.config.attention_head_dim, int):
-            # speed and memory
+                # half the attention head size is usually a good trade-off between
-            slice_size = self.image_unet.config.attention_head_dim // 2
+                # speed and memory
+                slice_size = self.image_unet.config.attention_head_dim // 2
+            else:
+                # if `attention_head_dim` is a list, take the smallest head size
+                slice_size = min(self.image_unet.config.attention_head_dim)
        self.image_unet.set_attention_slice(slice_size)
    # Copied from diffusers.pipelines.stable_diffusion.pipeline_stable_diffusion.StableDiffusionPipeline.disable_attention_slicing

--- a/src/diffusers/pipelines/versatile_diffusion/pipeline_versatile_diffusion_text_to_image.py
+++ b/src/diffusers/pipelines/versatile_diffusion/pipeline_versatile_diffusion_text_to_image.py
@@ -131,9 +131,14 @@ class VersatileDiffusionTextToImagePipeline(DiffusionPipeline):
                `attention_head_dim` must be a multiple of `slice_size`.
        """
        if slice_size == "auto":
-            # half the attention head size is usually a good trade-off between
+            if isinstance(self.image_unet.config.attention_head_dim, int):
-            # speed and memory
+                # half the attention head size is usually a good trade-off between
-            slice_size = self.image_unet.config.attention_head_dim // 2
+                # speed and memory
+                slice_size = self.image_unet.config.attention_head_dim // 2
+            else:
+                # if `attention_head_dim` is a list, take the smallest head size
+                slice_size = min(self.image_unet.config.attention_head_dim)
        self.image_unet.set_attention_slice(slice_size)
    # Copied from diffusers.pipelines.stable_diffusion.pipeline_stable_diffusion.StableDiffusionPipeline.disable_attention_slicing

--- a/tests/pipelines/stable_diffusion_2/__init__.py
+++ b/tests/pipelines/stable_diffusion_2/__init__.py
--- a/tests/pipelines/stable_diffusion_2/test_stable_diffusion.py
+++ b/tests/pipelines/stable_diffusion_2/test_stable_diffusion.py