Group offloading improvements (#11094)

update

Group offloading improvements (#11094)
update
813d42cc · Aryan · GitHub · b4d7e9c6 · 813d42cc
Unverified Commit 813d42cc authored Mar 18, 2025 by Aryan Committed by GitHub Mar 18, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 23 additions and 7 deletions

src/diffusers/hooks/group_offloading.py src/diffusers/hooks/group_offloading.py +23 -7

No files found.
--- a/src/diffusers/hooks/group_offloading.py
+++ b/src/diffusers/hooks/group_offloading.py
@@ -83,7 +83,10 @@ class ModuleGroup:
        with context:
            for group_module in self.modules:
-                group_module.to(self.onload_device, non_blocking=self.non_blocking)
+                for param in group_module.parameters():
+                    param.data = param.data.to(self.onload_device, non_blocking=self.non_blocking)
+                for buffer in group_module.buffers():
+                    buffer.data = buffer.data.to(self.onload_device, non_blocking=self.non_blocking)
            if self.parameters is not None:
                for param in self.parameters:
                    param.data = param.data.to(self.onload_device, non_blocking=self.non_blocking)
@@ -98,6 +101,12 @@ class ModuleGroup:
            for group_module in self.modules:
                for param in group_module.parameters():
                    param.data = self.cpu_param_dict[param]
+            if self.parameters is not None:
+                for param in self.parameters:
+                    param.data = self.cpu_param_dict[param]
+            if self.buffers is not None:
+                for buffer in self.buffers:
+                    buffer.data = self.cpu_param_dict[buffer]
        else:
            for group_module in self.modules:
                group_module.to(self.offload_device, non_blocking=self.non_blocking)
@@ -387,9 +396,7 @@ def _apply_group_offloading_block_level(
    # Create a pinned CPU parameter dict for async data transfer if streams are to be used
    cpu_param_dict = None
    if stream is not None:
-        for param in module.parameters():
+        cpu_param_dict = _get_pinned_cpu_param_dict(module)
-            param.data = param.data.cpu().pin_memory()
-        cpu_param_dict = {param: param.data for param in module.parameters()}
    # Create module groups for ModuleList and Sequential blocks
    modules_with_group_offloading = set()
@@ -486,9 +493,7 @@ def _apply_group_offloading_leaf_level(
    # Create a pinned CPU parameter dict for async data transfer if streams are to be used
    cpu_param_dict = None
    if stream is not None:
-        for param in module.parameters():
+        cpu_param_dict = _get_pinned_cpu_param_dict(module)
-            param.data = param.data.cpu().pin_memory()
-        cpu_param_dict = {param: param.data for param in module.parameters()}
    # Create module groups for leaf modules and apply group offloading hooks
    modules_with_group_offloading = set()
@@ -604,6 +609,17 @@ def _apply_lazy_group_offloading_hook(
    registry.register_hook(lazy_prefetch_hook, _LAZY_PREFETCH_GROUP_OFFLOADING)
+def _get_pinned_cpu_param_dict(module: torch.nn.Module) -> Dict[torch.nn.Parameter, torch.Tensor]:
+    cpu_param_dict = {}
+    for param in module.parameters():
+        param.data = param.data.cpu().pin_memory()
+        cpu_param_dict[param] = param.data
+    for buffer in module.buffers():
+        buffer.data = buffer.data.cpu().pin_memory()
+        cpu_param_dict[buffer] = buffer.data
+    return cpu_param_dict
 def _gather_parameters_with_no_group_offloading_parent(
    module: torch.nn.Module, modules_with_group_offloading: Set[str]
 ) -> List[torch.nn.Parameter]: