Fix/wan2 2 vae encode api (#244)

* bugfix:adapt to 5B dit model, derive attention_head_dim from config[dim] * [Fix] Wan2.2 Vae Encode refactor: drop args parameter and use self.cpu_offload

Fix/wan2 2 vae encode api (#244)
* bugfix:adapt to 5B dit model, derive attention_head_dim from config[dim] * [Fix] Wan2.2 Vae Encode refactor: drop args parameter and use self.cpu_offload
87343386 · sandy · GitHub · f185da14 · 87343386 · 87343386
Commit 87343386 authored Aug 25, 2025 by sandy Committed by GitHub Aug 25, 2025
Showing with 4 additions and 4 deletions

lightx2v/models/runners/wan/wan_audio_runner.py lightx2v/models/runners/wan/wan_audio_runner.py +1 -1

lightx2v/models/video_encoders/hf/wan/vae_2_2.py lightx2v/models/video_encoders/hf/wan/vae_2_2.py +3 -3

No files found.
--- a/lightx2v/models/runners/wan/wan_audio_runner.py
+++ b/lightx2v/models/runners/wan/wan_audio_runner.py
@@ -512,7 +512,7 @@ class WanAudioRunner(WanRunner):  # type:ignore

    def load_audio_adapter(self):
        audio_adapter = AudioAdapter(
-            attention_head_dim=5120 // self.config["num_heads"],
+            attention_head_dim=self.config["dim"] // self.config["num_heads"],
            num_attention_heads=self.config["num_heads"],
            base_num_layers=self.config["num_layers"],
            interval=1,

--- a/lightx2v/models/video_encoders/hf/wan/vae_2_2.py
+++ b/lightx2v/models/video_encoders/hf/wan/vae_2_2.py
@@ -985,11 +985,11 @@ class Wan2_2_VAE:
        self.inv_std = self.inv_std.cuda()
        self.scale = [self.mean, self.inv_std]

-    def encode(self, videos, args):
-        if hasattr(args, "cpu_offload") and args.cpu_offload:
+    def encode(self, videos):
+        if self.cpu_offload:
            self.to_cuda()
        out = self.model.encode(videos.unsqueeze(0), self.scale).float().squeeze(0)
-        if hasattr(args, "cpu_offload") and args.cpu_offload:
+        if self.cpu_offload:
            self.to_cpu()
        return out