Reorder loop in shared expert weight loading (#5719)

c3948ba6 · Ke Bao · GitHub · 269c457e · c3948ba6 · c3948ba6
Unverified Commit c3948ba6 authored Apr 26, 2025 by Ke Bao Committed by GitHub Apr 25, 2025
Showing with 12 additions and 12 deletions

python/sglang/srt/models/deepseek_nextn.py python/sglang/srt/models/deepseek_nextn.py +6 -6

python/sglang/srt/models/deepseek_v2.py python/sglang/srt/models/deepseek_v2.py +6 -6

No files found.
--- a/python/sglang/srt/models/deepseek_nextn.py
+++ b/python/sglang/srt/models/deepseek_nextn.py
@@ -215,11 +215,11 @@ class DeepseekV3ForCausalLMNextN(DeepseekV3ForCausalLM):
                    "up_proj.weight_scale_inv",
                ]
            names_to_remove = []
-            for num_repeat in range(self.n_share_experts_fusion):
            for suffix in suffix_list:
                shared_expert_weight_name = (
                    f"model.layers.0.mlp.shared_experts.{suffix}"
                )
+                for num_repeat in range(self.n_share_experts_fusion):
                    weights_list.append(
                        (
                            f"model.layers.0."

--- a/python/sglang/srt/models/deepseek_v2.py
+++ b/python/sglang/srt/models/deepseek_v2.py
@@ -1650,11 +1650,11 @@ class DeepseekV2ForCausalLM(nn.Module):
                desc=f"Cloning {self.n_share_experts_fusion} "
                "replicas of the shared expert into MoE",
            ):
-                for num_repeat in range(self.n_share_experts_fusion):
                for suffix in suffix_list:
                    shared_expert_weight_name = (
                        f"model.layers.{moe_layer}.mlp.shared_experts.{suffix}"
                    )
+                    for num_repeat in range(self.n_share_experts_fusion):
                        weights_list.append(
                            (
                                f"model.layers.{moe_layer}."