修复all2all报维度不匹配问题

578d3e97 · 王敏 · cde83ab0 · 578d3e97 · 578d3e97
Commit 578d3e97 authored Sep 06, 2025 by 王敏
2 changed files
--- a/vllm/model_executor/layers/fused_moe/ep_moe/ep_moe_utlis.py
+++ b/vllm/model_executor/layers/fused_moe/ep_moe/ep_moe_utlis.py
@@ -327,8 +327,7 @@ def all_to_all(group, input, output_split_sizes, input_split_sizes):
        output = input.new_empty(
            size=[sum(output_split_sizes)] + list(input.size()[1:]),
            dtype=input.dtype,
-            #device=torch.cuda.current_device(),
+            device=torch.cuda.current_device()
-            device=input.device,
        )
    torch.distributed.all_to_all_single(
@@ -336,8 +335,7 @@ def all_to_all(group, input, output_split_sizes, input_split_sizes):
        input,
        output_split_sizes=output_split_sizes,
        input_split_sizes=input_split_sizes,
-        group=group,
+        group=group
-        async_op=True
    )
    return output
--- a/vllm/model_executor/layers/fused_moe/ep_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/ep_moe/layer.py
@@ -180,7 +180,7 @@ class EPMoE(FusedMoE):
        routed_scaling_factor: Optional[float] = None,
        enable_eplb: bool = False,
        num_redundant_experts: int = 0,
-        moe_permute_fusion: bool = True,
+        moe_permute_fusion: bool = False,
        moe_shared_expert_overlap: bool = False
    ):
        super().__init__(num_experts, top_k, hidden_size,