[ROCm] [Fused Moe EP] Use binary expert mask for aiter fused moe kernel (#29773)

Signed-off-by: ZhiweiYan-96 <zhiwei.yan@amd.com>

[ROCm] [Fused Moe EP] Use binary expert mask for aiter fused moe kernel (#29773)
Signed-off-by: ZhiweiYan-96 <zhiwei.yan@amd.com>
c6df05eb · Zhiwei · GitHub · d726a7b0 · c6df05eb · c6df05eb
Unverified Commit c6df05eb authored Dec 08, 2025 by Zhiwei Committed by GitHub Dec 08, 2025
Showing with 5 additions and 0 deletions

vllm/model_executor/layers/fused_moe/layer.py vllm/model_executor/layers/fused_moe/layer.py +4 -0

vllm/model_executor/layers/quantization/quark/quark_moe.py vllm/model_executor/layers/quantization/quark/quark_moe.py +1 -0

No files found.
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -520,6 +520,10 @@ class FusedMoE(CustomOp):
        self._init_aiter_shared_experts_topK_buffer(
            vllm_config=vllm_config, dp_size=dp_size_
        )
+        if self.use_ep and self.rocm_aiter_fmoe_enabled:
+            assert self.expert_mask is None or torch.all(
+                (expert_mask == 0) | (expert_mask == 1)
+            ), "Aiter Fused MoE kernel only supports expert_map with 0 and 1s."

        assert intermediate_size % self.tp_size == 0
        self.hidden_size = hidden_size

--- a/vllm/model_executor/layers/quantization/quark/quark_moe.py
+++ b/vllm/model_executor/layers/quantization/quark/quark_moe.py
@@ -633,6 +633,7 @@ class QuarkOCP_MX_MoEMethod(QuarkMoEMethod):
                topk_ids=topk_ids,
                activation=activation,
                quant_config=self.moe_quant_config,
+                expert_map=expert_map,
            )
        else:
            from vllm.model_executor.layers.fused_moe import fused_experts