Support tuning moe for llama 4 model (#6042)

ef8ec07b · fzyzcjy · GitHub · f24fc5b8 · ef8ec07b
Unverified Commit ef8ec07b authored May 13, 2025 by fzyzcjy Committed by GitHub May 12, 2025
Show whitespace changes
Inline Side-by-side

Showing with 7 additions and 1 deletion

benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py ...hmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py +7 -1

No files found.
--- a/benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py
+++ b/benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py
@@ -408,6 +408,12 @@ def main(args: argparse.Namespace):
        topk = config.num_experts_per_tok
        intermediate_size = config.moe_intermediate_size
        shard_intermediate_size = 2 * intermediate_size // args.tp_size
+    elif config.architectures[0] == "Llama4ForConditionalGeneration":
+        n_share_fusion_experts = args.n_share_experts_fusion
+        E = config.text_config.num_local_experts + n_share_fusion_experts
+        topk = config.text_config.num_experts_per_tok
+        intermediate_size = config.text_config.intermediate_size
+        shard_intermediate_size = 2 * intermediate_size // args.tp_size
    elif config.architectures[0] in [
        "Grok1ForCausalLM",
        "Grok1ImgGen",
@@ -424,7 +430,7 @@ def main(args: argparse.Namespace):
        intermediate_size = config.intermediate_size
        shard_intermediate_size = 2 * intermediate_size // args.tp_size
-    hidden_size = config.hidden_size
+    hidden_size = getattr(config, "hidden_size", None) or config.text_config.hidden_size
    dtype = config.torch_dtype
    use_fp8_w8a8 = args.dtype == "fp8_w8a8"
    use_int8_w8a8 = args.dtype == "int8_w8a8"