[fix] benchmark : routed_scaling_factor is None (#8059)

Co-authored-by: Xiaoyu Zhang <35585791+BBuf@users.noreply.github.com>

[fix] benchmark : routed_scaling_factor is None (#8059)
Co-authored-by: Xiaoyu Zhang <35585791+BBuf@users.noreply.github.com>
0f8b5386 · Peter Pan · GitHub · c33499a6 · 0f8b5386
Unverified Commit 0f8b5386 authored Jul 22, 2025 by Peter Pan Committed by GitHub Jul 22, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 2 deletions

sgl-kernel/benchmark/bench_moe_fused_gate.py sgl-kernel/benchmark/bench_moe_fused_gate.py +5 -2

No files found.
--- a/sgl-kernel/benchmark/bench_moe_fused_gate.py
+++ b/sgl-kernel/benchmark/bench_moe_fused_gate.py
@@ -18,10 +18,13 @@ def biased_grouped_topk_org(scores, bias, num_expert_group, topk_group, topk):
        renormalize=True,
        num_expert_group=num_expert_group,
        topk_group=topk_group,
+        routed_scaling_factor=2.5,  # DeepSeek-R1 : 2.5, Kimi K2: 2.872
    )
-def biased_grouped_topk_org_kernel(scores, bias, num_expert_group, topk_group, topk):
+def biased_grouped_topk_org_fuse_kernel(
+    scores, bias, num_expert_group, topk_group, topk
+):
    return moe_fused_gate(scores, bias, num_expert_group, topk_group, topk)
@@ -61,7 +64,7 @@ def benchmark(seq_length, provider):
        )
    elif provider == "kernel":
        ms, min_ms, max_ms = triton.testing.do_bench(
-            lambda: biased_grouped_topk_org_kernel(
+            lambda: biased_grouped_topk_org_fuse_kernel(
                scores.clone(), bias.clone(), num_expert_group, topk_group, topk
            ),
            quantiles=quantiles,