Improve layout kernel performance

d4f34978 · Chenggang Zhao · 01f49071 · d4f34978
Commit d4f34978 authored Jul 02, 2025 by Chenggang Zhao
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

csrc/kernels/layout.cu csrc/kernels/layout.cu +2 -2

No files found.
--- a/csrc/kernels/layout.cu
+++ b/csrc/kernels/layout.cu
@@ -121,9 +121,9 @@ void get_dispatch_layout(const int64_t* topk_idx,
                         int* num_tokens_per_expert, bool* is_token_in_rank,
                         int num_tokens, int num_topk, int num_ranks, int num_experts,
                         cudaStream_t stream) {
-    constexpr int kNumThreads = 256, kNumExpertsPerSM = 32, kNumRanksPerSM = 8;
+    constexpr int kNumThreads = 256, kNumExpertsPerSM = 4, kNumRanksPerSM = 8;
    int num_sms = ((num_experts + kNumExpertsPerSM - 1) / kNumExpertsPerSM) + (num_ranks + kNumRanksPerSM - 1) / kNumRanksPerSM;
-    EP_STATIC_ASSERT(kNumExpertsPerSM % NUM_MAX_NVL_PEERS == 0, "Invalid number of experts per SM");
+    EP_STATIC_ASSERT(kNumRanksPerSM % NUM_MAX_NVL_PEERS == 0, "Invalid number of ranks per SM");

    SETUP_LAUNCH_CONFIG(num_sms, kNumThreads, stream);
    LAUNCH_KERNEL(&cfg, (get_dispatch_layout<kNumThreads, kNumExpertsPerSM, kNumRanksPerSM>),