Add missing import of fused_topk to benchmark_moe (#32784)

Signed-off-by: Daniel Serebrenik <daserebrenik@nvidia.com>

Add missing import of fused_topk to benchmark_moe (#32784)
Signed-off-by: Daniel Serebrenik <daserebrenik@nvidia.com>
f9995398 · danisereb · GitHub · e1da249c · f9995398
Unverified Commit f9995398 authored Jan 21, 2026 by danisereb Committed by GitHub Jan 21, 2026
Show whitespace changes
Inline Side-by-side

Showing with 20 additions and 16 deletions

benchmarks/kernels/benchmark_moe.py benchmarks/kernels/benchmark_moe.py +20 -16

No files found.
--- a/benchmarks/kernels/benchmark_moe.py
+++ b/benchmarks/kernels/benchmark_moe.py
@@ -15,6 +15,7 @@ import ray
 import torch
 from ray.experimental.tqdm_ray import tqdm
+from vllm.model_executor.layers.fused_moe import fused_topk
 from vllm.model_executor.layers.fused_moe.config import (
    FusedMoEConfig,
    FusedMoEParallelConfig,
@@ -200,6 +201,8 @@ def benchmark_config(
            block_shape=block_quant_shape,
        )
+        deep_gemm_experts = None
+        if use_deep_gemm:
            deep_gemm_experts = mk.FusedMoEModularKernel(
                prepare_finalize=MoEPrepareAndFinalizeNoEP(),
                fused_experts=TritonOrDeepGemmExperts(
@@ -210,9 +213,10 @@ def benchmark_config(
                        intermediate_size_per_partition=shard_intermediate_size,
                        num_local_experts=num_experts,
                        activation="silu",
-                    parallel_config=FusedMoEParallelConfig.make_no_parallel(),
+                        moe_parallel_config=FusedMoEParallelConfig.make_no_parallel(),
                        in_dtype=init_dtype,
                        routing_method=RoutingMethodType.TopK,
+                        device="cuda",
                    ),
                    quant_config=quant_config,
                ),