vllm/_custom_ops.py · f2036734fbf6d4b119d9362dddb8b4a6954e3591 · OpenDAS / vllm_cscc

[ModelOpt] Introduce VLLM_MAX_TOKENS_PER_EXPERT_FP4_MOE env var to control... · f2036734

Pavani Majety authored May 23, 2025


[ModelOpt] Introduce VLLM_MAX_TOKENS_PER_EXPERT_FP4_MOE env var to control blockscale tensor allocation (#18160)
Signed-off-by: Pavani Majety <pmajety@nvidia.com>

f2036734

_custom_ops.py 70.6 KB

Replace _custom_ops.py