vllm/model_executor/models/deepseek_mtp.py · b956fc6400a8b402062ec296ede582aa8f0b39df · OpenDAS / vllm_cscc

[fix]解决moe_fused_gate编译错误，去掉mla中mtp部分的修改 · b956fc64

zhuwenwen authored Nov 13, 2025

restore the default settings of disable_cascade_attn
add VLLM_USE_OPT_ZEROS to replace triton_ (torch.zeros)
set default_max_num_batched_tokens = 10240
update qwen3_moe of layernorm

b956fc64

deepseek_mtp.py 28.3 KB

Replace deepseek_mtp.py