perf(fused-moe): 接入 W16A16 Marlin MoE 并缓存 pack 权重
- fused_experts_impl 增加 VLLM_USE_MARLIN_W16A16_MOE fast path:首次对 w1/w2 做 Marlin pack 后缓存,避免重复 reorder;并将原始
权重 offload 到 CPU,降低 GPU 双份驻留
- envs 补齐环境变量 VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD
- 更新 fuse_moe_w16a16_marlin.py 的报错提示为 VLLM_USE_LIGHTOP=1
Showing
Please register or sign in to comment