-
laibao authored
- fused_experts_impl 增加 VLLM_USE_MARLIN_W16A16_MOE fast path:首次对 w1/w2 做 Marlin pack 后缓存,避免重复 reorder;并将原始 权重 offload 到 CPU,降低 GPU 双份驻留 - envs 补齐环境变量 VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD - 更新 fuse_moe_w16a16_marlin.py 的报错提示为 VLLM_USE_LIGHTOP=12b0c9835