-
laibao authored
- 添加环境变量开关 VLLM_USE_MARLIN_W16A16_MOE(及 fused RMS+RoPE 标志位) - 增加 W16A16 Marlin 权重重排/缓存逻辑 - 集成 lightop 的 W16A16 MoE fast path,复用打包缓存避免重复 pack 并在 GPU 卸载原布局
4f575f17
- 添加环境变量开关 VLLM_USE_MARLIN_W16A16_MOE(及 fused RMS+RoPE 标志位) - 增加 W16A16 Marlin 权重重排/缓存逻辑 - 集成 lightop 的 W16A16 MoE fast path,复用打包缓存避免重复 pack 并在 GPU 卸载原布局