• laibao's avatar
    feat: add Marlin W16A16 MoE fast path · 4f575f17
    laibao authored
    - 添加环境变量开关 VLLM_USE_MARLIN_W16A16_MOE(及 fused RMS+RoPE 标志位)
    - 增加 W16A16 Marlin 权重重排/缓存逻辑
    - 集成 lightop 的 W16A16 MoE fast path,复用打包缓存避免重复 pack 并在 GPU 卸载原布局
    4f575f17
envs.py 53.4 KB