• laibao's avatar
    feat(moe): 增加 LightOP moe_sum+mul+add 融合并打通参数透传 · 0639678c
    laibao authored
      新增环境变量 VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD 用于控制
      fused sum+mul+add 开关。
      在 DeepseekV2MoE 中增加 fused 路径,预计算 shared_output,并下传 iqis 与 routed_scaling_factor。
      扩展 FusedMoE/SharedFusedMoE 及相关 custom op 接口,统一透传 i_q/i_s/shared_output/routed_scaling_factor。
      同步适配 Triton、Marlin W16A16、SlimQuant W4A8、CompressedTensors W8A8 等实现,支持在内核侧完成 sum+mul+add。
    0639678c
envs.py 94.5 KB