1. 18 Mar, 2026 1 commit
    • laibao's avatar
      feat(moe): 增加 LightOP moe_sum+mul+add 融合并打通参数透传 · 0639678c
      laibao authored
        新增环境变量 VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD 用于控制
        fused sum+mul+add 开关。
        在 DeepseekV2MoE 中增加 fused 路径,预计算 shared_output,并下传 iqis 与 routed_scaling_factor。
        扩展 FusedMoE/SharedFusedMoE 及相关 custom op 接口,统一透传 i_q/i_s/shared_output/routed_scaling_factor。
        同步适配 Triton、Marlin W16A16、SlimQuant W4A8、CompressedTensors W8A8 等实现,支持在内核侧完成 sum+mul+add。
      0639678c
  2. 16 Mar, 2026 3 commits
  3. 15 Mar, 2026 1 commit
    • fanwl's avatar
      Add FA Unified Attention 2D · eb35ba1b
      fanwl authored
      - Add VLLM_V1_USE_FA_UNIFIED_ATTN_2D 环境变量
      - 0: Triton attention, 1: FA unified attention
      eb35ba1b
  4. 12 Mar, 2026 6 commits
  5. 09 Mar, 2026 2 commits
  6. 07 Mar, 2026 1 commit
  7. 06 Mar, 2026 3 commits
  8. 26 Feb, 2026 1 commit
  9. 24 Feb, 2026 2 commits
  10. 11 Feb, 2026 2 commits
    • zhuwenwen's avatar
      remove unused impl and envs · b5ea93d4
      zhuwenwen authored
      b5ea93d4
    • laibao's avatar
      feat(moe): 补齐 v0.15 中 Marlin W16A16 MoE 端到端接入 · 1e2fe58f
      laibao authored
        参考并移植 011/vllm 的关键提交逻辑
        新增 VLLM_USE_MOE_W16A16_TRITON 开关,并接入基于 lightop 的运行时能力探测与启用结果缓存。
        在权重加载后对 w13 与 w2 执行 W16A16 Marlin 预打包。
        W16A16 Marlin 启用时保留 monolithic 执行路径,并在 fused_experts_impl 中增加 packed 权重 fast-path。
        保持 Marlin 或 lightop 不可用时的回退行为不变。
      1e2fe58f
  11. 10 Feb, 2026 1 commit
  12. 09 Feb, 2026 2 commits
  13. 06 Feb, 2026 4 commits
  14. 05 Feb, 2026 1 commit
  15. 04 Feb, 2026 3 commits
  16. 28 Jan, 2026 1 commit
  17. 27 Jan, 2026 1 commit
  18. 26 Jan, 2026 2 commits
  19. 25 Jan, 2026 1 commit
  20. 23 Jan, 2026 2 commits