1. 14 Apr, 2026 3 commits
    • laibao's avatar
      Revert "feat:新增step3.5-mtp3功能" · 94823af1
      laibao authored
      This reverts commit a1f4d869.
      94823af1
    • laibao's avatar
      feat:新增step3.5-mtp3功能 · a1f4d869
      laibao authored
      a1f4d869
    • laibao's avatar
      [BUGFIX] 修复 Step3p5 MTP 参数加载与 EAGLE lm_head 共享逻辑 · 7bf17aa2
      laibao authored
      fix:
      
      - 修复 Step3p5 MTP 在加载 checkpoint 时对可选标量参数的识别逻辑,将 q/k/v zero_point 纳入 optional 参数集合,避免参数校验与加载不一致。
      
      revert:
      
      - 回退 EAGLE 中针对 MTP shared_head.head 强制复用 target lm_head 的逻辑,避免与当前 Step3p5 MTP 权重结构产生冲突。
      
      目的:
      
      - 降低 Step3p5 MTP 在权重加载阶段的兼容性问题,减少由于 lm_head 共享路径不一致导致的异常行为,方便后续排查和协作。
      7bf17aa2
  2. 08 Apr, 2026 1 commit
  3. 02 Apr, 2026 1 commit
  4. 28 Mar, 2026 1 commit
  5. 27 Mar, 2026 1 commit
  6. 19 Mar, 2026 1 commit
  7. 18 Mar, 2026 4 commits
  8. 17 Mar, 2026 2 commits
  9. 16 Mar, 2026 2 commits
  10. 15 Mar, 2026 1 commit
    • fanwl's avatar
      Add FA Unified Attention 2D · eb35ba1b
      fanwl authored
      - Add VLLM_V1_USE_FA_UNIFIED_ATTN_2D 环境变量
      - 0: Triton attention, 1: FA unified attention
      eb35ba1b
  11. 12 Mar, 2026 2 commits
  12. 11 Mar, 2026 1 commit
  13. 07 Mar, 2026 1 commit
  14. 06 Mar, 2026 3 commits
  15. 05 Mar, 2026 2 commits
  16. 03 Mar, 2026 1 commit
  17. 02 Mar, 2026 2 commits
  18. 24 Feb, 2026 1 commit
  19. 16 Feb, 2026 2 commits
  20. 13 Feb, 2026 1 commit
  21. 11 Feb, 2026 1 commit
    • laibao's avatar
      feat(moe): 补齐 v0.15 中 Marlin W16A16 MoE 端到端接入 · 1e2fe58f
      laibao authored
        参考并移植 011/vllm 的关键提交逻辑
        新增 VLLM_USE_MOE_W16A16_TRITON 开关,并接入基于 lightop 的运行时能力探测与启用结果缓存。
        在权重加载后对 w13 与 w2 执行 W16A16 Marlin 预打包。
        W16A16 Marlin 启用时保留 monolithic 执行路径,并在 fused_experts_impl 中增加 packed 权重 fast-path。
        保持 Marlin 或 lightop 不可用时的回退行为不变。
      1e2fe58f
  22. 10 Feb, 2026 1 commit
  23. 06 Feb, 2026 4 commits
  24. 04 Feb, 2026 1 commit