1. 24 Feb, 2026 1 commit
    • laibao's avatar
      • perf(v1): 增加可选的快速 token-id 拷贝路径 · d3a95d54
      laibao authored
        - 新增环境变量 `VLLM_V1_FAST_TOKEN_ID_COPY`(默认关闭)
        - 在 `CachedRequestState` 中缓存 int32 的 prompt token ids(numpy 数组)
        - 开启后在 `InputBatch` 中使用 `np.copyto` 拷贝 prompt/output token ids
      d3a95d54
  2. 11 Feb, 2026 2 commits
    • zhuwenwen's avatar
      remove unused impl and envs · b5ea93d4
      zhuwenwen authored
      b5ea93d4
    • laibao's avatar
      feat(moe): 补齐 v0.15 中 Marlin W16A16 MoE 端到端接入 · 1e2fe58f
      laibao authored
        参考并移植 011/vllm 的关键提交逻辑
        新增 VLLM_USE_MOE_W16A16_TRITON 开关,并接入基于 lightop 的运行时能力探测与启用结果缓存。
        在权重加载后对 w13 与 w2 执行 W16A16 Marlin 预打包。
        W16A16 Marlin 启用时保留 monolithic 执行路径,并在 fused_experts_impl 中增加 packed 权重 fast-path。
        保持 Marlin 或 lightop 不可用时的回退行为不变。
      1e2fe58f
  3. 10 Feb, 2026 1 commit
  4. 09 Feb, 2026 1 commit
  5. 06 Feb, 2026 4 commits
  6. 05 Feb, 2026 1 commit
  7. 04 Feb, 2026 3 commits
  8. 28 Jan, 2026 1 commit
  9. 27 Jan, 2026 1 commit
  10. 26 Jan, 2026 2 commits
  11. 25 Jan, 2026 1 commit
  12. 23 Jan, 2026 4 commits
  13. 22 Jan, 2026 3 commits
  14. 20 Jan, 2026 2 commits
  15. 18 Jan, 2026 1 commit
  16. 16 Jan, 2026 3 commits
  17. 15 Jan, 2026 2 commits
  18. 13 Jan, 2026 1 commit
  19. 11 Jan, 2026 1 commit
  20. 09 Jan, 2026 3 commits
  21. 07 Jan, 2026 2 commits