Commits · a0ac95b09256ac760969bc408d6c98b165918f12 · OpenDAS / vllm_cscc

24 Mar, 2026 2 commits
- 补充1d_mrope · c07d9253
  guanyu1 authored Mar 24, 2026
  
  c07d9253
- VLLM_ENCODER_CACHE_SIZE控制encoder_cache_size大小 · 2d940766
  guanyu1 authored Mar 24, 2026
  
  2d940766
23 Mar, 2026 1 commit
- 删除1d_mrope · 2799cc7a
  guanyu1 authored Mar 23, 2026
  
  2799cc7a
21 Mar, 2026 4 commits
- 关闭sparse_mla的num_head到64/128的pad，以及添加控制fp8_use_mixed_batch模式的环境变量控制，FP8_USE_MI... · c6a45c08
  yangql authored Mar 21, 2026
```
关闭sparse_mla的num_head到64/128的pad，以及添加控制fp8_use_mixed_batch模式的环境变量控制，FP8_USE_MIXED_BATCH，默认为false，为分离模式
```
  c6a45c08
- feat:flash_mla，q去掉pad · 256749c9
  liuchy5 authored Mar 21, 2026
  
  256749c9
- 增加triton的indexer的kcahche读写操作 · 656944ac
  yangql authored Mar 21, 2026
  
  656944ac
- [perf]DSA架构模型支持mtp>1 · 7eb2446c
  王敏 authored Mar 21, 2026
  
  7eb2446c
19 Mar, 2026 1 commit
- [fix]修复GLM mtp精度问题 · 44d4976d
  王敏 authored Mar 19, 2026
  
  44d4976d
18 Mar, 2026 1 commit
- x接入mla_cat算子仅在nmz和kvcache-fp8情况下生效，默认关闭，开启需要export VLLM_USE_CAT_MLA=1 · 3bff7958
  yangql authored Mar 18, 2026
  
  3bff7958
17 Mar, 2026 2 commits
- [perf]消除sparse mla build时的拷贝调度空泡 · 46ab154b
  王敏 authored Mar 17, 2026
  
  46ab154b
- add fa unified attn 导入判断 · 3c900b76
  fanwl authored Mar 17, 2026
  
  3c900b76
16 Mar, 2026 3 commits
- [PD][Bugfix]修复0151pd分离d卡住问题 · 0c5e5f88
  xuxz authored Mar 16, 2026
  
  0c5e5f88
- [feat]deepseek mtp支持pp模式 · 2ce72b9c
  王敏 authored Mar 16, 2026
  
  2ce72b9c
- [feat]支持ray分布式异步调度，VLLM_ENABLE_RAY_ASYNC_SCHEDULING环境变量控制 · 55c719cb
  王敏 authored Mar 16, 2026
  
  55c719cb
15 Mar, 2026 1 commit

fanwl authored Mar 15, 2026

- Add VLLM_V1_USE_FA_UNIFIED_ATTN_2D 环境变量
- 0: Triton attention, 1: FA unified attention

eb35ba1b

12 Mar, 2026 5 commits
- [fix]添加VLLM_USE_LIGHTOP控制lightop topp_topk融合算子开关 · 55a9f930
  王敏 authored Mar 12, 2026
  
  55a9f930
- [fix]添加VLLM_USE_LIGHTOP控制lightop topp_topk融合算子开关 · 3946292a
  王敏 authored Mar 12, 2026
  
  3946292a
- 补充mrope创建部分 · 6b03cfdb
  guanyu1 authored Mar 12, 2026
  
  6b03cfdb
- 误删函数恢复 · fb445dde
  guanyu1 authored Mar 12, 2026
  
  fb445dde
- mrope_1d修改 · ef7e1214
  guanyu1 authored Mar 12, 2026
  
  ef7e1214
11 Mar, 2026 2 commits
- dpsk_v32的mtp层的dense加载适配 · 96abd293
  yangql authored Mar 11, 2026
  
  96abd293
- mla: 恢复 opt-cat 在 prefill 和 decode 的拼接路由 · ee355d86
  laibao authored Mar 07, 2026
  
  ee355d86
09 Mar, 2026 1 commit
- 适配在bmz上的mla的kvcache_e5m2和e4m3量化的支持 · 0daa00fb
  yangql authored Mar 09, 2026
  
  0daa00fb
04 Mar, 2026 2 commits
- 恢复误删代码 · 5e77b44f
  王敏 authored Mar 04, 2026
  
  5e77b44f
- [perf]合入lightop topp_topk 融合算子 · 586f0eba
  王敏 authored Mar 04, 2026
  
  586f0eba
03 Mar, 2026 1 commit
- support dsa · d71496bf
  zhuwenwen authored Mar 03, 2026
  
  d71496bf
02 Mar, 2026 1 commit
- [perf]优化异步调度+并行解码 step之间的空泡，实现kernel提前下发 · 6f6ea0a8
  王敏 authored Mar 02, 2026
  
  6f6ea0a8
26 Feb, 2026 1 commit

feat(sampler): 增加 reduced topk+topp 采样快速路径以降低全词表 softmax 开销 · a17c410d

laibao authored Feb 26, 2026

新增 VLLM_V1_USE_REDUCED_TOPK_TOPP_SAMPLER 开关并补充适用场景说明

在 V1 GPU 输入批预计算 max_top_k/has_any_no_top_k，native sampler 满足条件时走 reduced fast path，异常自动回退

a17c410d

24 Feb, 2026 1 commit

• perf(v1): 增加可选的快速 token-id 拷贝路径 · d3a95d54

laibao authored Feb 20, 2026

  - 新增环境变量 `VLLM_V1_FAST_TOKEN_ID_COPY`（默认关闭）
  - 在 `CachedRequestState` 中缓存 int32 的 prompt token ids（numpy 数组）
  - 开启后在 `InputBatch` 中使用 `np.copyto` 拷贝 prompt/output token ids

d3a95d54

16 Feb, 2026 1 commit
- Add qwen3_5 · 843c1822
  Rayyyyy authored Feb 16, 2026
  
  843c1822
09 Feb, 2026 3 commits
- feat: pp balance · 76ec56bd
  jujl1 authored Feb 06, 2026
  
  76ec56bd
- fix indentation · b8f555af
  zhuwenwen authored Feb 09, 2026
  
  b8f555af
- pd separation uses default scheduling and set VLLM_USE_PD_SPLIT=1 · a4bcf959
  zhuwenwen authored Feb 09, 2026
  
  a4bcf959
08 Feb, 2026 2 commits
- [feat]宽松mtp支持temp,top-p等参数设置 · 78e20661
  王敏 authored Feb 08, 2026
  
  78e20661
- [feat]支持prefill和decode调度分离 · 9ef6f50a
  王敏 authored Feb 08, 2026
  
  9ef6f50a
06 Feb, 2026 2 commits
- perf(qwen3): 融合 q/k RMSNorm + RoPE · e807ec39
  zhuwenwen authored Feb 06, 2026
```
set fp8_e4m3 only supported on nmz and support q&kvcache fp8
set VLLM_PCIE_USE_CUSTOM_ALLREDUCE=1
```
  e807ec39
- [feat]支持宽松mtp · ce1d4073
  王敏 authored Feb 06, 2026
  
  ce1d4073
05 Feb, 2026 1 commit
- sync v0.15.1(ex fused_moe&models) · 899a2db4
  zhuwenwen authored Feb 05, 2026
  
  899a2db4
04 Feb, 2026 2 commits
- update VLLM_USE_OPT_RESHAPE_AND_CACHE to support bf16 and qwen3-dense · 263f45a4
  zhuwenwen authored Feb 04, 2026
  
  263f45a4
- update mla interface · 1cb851b0
  zhuwenwen authored Feb 04, 2026
  
  1cb851b0