Commits · fc5eb9e129bd35e956d50fcf993375b2c54c8b09 · OpenDAS / vllm_cscc

06 Jan, 2026 1 commit
- Merge branch 'dev_092_shared_expert_overlap' into 'v0.9.2-dev' · fc5eb9e1
  zhuwenwen authored Jan 06, 2026
```
feat: enable shared expert overlap.

See merge request dcutoolkit/deeplearing/vllm!339
```
  fc5eb9e1
05 Jan, 2026 3 commits
- feat: enable shared expert overlap. · ee19dca6
  wanglong3 authored Jan 03, 2026
  
  ee19dca6
- Merge branch 'v0.9.2-dev-tc_opt' into 'v0.9.2-dev' · ffc00331
  zhuwenwen authored Jan 05, 2026
```
feat：为 GLM4 和 Llama 模型新增 MultiModalConfigProxy，以支持扁平配置与嵌套的多模态配置（text_config）

See merge request dcutoolkit/deeplearing/vllm!336
```
  ffc00331
- feat：为 GLM4 和 Llama 模型新增 MultiModalConfigProxy，以支持扁平配置与嵌套的多模态配置（text_config） · 952f0347
  laibao authored Jan 05, 2026
  
  952f0347
04 Jan, 2026 9 commits
- Merge branch 'v0.9.2-dev-pdncclinit' into 'v0.9.2-dev' · d916e714
  zhuwenwen authored Jan 04, 2026
```
V0.9.2 dev pdncclinit

See merge request dcutoolkit/deeplearing/vllm!333
```
  d916e714
- 解决pd分离非对称切分通信组过多问题 · 294cc23a
  xiabo authored Jan 04, 2026
  
  294cc23a
- 区分pcie和hglink custom allreduce的使用 · 1b5aa25e
  xiabo authored Jan 04, 2026
  
  1b5aa25e
- Merge branch 'v0.9.2-dev-main+mtp-zero' into 'v0.9.2-dev' · c6a9b490
  zhuwenwen authored Jan 04, 2026
```
fix: 只有当kv block中不含有MTP的假数据时才会被cached，以修复cache_full_blocks同一个kv block保存两次的bug

See merge request dcutoolkit/deeplearing/vllm!331
```
  c6a9b490
- Merge branch 'v0.9.2-dev-tc_opt' into 'v0.9.2-dev' · c06ef6d5
  zhuwenwen authored Jan 04, 2026
```
perf: 加速 v1 InputBatch.add_request 的 token_ids 拷贝

See merge request dcutoolkit/deeplearing/vllm!330
```
  c06ef6d5
- fix: 只有当kv block中不含有MTP的假数据时才会被cached，以修复cache_full_blocks同一个kv block保存两次的bug · f7cb8c7b
  jujl1 authored Jan 04, 2026
  
  f7cb8c7b
- perf: 加速 v1 InputBatch.add_request 的 token_ids 拷贝 · fbe8587a
  laibao authored Jan 04, 2026
```
新增环境变量开关 VLLM_V1_FAST_TOKEN_ID_COPY（默认关闭）。开启后在 CachedRequestState 中缓存 prompt_token_ids 的 np.int32，并在 add_request 里用 np.copyto 写入 token_ids_cpu，避免长 prompt 场景反复 list->NumPy 转换开销（尤其是抢占/反复进出 batch 时）
```
  fbe8587a
- Merge branch 'v0.9.2-dev-fuse_qa_kva_gemm1_squash_rebase_new' into 'v0.9.2-dev' · 1e57506d
  zhuwenwen authored Jan 04, 2026
```
perf: DS-量化模型融合qa和kva的gemm

See merge request dcutoolkit/deeplearing/vllm!329
```
  1e57506d
- perf: DS-量化模型融合qa和kva的gemm · 577eb49f
  wujl5 authored Jan 04, 2026
  
  577eb49f
31 Dec, 2025 4 commits
- Merge branch 'v0.9.2-dev-main+mtp-zero' into 'v0.9.2-dev' · d4e72be3
  gaoqiong authored Dec 31, 2025
```
fix: chunk-prefill生成的token被错误返回

See merge request dcutoolkit/deeplearing/vllm!327
```
  d4e72be3
- fix: chunk-prefill生成的token被错误返回 · 2c1de3fa
  jujl1 authored Dec 31, 2025
  
  2c1de3fa
- Merge branch 'v0.9.2-dev-main+mtp-zero' into 'v0.9.2-dev' · 072e3895
  gaoqiong authored Dec 31, 2025
```
V0.9.2 dev main+mtp zero

See merge request dcutoolkit/deeplearing/vllm!325
```
  072e3895
- feat: 兼容MTP零消耗和主模型+MTP零消耗(VLLM_ZERO_OVERHEAD_ENHANCE=1)开启 · 76e22965
  jujl1 authored Dec 31, 2025
  
  76e22965
30 Dec, 2025 3 commits
- feat: 兼容MTP零消耗和主模型+MTP零消耗(VLLM_ZERO_OVERHEAD_ENHANCE=1)开启 · 8a413453
  jujl1 authored Dec 30, 2025
  
  8a413453
- 解决pd分离非对称切分通信组过多问题 · 84e5aba2
  xiabo authored Dec 30, 2025
  
  84e5aba2
- fix: 解决列表访问越界 · 5208b291
  jujl1 authored Dec 30, 2025
  
  5208b291
29 Dec, 2025 4 commits
- fix: 解决同时处理prefill和decode时的prefill请求token计数错误 · bc945a5a
  jujl1 authored Dec 24, 2025
  
  bc945a5a
- fix: support chunk-prefill and fix bug in check_stop · 96197e48
  jujl1 authored Dec 23, 2025
  
  96197e48
- feat: triton kernel 实现 update_input · 89639c96
  jujl1 authored Dec 23, 2025
  
  89639c96
- feat: 主模型+mtp提前返回 · 0936ee97
  jujl1 authored Nov 28, 2025
  
  0936ee97
27 Dec, 2025 1 commit
- Merge remote-tracking branch 'origin/v0.9.2-dev-wm-1218' into v0.9.2-dev · cd42bf87
  zhuwenwen authored Dec 27, 2025
  
  cd42bf87
26 Dec, 2025 1 commit
- add VLLM_USE_FLASH_ATTN_FP8 to support fa fp8 · 43546076
  zhuwenwen authored Dec 26, 2025
  
  43546076
25 Dec, 2025 4 commits
- [fix]解决EP不开启mtp时某些size报错 · 9925dd0e
  王敏 authored Dec 25, 2025
  
  9925dd0e
- Merge branch 'v0.9.2-dev_mtp_sampler' into 'v0.9.2-dev' · 1663f34c
  zhuwenwen authored Dec 25, 2025
```
V1 采样器：新增 reduced top-k/top-p 采样路径

See merge request dcutoolkit/deeplearing/vllm!321
```
  1663f34c
- Merge branch 'v0.9.2-dev-update' into 'v0.9.2-dev' · 66b3ded6
  zhuwenwen authored Dec 25, 2025
```
修复w8a8 triton config 择优位运算可能引发torch compile 编译错误，修复smquant w8a8 权重后处理位置

See merge request dcutoolkit/deeplearing/vllm!320
```
  66b3ded6
- 修复w8a8 triton config 择优位运算可能引发torch compile 编译错误，修复smquant w8a8 权重后处理位置 · 16d49763
  gaoqiong authored Dec 25, 2025
  
  16d49763
24 Dec, 2025 4 commits

[fix]解决EP开启pd_padding大输入卡住问题 · 639a11d2
王敏 authored Dec 24, 2025

639a11d2
Merge remote-tracking branch 'origin/v0.9.2-dev' into v0.9.2-dev · 82cd3c88
王敏 authored Dec 24, 2025
```
# Conflicts:
#	vllm/envs.py
```
82cd3c88

V1 采样器：新增 reduced top-k/top-p 采样路径 · 9b1e03d4

laibao authored Dec 24, 2025

新增环境变量 VLLM_V1_USE_REDUCED_TOPK_TOPP_SAMPLER 用于开关控制
扩展 SamplingMetadata，增加 max_top_k 与 has_any_no_top_k
在 InputBatch 侧计算 top-k 的主机端汇总信息，避免 device 同步
更新 Sampler/TopKTopPSampler 传递并使用新参数以启用优化采样

9b1e03d4

Merge branch 'v0.9.2-dev-pd-all' into 'v0.9.2-dev' · 7d5faa43

zhuwenwen authored Dec 24, 2025

mla模型P、D单实例单机的任意切分方式（满足D的tp>=P的tp)使用

See merge request dcutoolkit/deeplearing/vllm!315

7d5faa43

23 Dec, 2025 6 commits
- mla模型P、D单实例单机的任意切分方式（满足D的tp>=P的tp)使用 · 4f51931d
  xiabo authored Dec 23, 2025
  
  4f51931d
- [feat]低延迟模式采用int8 dispatch · 35e43dfb
  王敏 authored Dec 23, 2025
  
  35e43dfb
- update fuse_fill_rms_x2_concat · bac269d7
  zhuwenwen authored Dec 23, 2025
  
  bac269d7
- set VLLM_CUSTOM_CACHE=1 · bdae1255
  zhuwenwen authored Dec 23, 2025
  
  bdae1255
- Merge branch 'v0.9.2-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.9.2-dev · 5d423ddc
  zhuwenwen authored Dec 23, 2025
  
  5d423ddc
- add VLLM_USE_FUSED_FILL_RMS_CAT for dpsk mtp fill + rms*2 + cat · e80dcabe
  zhuwenwen authored Dec 23, 2025
```
update VLLM_USE_LIGHTOP_RMS_ROPE_CONCAT impl
```
  e80dcabe