Commits · bbe4df8b9ecb21ec640fd9e8c841ec6e4121310e · OpenDAS / vllm_cscc

05 Feb, 2026 1 commit

feat: Support shared experts fusion. · bbe4df8b

wanglong3 authored Jan 29, 2026

feat: support moe sum when topk==9

bugfix: Fix mtp model load error when eable shared experts fusion.

bbe4df8b

02 Feb, 2026 2 commits
- Merge branch 'v0.9.2-dev-fth' into 'v0.9.2-dev' · 3a58da2c
  zhuwenwen authored Feb 02, 2026
```
fuse_moe_fp8接入marlin算子

See merge request dcutoolkit/deeplearing/vllm!399
```
  3a58da2c
- fuse_moe_fp8接入marlin算子 · 3c283de3
  SAC_fanth authored Feb 02, 2026
  
  3c283de3
29 Jan, 2026 2 commits
- add prepare_so_files to prepare so · a3fb334b
  zhuwenwen authored Jan 29, 2026
  
  a3fb334b
- Merge branch 'v0.9.2-dev-tc_opt' into 'v0.9.2-dev' · 56d6c689
  zhuwenwen authored Jan 29, 2026
```
fix(v1)：修复抢占恢复时 BlockTable 溢出

See merge request dcutoolkit/deeplearing/vllm!398
```
  56d6c689
28 Jan, 2026 7 commits

fix(v1)：修复抢占恢复时 BlockTable 溢出 · 87ce2db9

laibao authored Jan 28, 2026

  - 缺失请求统一延后重新加入，避免同一轮重复写入
  - 抢占恢复用覆盖写入（add_row），正常运行用增量追加（append_row）
  - 保持正常请求的追加语义不变

87ce2db9

Merge branch 'v0.9.2-dev-tc_opt' into 'v0.9.2-dev' · f35ea024

zhuwenwen authored Jan 28, 2026

feat(moe)：新增 VLLM_USE_MOE_W16A16_TRTION 强制 Triton MoE

See merge request dcutoolkit/deeplearing/vllm!396

f35ea024

feat(moe)：新增 VLLM_USE_MOE_W16A16_TRTION 强制 Triton MoE · cedfe391

laibao authored Jan 28, 2026

增加环境变量开关，禁用 Marlin W16A16 MoE 路径
强制 Triton 且权重已是 Marlin packed 时给出明确报错
Marlin 支持探测改为 best-effort（不再依赖 VLLM_USE_LIGHTOP）

cedfe391

release opt5 · 19d458ec
zhuwenwen authored Jan 28, 2026

19d458ec
update self.kv_cache_dtype · 989a3fad
zhuwenwen authored Jan 28, 2026

989a3fad
update kv_cache_dtype · a9c755ac
zhuwenwen authored Jan 28, 2026

a9c755ac

Merge branch 'v0.9.2-dev-fix-zero' into 'v0.9.2-dev' · c0697921

zhuwenwen authored Jan 28, 2026

fix: 解决原版0消耗chunk-prefill崩溃问题

See merge request dcutoolkit/deeplearing/vllm!393

c0697921

27 Jan, 2026 6 commits
- fix: 解决原版0消耗chunk-prefill崩溃问题 · 2b1be0e8
  jujl1 authored Jan 27, 2026
  
  2b1be0e8
- remove redundant kv_cache_dtype_str · 9c95f8b0
  zhuwenwen authored Jan 27, 2026
  
  9c95f8b0
- Merge branch 'v0.9.2-dev-fth' into 'v0.9.2-dev' · 7d9a3bcc
  zhuwenwen authored Jan 27, 2026
```
fp8增加fused_moe_gate参数

See merge request dcutoolkit/deeplearing/vllm!391
```
  7d9a3bcc
- Merge branch 'v0.9.2-dev-channel-lxh' into 'v0.9.2-dev' · 41f98782
  zhuwenwen authored Jan 27, 2026
```
V0.9.2 dev channel lxh

See merge request dcutoolkit/deeplearing/vllm!390
```
  41f98782
- V0.9.2 dev channel lxh · 747cd248
  wanglong3 authored Jan 27, 2026
  
  747cd248
- fp8增加fused_moe_gate参数 · 091cff41
  SAC_fanth authored Jan 27, 2026
  
  091cff41
26 Jan, 2026 2 commits
- update version of opt5 test · 9f68733a
  zhuwenwen authored Jan 26, 2026
  
  9f68733a
- fix local kv_cache_dtype_str · 718337a7
  zhuwenwen authored Jan 26, 2026
  
  718337a7
23 Jan, 2026 2 commits
- fix interface error · fc55a25c
  zhuwenwen authored Jan 23, 2026
  
  fc55a25c
- support fa kvcache fp8, add VLLM_USE_QUERY_QUANT to not use q quant(todo) · b3062dab
  zhuwenwen authored Jan 23, 2026
  
  b3062dab
22 Jan, 2026 4 commits
- Merge branch 'v0.9.2-dev-wm-0112' into 'v0.9.2-dev' · 4e51cae7
  zhuwenwen authored Jan 22, 2026
```
[feat]添加dp attention功能

See merge request dcutoolkit/deeplearing/vllm!383
```
  4e51cae7
- 零消耗添加epsp · cc4d1002
  王敏 authored Jan 22, 2026
  
  cc4d1002
- merge dev分支代码 · 855cb148
  王敏 authored Jan 22, 2026
  
  855cb148
- 优化epsp代码 · 9135afe4
  王敏 authored Jan 22, 2026
  
  9135afe4
21 Jan, 2026 9 commits

Merge branch 'v0.9.2-dev_rms_rope' into 'v0.9.2-dev' · fe2e2705

zhuwenwen authored Jan 21, 2026

feat(moe/marlin): Marlin W16A16 MoE 自动探测并预打包（去掉手动开关）

See merge request dcutoolkit/deeplearing/vllm!382

fe2e2705

Merge branch 'v0.9.2-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.9.2-dev · bb3afd68
zhuwenwen authored Jan 21, 2026

bb3afd68
update VLLM_USE_FUSED_RMS_ROPE=0 (default) · 0d5dd2da
zhuwenwen authored Jan 21, 2026
```
for qwen3, VLLM_USE_FUSED_RMS_ROPE=1 (default)
```
0d5dd2da

feat(moe/marlin): Marlin W16A16 MoE 自动探测并预打包（去掉手动开关） · de588fab

laibao authored Jan 21, 2026

  - 移除 VLLM_USE_MARLIN_W16A16_MOE 环境变量
  - 初始化阶段基于 lightop 探测并缓存 _marlin_w16a16_moe_enabled，满足条件强制 use_nn_moe=False
  - 权重加载后按缓存结果一次性 Marlin pack；运行时按 packed 标记走 Marlin fast path

de588fab

Merge branch 'v0.9.2-dev_rms_rope' into 'v0.9.2-dev' · beb3aff7
zhuwenwen authored Jan 21, 2026
```
perf(qwen3): 融合 q/k RMSNorm + RoPE

See merge request dcutoolkit/deeplearing/vllm!381
```
beb3aff7

perf(qwen3): 融合 q/k RMSNorm + RoPE · 7cd7bf8a

laibao authored Jan 21, 2026

新增 VLLM_USE_FUSED_RMS_ROPE 分支，走 fused 路径
注册 torch.ops.vllm.rms_rotary_embedding_fuse（direct_register_custom_op）
cos_sin_cache 自动转 device/dtype 并缓存，避免每次重复拷贝

7cd7bf8a

Merge branch 'v0.9.2-dev-fth' into 'v0.9.2-dev' · 8ec9d9f1
zhuwenwen authored Jan 21, 2026
```
fused_moe_fp8接入lmslim

See merge request dcutoolkit/deeplearing/vllm!379
```
8ec9d9f1
fused_moe_fp8接入lmslim · 5b7f2c7d
SAC_fanth authored Jan 21, 2026

5b7f2c7d
Merge branch 'v0.9.2-dev-fp8-blaslt' into 'v0.9.2-dev' · c2e7f4ad
zhuwenwen authored Jan 21, 2026
```
feat: Support w8a8-fp8 GEMM backend.

See merge request dcutoolkit/deeplearing/vllm!375
```
c2e7f4ad

20 Jan, 2026 2 commits
- feat: Support w8a8-fp8 GEMM backend. · 900f4720
  wanglong3 authored Jan 17, 2026
  
  900f4720
- update VLLM_USE_TOPK_RENORM · 5a1e9359
  zhuwenwen authored Jan 20, 2026
  
  5a1e9359
19 Jan, 2026 2 commits
- remove SUPPORT_MOE_MARLIN_W16A16 · 564cbe7a
  zhuwenwen authored Jan 19, 2026
  
  564cbe7a
- [qwen3-235b] MoE(TN&NN) configs for nmz TP=8 · 0328ef06
  zhuwenwen authored Jan 19, 2026
```
[qwen3-480b] MoE(TN) configs for nmz TP=8
```
  0328ef06
17 Jan, 2026 1 commit
- 优化deepep相关代码 · 76695c0a
  王敏 authored Jan 17, 2026
  
  76695c0a