Commits · 19d458ec1ada192d85b440e4ea803fe147a47106 · OpenDAS / vllm_cscc

28 Jan, 2026 4 commits
- release opt5 · 19d458ec
  zhuwenwen authored Jan 28, 2026
  
  19d458ec
- update self.kv_cache_dtype · 989a3fad
  zhuwenwen authored Jan 28, 2026
  
  989a3fad
- update kv_cache_dtype · a9c755ac
  zhuwenwen authored Jan 28, 2026
  
  a9c755ac
- Merge branch 'v0.9.2-dev-fix-zero' into 'v0.9.2-dev' · c0697921
  zhuwenwen authored Jan 28, 2026
```
fix: 解决原版0消耗chunk-prefill崩溃问题

See merge request dcutoolkit/deeplearing/vllm!393
```
  c0697921
27 Jan, 2026 6 commits
- fix: 解决原版0消耗chunk-prefill崩溃问题 · 2b1be0e8
  jujl1 authored Jan 27, 2026
  
  2b1be0e8
- remove redundant kv_cache_dtype_str · 9c95f8b0
  zhuwenwen authored Jan 27, 2026
  
  9c95f8b0
- Merge branch 'v0.9.2-dev-fth' into 'v0.9.2-dev' · 7d9a3bcc
  zhuwenwen authored Jan 27, 2026
```
fp8增加fused_moe_gate参数

See merge request dcutoolkit/deeplearing/vllm!391
```
  7d9a3bcc
- Merge branch 'v0.9.2-dev-channel-lxh' into 'v0.9.2-dev' · 41f98782
  zhuwenwen authored Jan 27, 2026
```
V0.9.2 dev channel lxh

See merge request dcutoolkit/deeplearing/vllm!390
```
  41f98782
- V0.9.2 dev channel lxh · 747cd248
  wanglong3 authored Jan 27, 2026
  
  747cd248
- fp8增加fused_moe_gate参数 · 091cff41
  SAC_fanth authored Jan 27, 2026
  
  091cff41
26 Jan, 2026 2 commits
- update version of opt5 test · 9f68733a
  zhuwenwen authored Jan 26, 2026
  
  9f68733a
- fix local kv_cache_dtype_str · 718337a7
  zhuwenwen authored Jan 26, 2026
  
  718337a7
23 Jan, 2026 2 commits
- fix interface error · fc55a25c
  zhuwenwen authored Jan 23, 2026
  
  fc55a25c
- support fa kvcache fp8, add VLLM_USE_QUERY_QUANT to not use q quant(todo) · b3062dab
  zhuwenwen authored Jan 23, 2026
  
  b3062dab
22 Jan, 2026 4 commits
- Merge branch 'v0.9.2-dev-wm-0112' into 'v0.9.2-dev' · 4e51cae7
  zhuwenwen authored Jan 22, 2026
```
[feat]添加dp attention功能

See merge request dcutoolkit/deeplearing/vllm!383
```
  4e51cae7
- 零消耗添加epsp · cc4d1002
  王敏 authored Jan 22, 2026
  
  cc4d1002
- merge dev分支代码 · 855cb148
  王敏 authored Jan 22, 2026
  
  855cb148
- 优化epsp代码 · 9135afe4
  王敏 authored Jan 22, 2026
  
  9135afe4
21 Jan, 2026 9 commits

Merge branch 'v0.9.2-dev_rms_rope' into 'v0.9.2-dev' · fe2e2705

zhuwenwen authored Jan 21, 2026

feat(moe/marlin): Marlin W16A16 MoE 自动探测并预打包（去掉手动开关）

See merge request dcutoolkit/deeplearing/vllm!382

fe2e2705

Merge branch 'v0.9.2-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.9.2-dev · bb3afd68
zhuwenwen authored Jan 21, 2026

bb3afd68
update VLLM_USE_FUSED_RMS_ROPE=0 (default) · 0d5dd2da
zhuwenwen authored Jan 21, 2026
```
for qwen3, VLLM_USE_FUSED_RMS_ROPE=1 (default)
```
0d5dd2da

feat(moe/marlin): Marlin W16A16 MoE 自动探测并预打包（去掉手动开关） · de588fab

laibao authored Jan 21, 2026

  - 移除 VLLM_USE_MARLIN_W16A16_MOE 环境变量
  - 初始化阶段基于 lightop 探测并缓存 _marlin_w16a16_moe_enabled，满足条件强制 use_nn_moe=False
  - 权重加载后按缓存结果一次性 Marlin pack；运行时按 packed 标记走 Marlin fast path

de588fab

Merge branch 'v0.9.2-dev_rms_rope' into 'v0.9.2-dev' · beb3aff7
zhuwenwen authored Jan 21, 2026
```
perf(qwen3): 融合 q/k RMSNorm + RoPE

See merge request dcutoolkit/deeplearing/vllm!381
```
beb3aff7

perf(qwen3): 融合 q/k RMSNorm + RoPE · 7cd7bf8a

laibao authored Jan 21, 2026

新增 VLLM_USE_FUSED_RMS_ROPE 分支，走 fused 路径
注册 torch.ops.vllm.rms_rotary_embedding_fuse（direct_register_custom_op）
cos_sin_cache 自动转 device/dtype 并缓存，避免每次重复拷贝

7cd7bf8a

Merge branch 'v0.9.2-dev-fth' into 'v0.9.2-dev' · 8ec9d9f1
zhuwenwen authored Jan 21, 2026
```
fused_moe_fp8接入lmslim

See merge request dcutoolkit/deeplearing/vllm!379
```
8ec9d9f1
fused_moe_fp8接入lmslim · 5b7f2c7d
SAC_fanth authored Jan 21, 2026

5b7f2c7d
Merge branch 'v0.9.2-dev-fp8-blaslt' into 'v0.9.2-dev' · c2e7f4ad
zhuwenwen authored Jan 21, 2026
```
feat: Support w8a8-fp8 GEMM backend.

See merge request dcutoolkit/deeplearing/vllm!375
```
c2e7f4ad

20 Jan, 2026 2 commits
- feat: Support w8a8-fp8 GEMM backend. · 900f4720
  wanglong3 authored Jan 17, 2026
  
  900f4720
- update VLLM_USE_TOPK_RENORM · 5a1e9359
  zhuwenwen authored Jan 20, 2026
  
  5a1e9359
19 Jan, 2026 2 commits
- remove SUPPORT_MOE_MARLIN_W16A16 · 564cbe7a
  zhuwenwen authored Jan 19, 2026
  
  564cbe7a
- [qwen3-235b] MoE(TN&NN) configs for nmz TP=8 · 0328ef06
  zhuwenwen authored Jan 19, 2026
```
[qwen3-480b] MoE(TN) configs for nmz TP=8
```
  0328ef06
17 Jan, 2026 7 commits
- 优化deepep相关代码 · 76695c0a
  王敏 authored Jan 17, 2026
  
  76695c0a
- set VLLM_USE_FLASH_ATTN_FP8=1 and VLLM_USE_FLASH_MLA_FP8=1 · 25e16eea
  zhuwenwen authored Jan 17, 2026
  
  25e16eea
- update opt4 · a50ece3a
  zhuwenwen authored Jan 17, 2026
  
  a50ece3a
- set VLLM_USE_FUSED_FILL_RMS_CAT=1 · cf7d1166
  zhuwenwen authored Jan 17, 2026
  
  cf7d1166
- update q_quant dtype · 8f30468c
  zhuwenwen authored Jan 17, 2026
  
  8f30468c
- Merge remote-tracking branch 'origin/v0.9.2-dev-fix' into v0.9.2-dev · c7b0d0d4
  zhuwenwen authored Jan 17, 2026
  
  c7b0d0d4
- fix: update_state,优化性能，去除冗余操作 · e9cfa85e
  jujl1 authored Jan 17, 2026
  
  e9cfa85e
16 Jan, 2026 2 commits
- update unified_attention_with_output_fake · 9d16d5aa
  zhuwenwen authored Jan 16, 2026
  
  9d16d5aa
- add VLLM_USE_FUSED_CACHE_QUANT_BMM_MLA to use fused rmsnorm + contiguous +... · 9dd70f0e
  zhuwenwen authored Jan 16, 2026
```
add VLLM_USE_FUSED_CACHE_QUANT_BMM_MLA to use fused rmsnorm + contiguous + rope(for dpsk-v3) + concat_and_cache_mla + q quant, control bmm(todo) + cat +mla (fp8)
```
  9dd70f0e