Commits · fc55a25c885b191ff158e7a8ebedfbc2ec7a800d · OpenDAS / vllm_cscc

23 Jan, 2026 2 commits
- fix interface error · fc55a25c
  zhuwenwen authored Jan 23, 2026
  
  fc55a25c
- support fa kvcache fp8, add VLLM_USE_QUERY_QUANT to not use q quant(todo) · b3062dab
  zhuwenwen authored Jan 23, 2026
  
  b3062dab
22 Jan, 2026 4 commits
- Merge branch 'v0.9.2-dev-wm-0112' into 'v0.9.2-dev' · 4e51cae7
  zhuwenwen authored Jan 22, 2026
```
[feat]添加dp attention功能

See merge request dcutoolkit/deeplearing/vllm!383
```
  4e51cae7
- 零消耗添加epsp · cc4d1002
  王敏 authored Jan 22, 2026
  
  cc4d1002
- merge dev分支代码 · 855cb148
  王敏 authored Jan 22, 2026
  
  855cb148
- 优化epsp代码 · 9135afe4
  王敏 authored Jan 22, 2026
  
  9135afe4
21 Jan, 2026 9 commits

Merge branch 'v0.9.2-dev_rms_rope' into 'v0.9.2-dev' · fe2e2705

zhuwenwen authored Jan 21, 2026

feat(moe/marlin): Marlin W16A16 MoE 自动探测并预打包（去掉手动开关）

See merge request dcutoolkit/deeplearing/vllm!382

fe2e2705

Merge branch 'v0.9.2-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.9.2-dev · bb3afd68
zhuwenwen authored Jan 21, 2026

bb3afd68
update VLLM_USE_FUSED_RMS_ROPE=0 (default) · 0d5dd2da
zhuwenwen authored Jan 21, 2026
```
for qwen3, VLLM_USE_FUSED_RMS_ROPE=1 (default)
```
0d5dd2da

feat(moe/marlin): Marlin W16A16 MoE 自动探测并预打包（去掉手动开关） · de588fab

laibao authored Jan 21, 2026

  - 移除 VLLM_USE_MARLIN_W16A16_MOE 环境变量
  - 初始化阶段基于 lightop 探测并缓存 _marlin_w16a16_moe_enabled，满足条件强制 use_nn_moe=False
  - 权重加载后按缓存结果一次性 Marlin pack；运行时按 packed 标记走 Marlin fast path

de588fab

Merge branch 'v0.9.2-dev_rms_rope' into 'v0.9.2-dev' · beb3aff7
zhuwenwen authored Jan 21, 2026
```
perf(qwen3): 融合 q/k RMSNorm + RoPE

See merge request dcutoolkit/deeplearing/vllm!381
```
beb3aff7

perf(qwen3): 融合 q/k RMSNorm + RoPE · 7cd7bf8a

laibao authored Jan 21, 2026

新增 VLLM_USE_FUSED_RMS_ROPE 分支，走 fused 路径
注册 torch.ops.vllm.rms_rotary_embedding_fuse（direct_register_custom_op）
cos_sin_cache 自动转 device/dtype 并缓存，避免每次重复拷贝

7cd7bf8a

Merge branch 'v0.9.2-dev-fth' into 'v0.9.2-dev' · 8ec9d9f1
zhuwenwen authored Jan 21, 2026
```
fused_moe_fp8接入lmslim

See merge request dcutoolkit/deeplearing/vllm!379
```
8ec9d9f1
fused_moe_fp8接入lmslim · 5b7f2c7d
SAC_fanth authored Jan 21, 2026

5b7f2c7d
Merge branch 'v0.9.2-dev-fp8-blaslt' into 'v0.9.2-dev' · c2e7f4ad
zhuwenwen authored Jan 21, 2026
```
feat: Support w8a8-fp8 GEMM backend.

See merge request dcutoolkit/deeplearing/vllm!375
```
c2e7f4ad

20 Jan, 2026 2 commits
- feat: Support w8a8-fp8 GEMM backend. · 900f4720
  wanglong3 authored Jan 17, 2026
  
  900f4720
- update VLLM_USE_TOPK_RENORM · 5a1e9359
  zhuwenwen authored Jan 20, 2026
  
  5a1e9359
19 Jan, 2026 2 commits
- remove SUPPORT_MOE_MARLIN_W16A16 · 564cbe7a
  zhuwenwen authored Jan 19, 2026
  
  564cbe7a
- [qwen3-235b] MoE(TN&NN) configs for nmz TP=8 · 0328ef06
  zhuwenwen authored Jan 19, 2026
```
[qwen3-480b] MoE(TN) configs for nmz TP=8
```
  0328ef06
17 Jan, 2026 7 commits
- 优化deepep相关代码 · 76695c0a
  王敏 authored Jan 17, 2026
  
  76695c0a
- set VLLM_USE_FLASH_ATTN_FP8=1 and VLLM_USE_FLASH_MLA_FP8=1 · 25e16eea
  zhuwenwen authored Jan 17, 2026
  
  25e16eea
- update opt4 · a50ece3a
  zhuwenwen authored Jan 17, 2026
  
  a50ece3a
- set VLLM_USE_FUSED_FILL_RMS_CAT=1 · cf7d1166
  zhuwenwen authored Jan 17, 2026
  
  cf7d1166
- update q_quant dtype · 8f30468c
  zhuwenwen authored Jan 17, 2026
  
  8f30468c
- Merge remote-tracking branch 'origin/v0.9.2-dev-fix' into v0.9.2-dev · c7b0d0d4
  zhuwenwen authored Jan 17, 2026
  
  c7b0d0d4
- fix: update_state,优化性能，去除冗余操作 · e9cfa85e
  jujl1 authored Jan 17, 2026
  
  e9cfa85e
16 Jan, 2026 10 commits
- update unified_attention_with_output_fake · 9d16d5aa
  zhuwenwen authored Jan 16, 2026
  
  9d16d5aa
- add VLLM_USE_FUSED_CACHE_QUANT_BMM_MLA to use fused rmsnorm + contiguous +... · 9dd70f0e
  zhuwenwen authored Jan 16, 2026
```
add VLLM_USE_FUSED_CACHE_QUANT_BMM_MLA to use fused rmsnorm + contiguous + rope(for dpsk-v3) + concat_and_cache_mla + q quant, control bmm(todo) + cat +mla (fp8)
```
  9dd70f0e
- Merge remote-tracking branch 'origin/v0.9.2-dev_mtp_sampler' into v0.9.2-dev · 680ee839
  zhuwenwen authored Jan 16, 2026
  
  680ee839
- MoE 路由抓取：新增 router_capture 工具链与 envs 统一配置 · a2f0ce42
  laibao authored Jan 16, 2026
```
新增环境变量 VLLM_MOE_ROUTER_CAPTURE / DIR / RANK / MAX_LAYERS / NUM_TOKENS_* 用于开关与过滤控制
新增 router_capture.py，支持按 num_tokens 分桶抓取 router logits 并落盘
在 qwen3_moe 中接入抓取逻辑，默认关闭，仅在开启时记录
固定 skip_profile / skip_stack_funcs 为默认启用，避免抓到 warmup/profile 形状
统一配置入口到 vllm.envs，作为运行时基准
```
  a2f0ce42
- update custom_all_reduce · 2c560dc5
  zhuwenwen authored Jan 16, 2026
  
  2c560dc5
- set VLLM_USE_FUSED_RMS_ROPE=1 · d4df43b0
  zhuwenwen authored Jan 16, 2026
  
  d4df43b0
- set VLLM_CUSTOM_CACHE=1 · 30559839
  zhuwenwen authored Jan 16, 2026
  
  30559839
- Merge remote-tracking branch 'origin/v0.9.2-dev-d2dpcie' into v0.9.2-dev · 61dc5d91
  zhuwenwen authored Jan 16, 2026
  
  61dc5d91
- Merge branch 'v0.9.2-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.9.2-dev · a5a9263e
  zhuwenwen authored Jan 16, 2026
  
  a5a9263e
- add SUPPORT_MOE_MARLIN_W16A16 to use moe marlin on bw · cabf690f
  zhuwenwen authored Jan 16, 2026
  
  cabf690f
15 Jan, 2026 4 commits
- Merge branch 'v0.9.2-dev-rename' into 'v0.9.2-dev' · c99d07cc
  zhuwenwen authored Jan 15, 2026
```
Switch default w8a8 gemm impl to blaslt.

See merge request dcutoolkit/deeplearing/vllm!368
```
  c99d07cc
- Switch default w8a8 gemm impl to blaslt. · 5663e01d
  wanglong3 authored Jan 15, 2026
  
  5663e01d
- Merge branch 'v0.9.2-dev-yql-1.15' into 'v0.9.2-dev' · c47f7e61
  zhuwenwen authored Jan 15, 2026
```
V0.9.2 dev yql 1.15

See merge request dcutoolkit/deeplearing/vllm!367
```
  c47f7e61
- pcie 解决custom cudagraph模式需要拷贝的问题，这个需要配合dtk进行使用。 · d65c5085
  xiabo authored Jan 15, 2026
```
vllm：export VLLM_CUSTOM_CACHE=1
dtk：export HIP_KERNEL_EVENT_SYSTENFENCE=1
```
  d65c5085