Commits · 9dd70f0e0188f845e23fae6d5661848dfd146a14 · OpenDAS / vllm_cscc

16 Jan, 2026 9 commits
- add VLLM_USE_FUSED_CACHE_QUANT_BMM_MLA to use fused rmsnorm + contiguous +... · 9dd70f0e
  zhuwenwen authored Jan 16, 2026
```
add VLLM_USE_FUSED_CACHE_QUANT_BMM_MLA to use fused rmsnorm + contiguous + rope(for dpsk-v3) + concat_and_cache_mla + q quant, control bmm(todo) + cat +mla (fp8)
```
  9dd70f0e
- Merge remote-tracking branch 'origin/v0.9.2-dev_mtp_sampler' into v0.9.2-dev · 680ee839
  zhuwenwen authored Jan 16, 2026
  
  680ee839
- MoE 路由抓取：新增 router_capture 工具链与 envs 统一配置 · a2f0ce42
  laibao authored Jan 16, 2026
```
新增环境变量 VLLM_MOE_ROUTER_CAPTURE / DIR / RANK / MAX_LAYERS / NUM_TOKENS_* 用于开关与过滤控制
新增 router_capture.py，支持按 num_tokens 分桶抓取 router logits 并落盘
在 qwen3_moe 中接入抓取逻辑，默认关闭，仅在开启时记录
固定 skip_profile / skip_stack_funcs 为默认启用，避免抓到 warmup/profile 形状
统一配置入口到 vllm.envs，作为运行时基准
```
  a2f0ce42
- update custom_all_reduce · 2c560dc5
  zhuwenwen authored Jan 16, 2026
  
  2c560dc5
- set VLLM_USE_FUSED_RMS_ROPE=1 · d4df43b0
  zhuwenwen authored Jan 16, 2026
  
  d4df43b0
- set VLLM_CUSTOM_CACHE=1 · 30559839
  zhuwenwen authored Jan 16, 2026
  
  30559839
- Merge remote-tracking branch 'origin/v0.9.2-dev-d2dpcie' into v0.9.2-dev · 61dc5d91
  zhuwenwen authored Jan 16, 2026
  
  61dc5d91
- Merge branch 'v0.9.2-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.9.2-dev · a5a9263e
  zhuwenwen authored Jan 16, 2026
  
  a5a9263e
- add SUPPORT_MOE_MARLIN_W16A16 to use moe marlin on bw · cabf690f
  zhuwenwen authored Jan 16, 2026
  
  cabf690f
15 Jan, 2026 6 commits
- Merge branch 'v0.9.2-dev-rename' into 'v0.9.2-dev' · c99d07cc
  zhuwenwen authored Jan 15, 2026
```
Switch default w8a8 gemm impl to blaslt.

See merge request dcutoolkit/deeplearing/vllm!368
```
  c99d07cc
- Switch default w8a8 gemm impl to blaslt. · 5663e01d
  wanglong3 authored Jan 15, 2026
  
  5663e01d
- Merge branch 'v0.9.2-dev-yql-1.15' into 'v0.9.2-dev' · c47f7e61
  zhuwenwen authored Jan 15, 2026
```
V0.9.2 dev yql 1.15

See merge request dcutoolkit/deeplearing/vllm!367
```
  c47f7e61
- pcie 解决custom cudagraph模式需要拷贝的问题，这个需要配合dtk进行使用。 · d65c5085
  xiabo authored Jan 15, 2026
```
vllm：export VLLM_CUSTOM_CACHE=1
dtk：export HIP_KERNEL_EVENT_SYSTENFENCE=1
```
  d65c5085
- 修复awq模型的VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD设置位置 · ab66909d
  yangql authored Jan 15, 2026
  
  ab66909d
- 修复deepseek moe模型的awq量化推理bug和精度问题 · 475dcaa0
  yangql authored Jan 15, 2026
  
  475dcaa0
14 Jan, 2026 2 commits
- fix return of schedule · efd51772
  zhuwenwen authored Jan 14, 2026
  
  efd51772
- set VLLM_USE_PD_SPLIT=1 · 69cfaa53
  zhuwenwen authored Jan 14, 2026
  
  69cfaa53
13 Jan, 2026 3 commits
- Merge branch 'v0.9.2-dev-fix-pp+cp' into 'v0.9.2-dev' · e5572b2a
  zhuwenwen authored Jan 13, 2026
```
V0.9.2 dev fix pp+cp

See merge request dcutoolkit/deeplearing/vllm!364
```
  e5572b2a
- Merge branch 'v0.9.2-dev_pp_bug' into 'v0.9.2-dev' · c1795786
  zhuwenwen authored Jan 13, 2026
```
fix PP 场景 decode 阶段 token 被误丢弃导致卡住

See merge request dcutoolkit/deeplearing/vllm!363
```
  c1795786
- fix(PP 场景 decode 阶段 token 被误丢弃导致卡住 · 62a5b28f
  laibao authored Jan 13, 2026
```
  - decode 已开始时不再按 partial prefill 丢弃 sampled token，避免 new_token_ids=[] 循环拖尾
```
  62a5b28f
12 Jan, 2026 8 commits
- remove log info · ce5b3c9a
  zhuwenwen authored Jan 12, 2026
  
  ce5b3c9a
- Merge branch 'v0.9.2-dev-xiabo' into 'v0.9.2-dev' · 06ada31d
  zhuwenwen authored Jan 12, 2026
```
修改非堆成切分的判断

See merge request dcutoolkit/deeplearing/vllm!362
```
  06ada31d
- 修改非堆成切分的判断 · f384ee43
  xiabo authored Jan 12, 2026
  
  f384ee43
- Merge branch 'v0.9.2-dev-fth-fp8' into 'v0.9.2-dev' · e89003dd
  zhuwenwen authored Jan 12, 2026
```
nmz适配block和channel fp8

See merge request dcutoolkit/deeplearing/vllm!360
```
  e89003dd
- Merge branch 'v0.9.2-dev-fix-assert-bug' into 'v0.9.2-dev' · be18d0df
  zhuwenwen authored Jan 12, 2026
```
fix: 修复不开启融合图的断言错误。

See merge request dcutoolkit/deeplearing/vllm!359
```
  be18d0df
- fix: 修复不开启融合图的断言错误。 · 9cf5c476
  wujl5 authored Jan 12, 2026
  
  9cf5c476
- 适配block和channel fp8 · db23fcac
  SAC_fanth authored Jan 12, 2026
  
  db23fcac
- fix: pp+chunkprefill多并发input ids更新bug · 7e3e2339
  jujl1 authored Jan 09, 2026
  
  7e3e2339
10 Jan, 2026 1 commit

Merge branch 'v0.9.2-dev-tc_opt' into 'v0.9.2-dev' · 3f5983bf

zhuwenwen authored Jan 10, 2026

fix: 修复 expanded sampling metadata 对 numpy/array-like 输入不兼容导致崩溃   perf(fused-moe): 预打包 Marlin W16A16 MoE 权重，降低 warmup 显存峰值

See merge request dcutoolkit/deeplearing/vllm!357

3f5983bf

09 Jan, 2026 4 commits
- perf(fused-moe): 预打包 Marlin W16A16 MoE 权重，降低 warmup 显存峰值 · bfaac804
  laibao authored Jan 09, 2026
```
  - 在 post-load hook 中对 w13/w2 做 per-expert Marlin pack，并替换为 packed 参数
  - Marlin fast path 仅接受 packed 权重；未预打包则 fail fast，避免运行时 packing 峰值/不确定性
  - 更新 Marlin wrapper 的入参与 shape 推导（从 packed layout 计算 K/N）
```
  bfaac804
- Merge branch 'wanglong3-v0.9.2-dev-patch-69158' into 'v0.9.2-dev' · 62f14ebf
  zhuwenwen authored Jan 09, 2026
```
Remove print.

See merge request dcutoolkit/deeplearing/vllm!356
```
  62f14ebf
- fix: 修复丢弃MTP代码报错 · 794553fd
  jujl1 authored Jan 09, 2026
  
  794553fd
- Remove print. · b0401c19
  wanglong3 authored Jan 09, 2026
  
  b0401c19
08 Jan, 2026 5 commits
- Merge branch 'v0.9.2-dev_fix' into 'v0.9.2-dev' · 9c15f410
  zhuwenwen authored Jan 08, 2026
```
feat: Support enable rms quant and shared expert overlap at same time.

See merge request dcutoolkit/deeplearing/vllm!352
```
  9c15f410
- feat: Support enable rms quant and shared expert overlap at same time. · 989a0a2b
  wanglong3 authored Jan 08, 2026
  
  989a0a2b
- Merge branch 'v0.9.2-dev_tcopt' into 'v0.9.2-dev' · cc946d6e
  zhuwenwen authored Jan 08, 2026
```
fix：更新 Marlin W16A16 MoE 中支持的断言消息

See merge request dcutoolkit/deeplearing/vllm!349
```
  cc946d6e
- fix：更新 Marlin W16A16 MoE 中支持的断言消息 · d77a3d5b
  laibao authored Jan 08, 2026
  
  d77a3d5b
- Merge branch 'v0.9.2-dev-cus' into 'v0.9.2-dev' · ae1b380d
  zhuwenwen authored Jan 08, 2026
```
解决custom allreduce在dp情况下的其服务错误问题

See merge request dcutoolkit/deeplearing/vllm!348
```
  ae1b380d
07 Jan, 2026 2 commits
- 解决custom allreduce在dp情况下的其服务错误问题 · 912dc4c9
  xiabo authored Jan 07, 2026
  
  912dc4c9
- fix: 修复 expanded sampling metadata 对 numpy/array-like 输入不兼容导致崩溃 · 371e5c76
  laibao authored Jan 07, 2026
```
  - repeat_counts/CPU 元数据为 numpy/array-like 时会在 repeat_interleave/.to() 崩溃
  - 统一转换为 CPU torch.Tensor 后再扩展并拷到 GPU
```
  371e5c76