Commits · 6a14c9f3ac3ea8806d0bfeea0710b6cff8d07751 · OpenDAS / vllm_cscc

14 Jan, 2026 4 commits
- Merge branch 'v0.11.0-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.11.0-dev · 6a14c9f3
  zhuwenwen authored Jan 14, 2026
  
  6a14c9f3
- fix tests of kernels · 0e607f8e
  zhuwenwen authored Jan 14, 2026
```
set VLLM_USE_PD_SPLIT=1
update moe_align_block_size
```
  0e607f8e
- Merge branch 'v0.11.0-dev-rename' into 'v0.11.0-dev' · 1a64d266
  zhuwenwen authored Jan 14, 2026
```
Switch default w8a8 gemm impl to blaslt.

See merge request dcutoolkit/deeplearing/vllm!365
```
  1a64d266
- Switch default w8a8 gemm impl to blaslt. · 80e71eb8
  wanglong3 authored Jan 14, 2026
  
  80e71eb8
12 Jan, 2026 2 commits
- Merge branch 'v0.11.0-dev-yql-1.12' into 'v0.11.0-dev' · cbdc58ec
  zhuwenwen authored Jan 12, 2026
```
处理test_concat的ds_cat的导入bug

See merge request dcutoolkit/deeplearing/vllm!361
```
  cbdc58ec
- 处理test_concat的ds_cat的导入bug · 184fb9e4
  yangql authored Jan 12, 2026
  
  184fb9e4
10 Jan, 2026 8 commits
- Merge branch 'v0.11.0-dev_tc_opt' into 'v0.11.0-dev' · 14705754
  zhuwenwen authored Jan 10, 2026
```
perf(fused-moe): 预打包 Marlin W16A16 MoE 权重，降低 warmup 显存峰值

See merge request dcutoolkit/deeplearing/vllm!358
```
  14705754
- perf(fused-moe): 预打包 Marlin W16A16 MoE 权重，降低 warmup 显存峰值 · 402c8b1e
  laibao authored Jan 10, 2026
```
在 post-load hook 中对 w13/w2 做 per-expert Marlin pack，并替换为 packed 参数
Marlin fast path 仅接受 packed 权重；未预打包则 fail fast，避免运行时 packing 峰值/不确定性
更新 Marlin wrapper 的入参与 shape 推导（从 packed layout 计算 K/N）
```
  402c8b1e
- fix _forward_encoder_attention · b949b805
  zhuwenwen authored Jan 10, 2026
  
  b949b805
- add gfx938 · d10ac4af
  zhuwenwen authored Jan 10, 2026
  
  d10ac4af
- 解决custom cudagraph模式需要拷贝的问题，需要配合dtk进行使用。 · b93c3473
  zhuwenwen authored Jan 10, 2026
```
区分pcie和hglink custom allreduce的使用
vllm：export VLLM_CUSTOM_CACHE=1
dtk：export HIP_KERNEL_EVENT_SYSTENFENCE=1
```
  b93c3473
- remove attn_masks · 58de8cd6
  zhuwenwen authored Jan 10, 2026
  
  58de8cd6
- remove medusa tree decoding · 99f4d1c2
  zhuwenwen authored Jan 10, 2026
  
  99f4d1c2
- remove pa · 29a9e952
  zhuwenwen authored Jan 10, 2026
  
  29a9e952
09 Jan, 2026 11 commits
- update on_gfx9 · 941c2260
  zhuwenwen authored Jan 09, 2026
  
  941c2260
- update SUPPORT_TC · d4cc442a
  zhuwenwen authored Jan 09, 2026
  
  d4cc442a
- Revert "update deps" · 02845513
  zhuwenwen authored Jan 09, 2026
```
This reverts commit bed8bb81.
```
  02845513
- update deps · bed8bb81
  zhuwenwen authored Jan 09, 2026
  
  bed8bb81
- Merge branch 'v0.11.0-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.11.0-dev · e00ed52f
  zhuwenwen authored Jan 09, 2026
  
  e00ed52f
- Merge branch 'v0.11.0-nccl_bugfix' into 'v0.11.0-dev' · 8b4bc8a3
  zhuwenwen authored Jan 09, 2026
```
[Bugfix] Fixing trying to import non-existent symbols from libnccl.so

See merge request dcutoolkit/deeplearing/vllm!355
```
  8b4bc8a3
- support torch2.5 and torch2.7 · 5c8d7dad
  zhuwenwen authored Jan 09, 2026
```
add torchvision deps
```
  5c8d7dad
- use torch2.5 · e80886ff
  zhuwenwen authored Jan 09, 2026
  
  e80886ff
- set VLLM_PCIE_USE_CUSTOM_ALLREDUCE=1 · f1481fe0
  zhuwenwen authored Jan 09, 2026
  
  f1481fe0
- [Bugfix] Fixing trying to import non-existent symbols from libnccl.so · 227dd87c
  Your Name authored Jan 09, 2026
  
  227dd87c
- update torchvision · b4bb5ea6
  zhuwenwen authored Jan 09, 2026
  
  b4bb5ea6
08 Jan, 2026 5 commits
- support torch2.7 · 4b4a966d
  zhuwenwen authored Jan 08, 2026
  
  4b4a966d
- Merge branch 'v0.11.0-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.11.0-dev · 46b9d30f
  zhuwenwen authored Jan 08, 2026
  
  46b9d30f
- 解决custom allreduce在dp情况下的其服务错误问题 · ef5ebdbf
  zhuwenwen authored Jan 08, 2026
  
  ef5ebdbf
- Merge branch 'v0.11.0-dev_tc_opt' into 'v0.11.0-dev' · 77bec956
  zhuwenwen authored Jan 08, 2026
```
V1 采样器：新增 reduced top-k/top-p 采样路径

See merge request dcutoolkit/deeplearing/vllm!350
```
  77bec956
- V1 采样器：新增 reduced top-k/top-p 采样路径 · 17f59521
  laibao authored Jan 08, 2026
  
  17f59521
07 Jan, 2026 8 commits

Merge branch 'v0.11.0-dev_tc_opt' into 'v0.11.0-dev' · 1c04646a

zhuwenwen authored Jan 07, 2026

perf(fused-moe): 接入 W16A16 Marlin MoE 并缓存 pack 权重

See merge request dcutoolkit/deeplearing/vllm!347

1c04646a

perf(fused-moe): 接入 W16A16 Marlin MoE 并缓存 pack 权重 · 2b0c9835

laibao authored Jan 07, 2026

 - fused_experts_impl 增加 VLLM_USE_MARLIN_W16A16_MOE fast path：首次对 w1/w2 做 Marlin pack 后缓存，避免重复 reorder；并将原始
    权重 offload 到 CPU，降低 GPU 双份驻留
  - envs 补齐环境变量 VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD
  - 更新 fuse_moe_w16a16_marlin.py 的报错提示为 VLLM_USE_LIGHTOP=1

2b0c9835

Merge branch 'v0.11.0-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.11.0-dev · 5e19613e
zhuwenwen authored Jan 07, 2026

5e19613e
update indexer_k_cache_kernel · 51f194f2
zhuwenwen authored Jan 07, 2026

51f194f2

Merge branch 'v0.11.0-dev_tc_opt' into 'v0.11.0-dev' · b12cca5e

zhuwenwen authored Jan 07, 2026

perf: 加速 v1 InputBatch.add_request 的 token_ids 拷贝

See merge request dcutoolkit/deeplearing/vllm!346

b12cca5e

remove USE_FUSED_RMS_QUANT and USE_FUSED_SILU_MUL_QUANT · c2ef7fdd
zhuwenwen authored Jan 07, 2026

c2ef7fdd

perf: 加速 v1 InputBatch.add_request 的 token_ids 拷贝 · 8da572a9

laibao authored Jan 07, 2026

新增环境变量开关 VLLM_V1_FAST_TOKEN_ID_COPY（默认关闭）。开启后在 CachedRequestState 中缓存 prompt_token_ids 的 np.int32，并在 add_request 里用 np.copyto 写入 token_ids_cpu，避免长 prompt 场景反复 list->NumPy 转换开销（尤其是抢占/反复进出 batch 时）

8da572a9

skip indexer_k_cache · 383f2ce8
zhuwenwen authored Jan 07, 2026

383f2ce8

06 Jan, 2026 2 commits
- add bw gpt-oss-20b-BF16 tp1&2 moe (nn) configs · 65f79b5a
  zhuwenwen authored Jan 06, 2026
  
  65f79b5a
- [gpt-oss-120b] MoE configs for BW1000 TP=8 · 8a72bd23
  zhuwenwen authored Jan 06, 2026
  
  8a72bd23