Commits · 6d8c87191ce68bee5bb1f74906846918f0761c0a · OpenDAS / vllm_cscc

16 Jan, 2026 2 commits
- set VLLM_USE_FUSED_RMS_ROPE=1 · 6d8c8719
  zhuwenwen authored Jan 16, 2026
  
  6d8c8719
- add SUPPORT_MOE_MARLIN_W16A16 to use moe marlin on bw · ad60a973
  zhuwenwen authored Jan 16, 2026
  
  ad60a973
15 Jan, 2026 3 commits
- remove unused · f4cef40c
  zhuwenwen authored Jan 15, 2026
  
  f4cef40c
- support fa kvcache fp8 · c8bd8db7
  zhuwenwen authored Jan 15, 2026
```
todo: add VLLM_USE_QUERY_QUANT to not use q quant
```
  c8bd8db7
- fix tests of kernels · 2a75c6bc
  zhuwenwen authored Jan 15, 2026
  
  2a75c6bc
14 Jan, 2026 7 commits
- fix return of schedule · 3dd7fd64
  zhuwenwen authored Jan 14, 2026
  
  3dd7fd64
- Merge branch 'v0.11.0-dev-fth' into 'v0.11.0-dev' · 37f9bb50
  zhuwenwen authored Jan 14, 2026
```
适配block-wise fp8接口

See merge request dcutoolkit/deeplearing/vllm!366
```
  37f9bb50
- Merge branch 'v0.11.0-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.11.0-dev · 6a14c9f3
  zhuwenwen authored Jan 14, 2026
  
  6a14c9f3
- fix tests of kernels · 0e607f8e
  zhuwenwen authored Jan 14, 2026
```
set VLLM_USE_PD_SPLIT=1
update moe_align_block_size
```
  0e607f8e
- 适配block-wise fp8接口 · 284b2450
  SAC_fanth authored Jan 14, 2026
  
  284b2450
- Merge branch 'v0.11.0-dev-rename' into 'v0.11.0-dev' · 1a64d266
  zhuwenwen authored Jan 14, 2026
```
Switch default w8a8 gemm impl to blaslt.

See merge request dcutoolkit/deeplearing/vllm!365
```
  1a64d266
- Switch default w8a8 gemm impl to blaslt. · 80e71eb8
  wanglong3 authored Jan 14, 2026
  
  80e71eb8
12 Jan, 2026 2 commits
- Merge branch 'v0.11.0-dev-yql-1.12' into 'v0.11.0-dev' · cbdc58ec
  zhuwenwen authored Jan 12, 2026
```
处理test_concat的ds_cat的导入bug

See merge request dcutoolkit/deeplearing/vllm!361
```
  cbdc58ec
- 处理test_concat的ds_cat的导入bug · 184fb9e4
  yangql authored Jan 12, 2026
  
  184fb9e4
10 Jan, 2026 8 commits
- Merge branch 'v0.11.0-dev_tc_opt' into 'v0.11.0-dev' · 14705754
  zhuwenwen authored Jan 10, 2026
```
perf(fused-moe): 预打包 Marlin W16A16 MoE 权重，降低 warmup 显存峰值

See merge request dcutoolkit/deeplearing/vllm!358
```
  14705754
- perf(fused-moe): 预打包 Marlin W16A16 MoE 权重，降低 warmup 显存峰值 · 402c8b1e
  laibao authored Jan 10, 2026
```
在 post-load hook 中对 w13/w2 做 per-expert Marlin pack，并替换为 packed 参数
Marlin fast path 仅接受 packed 权重；未预打包则 fail fast，避免运行时 packing 峰值/不确定性
更新 Marlin wrapper 的入参与 shape 推导（从 packed layout 计算 K/N）
```
  402c8b1e
- fix _forward_encoder_attention · b949b805
  zhuwenwen authored Jan 10, 2026
  
  b949b805
- add gfx938 · d10ac4af
  zhuwenwen authored Jan 10, 2026
  
  d10ac4af
- 解决custom cudagraph模式需要拷贝的问题，需要配合dtk进行使用。 · b93c3473
  zhuwenwen authored Jan 10, 2026
```
区分pcie和hglink custom allreduce的使用
vllm：export VLLM_CUSTOM_CACHE=1
dtk：export HIP_KERNEL_EVENT_SYSTENFENCE=1
```
  b93c3473
- remove attn_masks · 58de8cd6
  zhuwenwen authored Jan 10, 2026
  
  58de8cd6
- remove medusa tree decoding · 99f4d1c2
  zhuwenwen authored Jan 10, 2026
  
  99f4d1c2
- remove pa · 29a9e952
  zhuwenwen authored Jan 10, 2026
  
  29a9e952
09 Jan, 2026 11 commits
- update on_gfx9 · 941c2260
  zhuwenwen authored Jan 09, 2026
  
  941c2260
- update SUPPORT_TC · d4cc442a
  zhuwenwen authored Jan 09, 2026
  
  d4cc442a
- Revert "update deps" · 02845513
  zhuwenwen authored Jan 09, 2026
```
This reverts commit bed8bb81.
```
  02845513
- update deps · bed8bb81
  zhuwenwen authored Jan 09, 2026
  
  bed8bb81
- Merge branch 'v0.11.0-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.11.0-dev · e00ed52f
  zhuwenwen authored Jan 09, 2026
  
  e00ed52f
- Merge branch 'v0.11.0-nccl_bugfix' into 'v0.11.0-dev' · 8b4bc8a3
  zhuwenwen authored Jan 09, 2026
```
[Bugfix] Fixing trying to import non-existent symbols from libnccl.so

See merge request dcutoolkit/deeplearing/vllm!355
```
  8b4bc8a3
- support torch2.5 and torch2.7 · 5c8d7dad
  zhuwenwen authored Jan 09, 2026
```
add torchvision deps
```
  5c8d7dad
- use torch2.5 · e80886ff
  zhuwenwen authored Jan 09, 2026
  
  e80886ff
- set VLLM_PCIE_USE_CUSTOM_ALLREDUCE=1 · f1481fe0
  zhuwenwen authored Jan 09, 2026
  
  f1481fe0
- [Bugfix] Fixing trying to import non-existent symbols from libnccl.so · 227dd87c
  Your Name authored Jan 09, 2026
  
  227dd87c
- update torchvision · b4bb5ea6
  zhuwenwen authored Jan 09, 2026
  
  b4bb5ea6
08 Jan, 2026 5 commits
- support torch2.7 · 4b4a966d
  zhuwenwen authored Jan 08, 2026
  
  4b4a966d
- Merge branch 'v0.11.0-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.11.0-dev · 46b9d30f
  zhuwenwen authored Jan 08, 2026
  
  46b9d30f
- 解决custom allreduce在dp情况下的其服务错误问题 · ef5ebdbf
  zhuwenwen authored Jan 08, 2026
  
  ef5ebdbf
- Merge branch 'v0.11.0-dev_tc_opt' into 'v0.11.0-dev' · 77bec956
  zhuwenwen authored Jan 08, 2026
```
V1 采样器：新增 reduced top-k/top-p 采样路径

See merge request dcutoolkit/deeplearing/vllm!350
```
  77bec956
- V1 采样器：新增 reduced top-k/top-p 采样路径 · 17f59521
  laibao authored Jan 08, 2026
  
  17f59521
07 Jan, 2026 2 commits

Merge branch 'v0.11.0-dev_tc_opt' into 'v0.11.0-dev' · 1c04646a

zhuwenwen authored Jan 07, 2026

perf(fused-moe): 接入 W16A16 Marlin MoE 并缓存 pack 权重

See merge request dcutoolkit/deeplearing/vllm!347

1c04646a

perf(fused-moe): 接入 W16A16 Marlin MoE 并缓存 pack 权重 · 2b0c9835

laibao authored Jan 07, 2026

 - fused_experts_impl 增加 VLLM_USE_MARLIN_W16A16_MOE fast path：首次对 w1/w2 做 Marlin pack 后缓存，避免重复 reorder；并将原始
    权重 offload 到 CPU，降低 GPU 双份驻留
  - envs 补齐环境变量 VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD
  - 更新 fuse_moe_w16a16_marlin.py 的报错提示为 VLLM_USE_LIGHTOP=1

2b0c9835