Commits · 1ce0a9a2c396cf0e1853d71cecfe9bac79e0f8f7 · OpenDAS / vllm_cscc

02 Mar, 2026 4 commits
- Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · 1ce0a9a2
  zhuwenwen authored Mar 02, 2026
```
[perf]优化异步调度+并行解码 step之间的空泡，实现kernel提前下发

See merge request dcutoolkit/deeplearing/vllm!449
```
  1ce0a9a2
- [perf]优化异步调度+并行解码 step之间的空泡，实现kernel提前下发 · 6f6ea0a8
  王敏 authored Mar 02, 2026
  
  6f6ea0a8
- Merge branch 'v0.15.1-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.15.1-dev · 319506a5
  zhuwenwen authored Mar 02, 2026
  
  319506a5
- [Model] GLM adaptation · afe3ea1e
  zhuwenwen authored Mar 02, 2026
  
  afe3ea1e
28 Feb, 2026 2 commits
- Merge branch 'v0.15.1-dev_2.28' into 'v0.15.1-dev' · c334b741
  zhuwenwen authored Feb 28, 2026
```
修复qwen3.5的使用dtype为fp16的picecwise的推理模式

See merge request dcutoolkit/deeplearing/vllm!448
```
  c334b741
- 修复qwen3.5的使用dtype为fp16的picecwise的推理模式 · b5e8d01e
  yangql1 authored Feb 28, 2026
  
  b5e8d01e
27 Feb, 2026 1 commit

Merge branch 'v0.15.1-dev-reduced-topk-topp' into 'v0.15.1-dev' · 4262c4d9

zhuwenwen authored Feb 27, 2026

feat(sampler): 增加 reduced topk+topp 采样快速路径以降低全词表 softmax 开销

See merge request dcutoolkit/deeplearing/vllm!447

4262c4d9

26 Feb, 2026 1 commit

feat(sampler): 增加 reduced topk+topp 采样快速路径以降低全词表 softmax 开销 · a17c410d

laibao authored Feb 26, 2026

新增 VLLM_V1_USE_REDUCED_TOPK_TOPP_SAMPLER 开关并补充适用场景说明

在 V1 GPU 输入批预计算 max_top_k/has_any_no_top_k，native sampler 满足条件时走 reduced fast path，异常自动回退

a17c410d

25 Feb, 2026 3 commits
- Merge branch 'v0.15.1-dev-fth' into 'v0.15.1-dev' · 2544deb6
  zhuwenwen authored Feb 25, 2026
```
修复block-wise 用triton报错的bug

See merge request dcutoolkit/deeplearing/vllm!444
```
  2544deb6
- 修复block-wise 用triton报错的bug · 359c16db
  SAC_fanth authored Feb 25, 2026
  
  359c16db
- Merge branch 'v0.15.1-dev-fth' into 'v0.15.1-dev' · e675f1f4
  zhuwenwen authored Feb 25, 2026
```
修复channel-wise 用triton报错的bug

See merge request dcutoolkit/deeplearing/vllm!443
```
  e675f1f4
24 Feb, 2026 9 commits

修复channel-wise 用triton报错的bug · 9d44744c
SAC_fanth authored Feb 24, 2026

9d44744c
Merge branch 'v0.15.1-dev-w4a8+pp_balance' into 'v0.15.1-dev' · d146a231
zhuwenwen authored Feb 24, 2026
```
V0.15.1 dev w4a8+pp balance

See merge request dcutoolkit/deeplearing/vllm!442
```
d146a231
Merge branch 'v0.15.1-dev' into 'v0.15.1-dev-w4a8+pp_balance' · 425eb81e
jujl1 authored Feb 24, 2026
```
# Conflicts:
#   vllm/envs.py
```
425eb81e

Merge branch 'v0.15.1-dev-router-capture' into 'v0.15.1-dev' · 358bc2c5

zhuwenwen authored Feb 24, 2026

feat(moe): 支持通过环境变量开启/配置 Qwen3 路由 logits 采集

See merge request dcutoolkit/deeplearing/vllm!441

358bc2c5

Merge branch 'v0.15.1-dev-fast-token-id-copy' into 'v0.15.1-dev' · 570c2c5b
zhuwenwen authored Feb 24, 2026
```
perf(v1): 增加可选的快速 token-id 拷贝路径

See merge request dcutoolkit/deeplearing/vllm!440
```
570c2c5b

feat(moe): 增加 Qwen3 路由 logits 的环境变量可控采集能力 · 9ae319b3

laibao authored Feb 21, 2026

新增 router_capture 工具，用于按 num_tokens/rank 过滤并落盘 MoE router logits
在 Qwen3MoeSparseMoeBlock 中接入采集调用，并在 torch.compile 场景下自动跳过
补充 VLLM_MOE_ROUTER_CAPTURE* 环境变量

9ae319b3

• perf(v1): 增加可选的快速 token-id 拷贝路径 · d3a95d54

laibao authored Feb 20, 2026

  - 新增环境变量 `VLLM_V1_FAST_TOKEN_ID_COPY`（默认关闭）
  - 在 `CachedRequestState` 中缓存 int32 的 prompt token ids（numpy 数组）
  - 开启后在 `InputBatch` 中使用 `np.copyto` 拷贝 prompt/output token ids

d3a95d54

Merge branch '0.15.1-dev-qwen3_5' into 'v0.15.1-dev' · 35006c0f
zhuwenwen authored Feb 24, 2026
```
Support qwen3 5

See merge request dcutoolkit/deeplearing/vllm!438
```
35006c0f
Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · 133e783f
zhuwenwen authored Feb 24, 2026
```
支持非deepseek模型使用moe_fused_gate

See merge request dcutoolkit/deeplearing/vllm!439
```
133e783f

19 Feb, 2026 1 commit
- 支持非deepseek模型使用moe_fused_gate · 93548076
  王敏 authored Feb 19, 2026
  
  93548076
16 Feb, 2026 3 commits
- add qwen3_5 · 4dc838d3
  Rayyyyy authored Feb 16, 2026
  
  4dc838d3
- Fix sampler.cu cub · 8ecffc73
  Rayyyyy authored Feb 16, 2026
  
  8ecffc73
- Add qwen3_5 · 843c1822
  Rayyyyy authored Feb 16, 2026
  
  843c1822
14 Feb, 2026 1 commit

Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · 2799735a

zhuwenwen authored Feb 14, 2026

[feat]支持glm4_moe_mtp使用torch compile，实现mtp cudagraph模式

See merge request dcutoolkit/deeplearing/vllm!436

2799735a

13 Feb, 2026 1 commit
- [feat]支持glm4_moe_mtp使用torch compile，实现mtp cudagraph模式 · dc027d74
  王敏 authored Feb 13, 2026
  
  dc027d74
12 Feb, 2026 1 commit
- update chat template of dsv32 · 838b4509
  zhuwenwen authored Feb 12, 2026
  
  838b4509
11 Feb, 2026 5 commits

remove unused impl and envs · b5ea93d4
zhuwenwen authored Feb 11, 2026

b5ea93d4

Merge branch 'v0.15.1-dev-marlin_w16a16' into 'v0.15.1-dev' · bc60d70d

zhuwenwen authored Feb 11, 2026

feat(moe): 补齐 v0.15 中 Marlin W16A16 MoE 端到端接入

See merge request dcutoolkit/deeplearing/vllm!431

bc60d70d

Merge branch 'v0.15.1-dev-fth' into 'v0.15.1-dev' · 7e4ee060

zhuwenwen authored Feb 11, 2026

接入channel、block triton 及channel-wise marlin

See merge request dcutoolkit/deeplearing/vllm!430

7e4ee060

feat(moe): 补齐 v0.15 中 Marlin W16A16 MoE 端到端接入 · 1e2fe58f

laibao authored Feb 11, 2026

参考并移植 011/vllm 的关键提交逻辑
新增 VLLM_USE_MOE_W16A16_TRITON 开关，并接入基于 lightop 的运行时能力探测与启用结果缓存。
在权重加载后对 w13 与 w2 执行 W16A16 Marlin 预打包。
W16A16 Marlin 启用时保留 monolithic 执行路径，并在 fused_experts_impl 中增加 packed 权重 fast-path。
保持 Marlin 或 lightop 不可用时的回退行为不变。

1e2fe58f

接入channel、block triton 及channel-wise marlin · 7771c0ac
SAC_fanth authored Feb 11, 2026

7771c0ac

10 Feb, 2026 6 commits
- Merge branch 'v0.15.1-dev-lxh-channel' into 'v0.15.1-dev' · 9fdb8e3a
  zhuwenwen authored Feb 10, 2026
```
feat：适配Blaslt Channelwise gemm

See merge request dcutoolkit/deeplearing/vllm!426
```
  9fdb8e3a
- Merge branch 'v0.15.1-dev-lxh' into 'v0.15.1-dev' · def73d2b
  zhuwenwen authored Feb 10, 2026
```
feat: implement FP8 blockwise GEMM with hipblaslt

See merge request dcutoolkit/deeplearing/vllm!425
```
  def73d2b
- fix qwen3-next nn layout · 8cdc3a30
  zhuwenwen authored Feb 10, 2026
  
  8cdc3a30
- feat：适配Blaslt Channelwise gemm · 0636f239
  lixh6 authored Feb 10, 2026
  
  0636f239
- feat: implement FP8 blockwise GEMM with hipblaslt · 8510c10c
  lixh authored Feb 09, 2026
  
  8510c10c
- fix qwen3-next run error · 440222e9
  zhuwenwen authored Feb 10, 2026
  
  440222e9
09 Feb, 2026 2 commits
- feat: w4a8 · 7b2122d9
  jujl1 authored Feb 08, 2026
  
  7b2122d9
- feat: pp balance · 76ec56bd
  jujl1 authored Feb 06, 2026
  
  76ec56bd