Commits · ee355d86ef68016148ee8321b4cb540aa36c37b7 · OpenDAS / vllm_cscc

11 Mar, 2026 1 commit
- mla: 恢复 opt-cat 在 prefill 和 decode 的拼接路由 · ee355d86
  laibao authored Mar 07, 2026
  
  ee355d86
04 Mar, 2026 4 commits
- Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · db85ab07
  zhangqha authored Mar 04, 2026
```
[perf]合入lightop topp_topk 融合算子

See merge request dcutoolkit/deeplearing/vllm!456
```
  db85ab07
- 恢复误删代码 · 5e77b44f
  王敏 authored Mar 04, 2026
  
  5e77b44f
- [perf]合入lightop topp_topk 融合算子 · 586f0eba
  王敏 authored Mar 04, 2026
  
  586f0eba
- Merge branch 'v0.15.1-dev_yql_3.3' into 'v0.15.1-dev' · 2036eb73
  zhuwenwen authored Mar 04, 2026
```
修复awq-marlin的bug

See merge request dcutoolkit/deeplearing/vllm!454
```
  2036eb73
03 Mar, 2026 4 commits
- 修复awq-marlin的bug · 09bdce60
  yangql authored Mar 03, 2026
  
  09bdce60
- update kv_cache_dtype support · aaf8c95f
  zhuwenwen authored Mar 03, 2026
  
  aaf8c95f
- Merge branch 'v0.15.1-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.15.1-dev · ef8dd155
  zhuwenwen authored Mar 03, 2026
  
  ef8dd155
- support dsa · d71496bf
  zhuwenwen authored Mar 03, 2026
  
  d71496bf
02 Mar, 2026 6 commits
- Merge branch 'v0.15.1-dev-qwen3-vl-fused-rope' into 'v0.15.1-dev' · c9733a54
  zhuwenwen authored Mar 02, 2026
```
fix(qwen3): 修复VL场景fused RoPE分支条件，并更正qwen3_moe中rms_mrope参数顺序

See merge request dcutoolkit/deeplearing/vllm!451
```
  c9733a54
- fix(qwen3): 修复VL场景fused RoPE分支条件，并更正qwen3_moe中rms_mrope参数顺序 · 02b0d6ba
  laibao authored Mar 02, 2026
  
  02b0d6ba
- Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · 1ce0a9a2
  zhuwenwen authored Mar 02, 2026
```
[perf]优化异步调度+并行解码 step之间的空泡，实现kernel提前下发

See merge request dcutoolkit/deeplearing/vllm!449
```
  1ce0a9a2
- [perf]优化异步调度+并行解码 step之间的空泡，实现kernel提前下发 · 6f6ea0a8
  王敏 authored Mar 02, 2026
  
  6f6ea0a8
- Merge branch 'v0.15.1-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.15.1-dev · 319506a5
  zhuwenwen authored Mar 02, 2026
  
  319506a5
- [Model] GLM adaptation · afe3ea1e
  zhuwenwen authored Mar 02, 2026
  
  afe3ea1e
28 Feb, 2026 2 commits
- Merge branch 'v0.15.1-dev_2.28' into 'v0.15.1-dev' · c334b741
  zhuwenwen authored Feb 28, 2026
```
修复qwen3.5的使用dtype为fp16的picecwise的推理模式

See merge request dcutoolkit/deeplearing/vllm!448
```
  c334b741
- 修复qwen3.5的使用dtype为fp16的picecwise的推理模式 · b5e8d01e
  yangql1 authored Feb 28, 2026
  
  b5e8d01e
27 Feb, 2026 1 commit

Merge branch 'v0.15.1-dev-reduced-topk-topp' into 'v0.15.1-dev' · 4262c4d9

zhuwenwen authored Feb 27, 2026

feat(sampler): 增加 reduced topk+topp 采样快速路径以降低全词表 softmax 开销

See merge request dcutoolkit/deeplearing/vllm!447

4262c4d9

26 Feb, 2026 1 commit

feat(sampler): 增加 reduced topk+topp 采样快速路径以降低全词表 softmax 开销 · a17c410d

laibao authored Feb 26, 2026

新增 VLLM_V1_USE_REDUCED_TOPK_TOPP_SAMPLER 开关并补充适用场景说明

在 V1 GPU 输入批预计算 max_top_k/has_any_no_top_k，native sampler 满足条件时走 reduced fast path，异常自动回退

a17c410d

25 Feb, 2026 3 commits
- Merge branch 'v0.15.1-dev-fth' into 'v0.15.1-dev' · 2544deb6
  zhuwenwen authored Feb 25, 2026
```
修复block-wise 用triton报错的bug

See merge request dcutoolkit/deeplearing/vllm!444
```
  2544deb6
- 修复block-wise 用triton报错的bug · 359c16db
  SAC_fanth authored Feb 25, 2026
  
  359c16db
- Merge branch 'v0.15.1-dev-fth' into 'v0.15.1-dev' · e675f1f4
  zhuwenwen authored Feb 25, 2026
```
修复channel-wise 用triton报错的bug

See merge request dcutoolkit/deeplearing/vllm!443
```
  e675f1f4
24 Feb, 2026 9 commits

修复channel-wise 用triton报错的bug · 9d44744c
SAC_fanth authored Feb 24, 2026

9d44744c
Merge branch 'v0.15.1-dev-w4a8+pp_balance' into 'v0.15.1-dev' · d146a231
zhuwenwen authored Feb 24, 2026
```
V0.15.1 dev w4a8+pp balance

See merge request dcutoolkit/deeplearing/vllm!442
```
d146a231
Merge branch 'v0.15.1-dev' into 'v0.15.1-dev-w4a8+pp_balance' · 425eb81e
jujl1 authored Feb 24, 2026
```
# Conflicts:
#   vllm/envs.py
```
425eb81e

Merge branch 'v0.15.1-dev-router-capture' into 'v0.15.1-dev' · 358bc2c5

zhuwenwen authored Feb 24, 2026

feat(moe): 支持通过环境变量开启/配置 Qwen3 路由 logits 采集

See merge request dcutoolkit/deeplearing/vllm!441

358bc2c5

Merge branch 'v0.15.1-dev-fast-token-id-copy' into 'v0.15.1-dev' · 570c2c5b
zhuwenwen authored Feb 24, 2026
```
perf(v1): 增加可选的快速 token-id 拷贝路径

See merge request dcutoolkit/deeplearing/vllm!440
```
570c2c5b

feat(moe): 增加 Qwen3 路由 logits 的环境变量可控采集能力 · 9ae319b3

laibao authored Feb 21, 2026

新增 router_capture 工具，用于按 num_tokens/rank 过滤并落盘 MoE router logits
在 Qwen3MoeSparseMoeBlock 中接入采集调用，并在 torch.compile 场景下自动跳过
补充 VLLM_MOE_ROUTER_CAPTURE* 环境变量

9ae319b3

• perf(v1): 增加可选的快速 token-id 拷贝路径 · d3a95d54

laibao authored Feb 20, 2026

  - 新增环境变量 `VLLM_V1_FAST_TOKEN_ID_COPY`（默认关闭）
  - 在 `CachedRequestState` 中缓存 int32 的 prompt token ids（numpy 数组）
  - 开启后在 `InputBatch` 中使用 `np.copyto` 拷贝 prompt/output token ids

d3a95d54

Merge branch '0.15.1-dev-qwen3_5' into 'v0.15.1-dev' · 35006c0f
zhuwenwen authored Feb 24, 2026
```
Support qwen3 5

See merge request dcutoolkit/deeplearing/vllm!438
```
35006c0f
Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · 133e783f
zhuwenwen authored Feb 24, 2026
```
支持非deepseek模型使用moe_fused_gate

See merge request dcutoolkit/deeplearing/vllm!439
```
133e783f

19 Feb, 2026 1 commit
- 支持非deepseek模型使用moe_fused_gate · 93548076
  王敏 authored Feb 19, 2026
  
  93548076
16 Feb, 2026 3 commits
- add qwen3_5 · 4dc838d3
  Rayyyyy authored Feb 16, 2026
  
  4dc838d3
- Fix sampler.cu cub · 8ecffc73
  Rayyyyy authored Feb 16, 2026
  
  8ecffc73
- Add qwen3_5 · 843c1822
  Rayyyyy authored Feb 16, 2026
  
  843c1822
14 Feb, 2026 1 commit

Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · 2799735a

zhuwenwen authored Feb 14, 2026

[feat]支持glm4_moe_mtp使用torch compile，实现mtp cudagraph模式

See merge request dcutoolkit/deeplearing/vllm!436

2799735a

13 Feb, 2026 1 commit
- [feat]支持glm4_moe_mtp使用torch compile，实现mtp cudagraph模式 · dc027d74
  王敏 authored Feb 13, 2026
  
  dc027d74
12 Feb, 2026 1 commit
- update chat template of dsv32 · 838b4509
  zhuwenwen authored Feb 12, 2026
  
  838b4509
11 Feb, 2026 2 commits
- remove unused impl and envs · b5ea93d4
  zhuwenwen authored Feb 11, 2026
  
  b5ea93d4
- Merge branch 'v0.15.1-dev-marlin_w16a16' into 'v0.15.1-dev' · bc60d70d
  zhuwenwen authored Feb 11, 2026
```
feat(moe): 补齐 v0.15 中 Marlin W16A16 MoE 端到端接入

See merge request dcutoolkit/deeplearing/vllm!431
```
  bc60d70d