Commits · 7826240b0e8e4d6aadb5a413e736f4a7f369c8ce · OpenDAS / vllm_cscc

06 Mar, 2026 6 commits
- Merge branch 'add-qwen3-asr' into 'v0.15.1-dev' · 7826240b
  zhangqha authored Mar 06, 2026
```
support qwen3-asr

See merge request dcutoolkit/deeplearing/vllm!466
```
  7826240b
- Merge branch 'v0.15.1-dev-wm-1' into 'v0.15.1-dev' · bad2a99c
  zhangqha authored Mar 06, 2026
```
[perf]glm4_moe模型适配rmsquant和silu_quant融合算子

See merge request dcutoolkit/deeplearing/vllm!467
```
  bad2a99c
- [perf]glm4_moe模型适配rmsquant和silu_quant融合算子 · 110bbdd5
  王敏 authored Mar 06, 2026
  
  110bbdd5
- Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · f38f6c1e
  zhangqha authored Mar 06, 2026
```
[perf]添加Module支持split qkv+rmsnorm+rope+kvcache融合算子，GLM4_MOE完成适配

See merge request dcutoolkit/deeplearing/vllm!465
```
  f38f6c1e
- [perf]添加Module支持split qkv+rmsnorm+rope+kvcache融合算子，GLM4_MOE完成适配 · f1a7696f
  王敏 authored Mar 06, 2026
  
  f1a7696f
- Merge branch 'v0.15.1-dev_yql_3.5' into 'v0.15.1-dev' · 0786df31
  zhangqha authored Mar 06, 2026
```
修复dsa的workspace的bug，以及添加环境变量关闭DSAVLLM_DISABLE_DSA=1

See merge request dcutoolkit/deeplearing/vllm!463
```
  0786df31
05 Mar, 2026 8 commits
- 修复dsa的workspace的bug，以及添加环境变量关闭DSAVLLM_DISABLE_DSA=1 · cb1a27d2
  yangql authored Mar 05, 2026
  
  cb1a27d2
- Merge branch 'v0.15.1-dev-fth' into 'v0.15.1-dev' · 4661cd18
  zhangqha authored Mar 05, 2026
```
修复channel-int8 的block_shape读取bug

See merge request dcutoolkit/deeplearing/vllm!462
```
  4661cd18
- Fix: Extend MAX_VPT to 128 for large-scale MoE models (e.g., GLM4.5V-quantized model). · 3af22744
  lixh6 authored Mar 05, 2026
  
  3af22744
- add qwen3-asr · c50e6dee
  weishb authored Mar 05, 2026
  
  c50e6dee
- 修复channel-int8 的config读取bug · cfd6a543
  SAC_fanth authored Mar 05, 2026
  
  cfd6a543
- Merge branch 'v0.15.1-dev_fix_dsa' into 'v0.15.1-dev' · e962f483
  zhangqha authored Mar 05, 2026
```
feat:fix dsa

See merge request dcutoolkit/deeplearing/vllm!457
```
  e962f483
- Merge branch 'v0.15.1-dev-custom' into 'v0.15.1-dev' · f107780a
  zhangqha authored Mar 05, 2026
```
解决custom allreduce在K100AI上新模型报错问题

See merge request dcutoolkit/deeplearing/vllm!459
```
  f107780a
- 解决custom allreduce在K100AI上新模型报错问题 · 02effa65
  xiabo authored Mar 05, 2026
  
  02effa65
04 Mar, 2026 5 commits
- feat:fix dsa · 6e7c8326
  liuchy5 authored Mar 04, 2026
  
  6e7c8326
- Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · db85ab07
  zhangqha authored Mar 04, 2026
```
[perf]合入lightop topp_topk 融合算子

See merge request dcutoolkit/deeplearing/vllm!456
```
  db85ab07
- 恢复误删代码 · 5e77b44f
  王敏 authored Mar 04, 2026
  
  5e77b44f
- [perf]合入lightop topp_topk 融合算子 · 586f0eba
  王敏 authored Mar 04, 2026
  
  586f0eba
- Merge branch 'v0.15.1-dev_yql_3.3' into 'v0.15.1-dev' · 2036eb73
  zhuwenwen authored Mar 04, 2026
```
修复awq-marlin的bug

See merge request dcutoolkit/deeplearing/vllm!454
```
  2036eb73
03 Mar, 2026 4 commits
- 修复awq-marlin的bug · 09bdce60
  yangql authored Mar 03, 2026
  
  09bdce60
- update kv_cache_dtype support · aaf8c95f
  zhuwenwen authored Mar 03, 2026
  
  aaf8c95f
- Merge branch 'v0.15.1-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.15.1-dev · ef8dd155
  zhuwenwen authored Mar 03, 2026
  
  ef8dd155
- support dsa · d71496bf
  zhuwenwen authored Mar 03, 2026
  
  d71496bf
02 Mar, 2026 6 commits
- Merge branch 'v0.15.1-dev-qwen3-vl-fused-rope' into 'v0.15.1-dev' · c9733a54
  zhuwenwen authored Mar 02, 2026
```
fix(qwen3): 修复VL场景fused RoPE分支条件，并更正qwen3_moe中rms_mrope参数顺序

See merge request dcutoolkit/deeplearing/vllm!451
```
  c9733a54
- fix(qwen3): 修复VL场景fused RoPE分支条件，并更正qwen3_moe中rms_mrope参数顺序 · 02b0d6ba
  laibao authored Mar 02, 2026
  
  02b0d6ba
- Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · 1ce0a9a2
  zhuwenwen authored Mar 02, 2026
```
[perf]优化异步调度+并行解码 step之间的空泡，实现kernel提前下发

See merge request dcutoolkit/deeplearing/vllm!449
```
  1ce0a9a2
- [perf]优化异步调度+并行解码 step之间的空泡，实现kernel提前下发 · 6f6ea0a8
  王敏 authored Mar 02, 2026
  
  6f6ea0a8
- Merge branch 'v0.15.1-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.15.1-dev · 319506a5
  zhuwenwen authored Mar 02, 2026
  
  319506a5
- [Model] GLM adaptation · afe3ea1e
  zhuwenwen authored Mar 02, 2026
  
  afe3ea1e
28 Feb, 2026 2 commits
- Merge branch 'v0.15.1-dev_2.28' into 'v0.15.1-dev' · c334b741
  zhuwenwen authored Feb 28, 2026
```
修复qwen3.5的使用dtype为fp16的picecwise的推理模式

See merge request dcutoolkit/deeplearing/vllm!448
```
  c334b741
- 修复qwen3.5的使用dtype为fp16的picecwise的推理模式 · b5e8d01e
  yangql1 authored Feb 28, 2026
  
  b5e8d01e
27 Feb, 2026 1 commit

Merge branch 'v0.15.1-dev-reduced-topk-topp' into 'v0.15.1-dev' · 4262c4d9

zhuwenwen authored Feb 27, 2026

feat(sampler): 增加 reduced topk+topp 采样快速路径以降低全词表 softmax 开销

See merge request dcutoolkit/deeplearing/vllm!447

4262c4d9

26 Feb, 2026 1 commit

feat(sampler): 增加 reduced topk+topp 采样快速路径以降低全词表 softmax 开销 · a17c410d

laibao authored Feb 26, 2026

新增 VLLM_V1_USE_REDUCED_TOPK_TOPP_SAMPLER 开关并补充适用场景说明

在 V1 GPU 输入批预计算 max_top_k/has_any_no_top_k，native sampler 满足条件时走 reduced fast path，异常自动回退

a17c410d

25 Feb, 2026 3 commits
- Merge branch 'v0.15.1-dev-fth' into 'v0.15.1-dev' · 2544deb6
  zhuwenwen authored Feb 25, 2026
```
修复block-wise 用triton报错的bug

See merge request dcutoolkit/deeplearing/vllm!444
```
  2544deb6
- 修复block-wise 用triton报错的bug · 359c16db
  SAC_fanth authored Feb 25, 2026
  
  359c16db
- Merge branch 'v0.15.1-dev-fth' into 'v0.15.1-dev' · e675f1f4
  zhuwenwen authored Feb 25, 2026
```
修复channel-wise 用triton报错的bug

See merge request dcutoolkit/deeplearing/vllm!443
```
  e675f1f4
24 Feb, 2026 4 commits
- 修复channel-wise 用triton报错的bug · 9d44744c
  SAC_fanth authored Feb 24, 2026
  
  9d44744c
- Merge branch 'v0.15.1-dev-w4a8+pp_balance' into 'v0.15.1-dev' · d146a231
  zhuwenwen authored Feb 24, 2026
```
V0.15.1 dev w4a8+pp balance

See merge request dcutoolkit/deeplearing/vllm!442
```
  d146a231
- Merge branch 'v0.15.1-dev' into 'v0.15.1-dev-w4a8+pp_balance' · 425eb81e
  jujl1 authored Feb 24, 2026
```
# Conflicts:
#   vllm/envs.py
```
  425eb81e
- Merge branch 'v0.15.1-dev-router-capture' into 'v0.15.1-dev' · 358bc2c5
  zhuwenwen authored Feb 24, 2026
```
feat(moe): 支持通过环境变量开启/配置 Qwen3 路由 logits 采集

See merge request dcutoolkit/deeplearing/vllm!441
```
  358bc2c5