Commits · 8bfc2d653b9b119142ecf9886bd79cacb6a7f829 · OpenDAS / vllm_cscc

"cacheflow/model_executor/memory_analyzer.py" did not exist on "80a2f812f17add5838f84288054fbe0b915622cc"

21 Dec, 2025 2 commits
- Merge branch 'v0.9.2-dev-ds-yql_auto' into v0.9.2-dev-ds_auto_21 · 8bfc2d65
  yangql authored Dec 21, 2025
  
  8bfc2d65
- 修复auto模式乱码的问题 · 094f1299
  yangql authored Dec 21, 2025
  
  094f1299
18 Dec, 2025 2 commits
- Merge branch 'v0.9.2-dev-ds-wm-1218' into 'v0.9.2-dev-ds' · 8813afd8
  zhuwenwen authored Dec 18, 2025
```
[feat]优化dp attention，减少1次allgather耗时，高吞吐提升明显

See merge request dcutoolkit/deeplearing/vllm!307
```
  8813afd8
- [feat]优化dp attention，减少1次allgather耗时，高吞吐提升明显 · 3e386c3b
  王敏 authored Dec 18, 2025
  
  3e386c3b
17 Dec, 2025 7 commits
- Merge branch 'v0.9.2-dev-ds-wm-1217' into 'v0.9.2-dev-ds' · 428f3245
  zhuwenwen authored Dec 17, 2025
```
w8a8 高吞吐模式先量化再dispatch

See merge request dcutoolkit/deeplearing/vllm!303
```
  428f3245
- Merge remote-tracking branch 'origin/v0.9.2-dev-ds' into v0.9.2-dev-ds · 46be3c09
  王敏 authored Dec 17, 2025
  
  46be3c09
- [feat]w8a8 高吞吐模式先量化再dispatch · c03a553b
  王敏 authored Dec 17, 2025
  
  c03a553b
- Merge branch 'v0.9.2-dev-ds' into v0.9.2-dev-ds-yql_auto · 7d4db7e8
  yangql authored Dec 17, 2025
  
  7d4db7e8
- 解决deep的auto冲突 · 8943d3db
  yangql authored Dec 17, 2025
  
  8943d3db
- Merge branch 'v0.9.2-dev-ds-wm-1217' into 'v0.9.2-dev-ds' · d5b6456a
  zhuwenwen authored Dec 17, 2025
```
[feat]修复低延迟错误

See merge request dcutoolkit/deeplearing/vllm!301
```
  d5b6456a
- [feat]修复低延迟错误 · 4fadef92
  王敏 authored Dec 17, 2025
  
  4fadef92
16 Dec, 2025 2 commits
- up auto deepep · 0d3ae2fc
  yangql authored Dec 16, 2025
  
  0d3ae2fc
- Merge branch 'v0.9.2-dev-ds-wm-1215' into 'v0.9.2-dev-ds' · ab1acdce
  zhuwenwen authored Dec 16, 2025
```
优化高吞吐模式num_sms

See merge request dcutoolkit/deeplearing/vllm!297
```
  ab1acdce
15 Dec, 2025 5 commits
- [feat]优化deepep高吞吐模式 · 10400c58
  王敏 authored Dec 15, 2025
  
  10400c58
- Merge remote-tracking branch 'origin/v0.9.2-dev-ds' into v0.9.2-dev-ds · 0acf61d6
  王敏 authored Dec 15, 2025
  
  0acf61d6
- [feat]优化高吞吐模式num_sms · a983ea53
  王敏 authored Dec 15, 2025
  
  a983ea53
- Merge branch 'v0.9.2-dev-ds-wm-1215' into 'v0.9.2-dev-ds' · b2db7ca2
  zhuwenwen authored Dec 15, 2025
```
[feat]1.支持高吞吐模式ep_scatter+deepgemm contiguous+ep_gather方案；2.支持高吞吐模式下ETP,例如dp4 tp4

See merge request dcutoolkit/deeplearing/vllm!296
```
  b2db7ca2
- [feat]1.支持高吞吐模式ep_scatter+deepgemm contiguous+ep_gather方案；2.支持高吞吐模式下ETP,例如dp4 tp4 · 3833018c
  王敏 authored Dec 15, 2025
  
  3833018c
11 Dec, 2025 1 commit
- Merge branch 'v0.9.2-dev-ds-wm-1210' into 'v0.9.2-dev-ds' · 94c4ca4d
  zhuwenwen authored Dec 11, 2025
```
[fix]修复deepep 高吞吐模式vmfault问题

See merge request dcutoolkit/deeplearing/vllm!291
```
  94c4ca4d
10 Dec, 2025 1 commit
- [fix]修复deepep 高吞吐模式vmfault问题 · 916b5876
  王敏 authored Dec 10, 2025
  
  916b5876
08 Dec, 2025 3 commits
- Merge branch 'v0.9.2-dev-ds-wm-1208' into 'v0.9.2-dev-ds' · 8ae59a9c
  zhuwenwen authored Dec 08, 2025
```
[feat]支持deepep ETP，dp4 tp4 ep16相比dp32 tp1 ep32提升明显

See merge request dcutoolkit/deeplearing/vllm!289
```
  8ae59a9c
- 删除无效代码 · 1a315a58
  王敏 authored Dec 08, 2025
  
  1a315a58
- [feat]支持deepep ETP，dp4 tp4 ep16相比dp32 tp1 ep32提升明显 · 6cabbf16
  王敏 authored Dec 08, 2025
  
  6cabbf16
07 Dec, 2025 1 commit
- Merge branch 'v0.9.2-dev-ds-deepep-yql' into 'v0.9.2-dev-ds' · ba1999c2
  zhuwenwen authored Dec 07, 2025
```
add ALLOW_MNNV default falase, use VLLM_ALLOW_MNNVL=1

See merge request dcutoolkit/deeplearing/vllm!286
```
  ba1999c2
05 Dec, 2025 1 commit
- add ALLOW_MNNV default falase, use VLLM_ALLOW_MNNVL=1 · ddb01cd9
  yangql authored Dec 05, 2025
  
  ddb01cd9
02 Dec, 2025 2 commits
- Merge branch 'v0.9.2-dev-ds-wm-1202' into 'v0.9.2-dev-ds' · 52f895ab
  zhuwenwen authored Dec 02, 2025
```
[feat]支持deepep低延迟与共享专家overlap

See merge request dcutoolkit/deeplearing/vllm!281
```
  52f895ab
- [feat]支持deepep低延迟与共享专家overlap · 1ae8f58c
  王敏 authored Dec 02, 2025
  
  1ae8f58c
28 Nov, 2025 2 commits
- Merge branch 'v0.9.2-dev-ds-new' into 'v0.9.2-dev-ds' · bca29c66
  zhuwenwen authored Nov 28, 2025
```
feat: pp mtp加入零消耗调度，加入环境变量VLLM_USE_ZERO_MTP，默认打开

See merge request dcutoolkit/deeplearing/vllm!277
```
  bca29c66
- feat: pp mtp加入零消耗调度，加入环境变量VLLM_USE_ZERO_MTP，默认打开 · b98431cd
  jujl1 authored Nov 21, 2025
  
  b98431cd
24 Nov, 2025 2 commits
- Merge branch 'v0.9.2-dev-ds-pp-balance' into 'v0.9.2-dev-ds' · 327fdf18
  zhuwenwen authored Nov 24, 2025
```
feat: pipeline_parallel新增pp域请求数均衡,VLLM_USE_PP_BALANCE控制，默认开启

See merge request dcutoolkit/deeplearing/vllm!267
```
  327fdf18
- feat: pipeline_parallel新增pp域请求数均衡,VLLM_USE_PP_BALANCE控制，默认开启 · f4b01cd4
  jujl1 authored Oct 31, 2025
  
  f4b01cd4
17 Nov, 2025 1 commit

Merge branch 'v0.9.2-dev-ds-wm-1115' into 'v0.9.2-dev-ds' · 18a43696

zhuwenwen authored Nov 17, 2025

[feat]1.w8a8 marlin适配deepep低延迟;2.非naive ep模式，去掉多余的dp padding,避免allreduce耗时

See merge request dcutoolkit/deeplearing/vllm!256

18a43696

15 Nov, 2025 1 commit
- [feat]1.w8a8 marlin适配deepep低延迟;2.非naive ep模式，去掉多余的dp padding,避免allreduce耗时 · 4a943d35
  王敏 authored Nov 15, 2025
  
  4a943d35
13 Nov, 2025 7 commits
- [fix]解决moe_fused_gate编译错误，去掉mla中mtp部分的修改 · b956fc64
  zhuwenwen authored Nov 13, 2025
```
restore the default settings of disable_cascade_attn
add VLLM_USE_OPT_ZEROS to replace triton_ (torch.zeros)
set default_max_num_batched_tokens = 10240
update qwen3_moe of layernorm
```
  b956fc64
- Support blaslt w8a8 GEMM op. · 1a9b2fa9
  zhuwenwen authored Nov 13, 2025
```
解决w8a8 pp16开启marlin的oom问题
```
  1a9b2fa9
- add VLLM_USE_PD_SPLIT to split prefill and decode · 97fed613
  zhuwenwen authored Nov 13, 2025
  
  97fed613
- replace triton_ of rms and act_and_mul · 3912d41c
  zhuwenwen authored Nov 13, 2025
  
  3912d41c
- feat: 添加输出占位符功能以优化调度 · 613edd7d
  zhuwenwen authored Nov 13, 2025
```
- 在环境变量中引入 `VLLM_SCHED_ENABLE_MINIMAL_INJECTION` 以控制流水线并行调度的最小注入。
- 调整 Scheduler 逻辑以使用新的最小注入功能。
- 更新调度逻辑以利用输出占位符，确保在解码过程中避免 0-token 停滞。
- 增强 Scheduler，根据批次队列状态管理最小进度注入。
```
  613edd7d
- Merge branch 'v0.9.2-dev-ds-wm-1113' into 'v0.9.2-dev-ds' · 7fdcfde2
  zhuwenwen authored Nov 13, 2025
```
[feat]w4a8和w8a8适配deepep低延迟

See merge request dcutoolkit/deeplearing/vllm!255
```
  7fdcfde2
- [feat]w4a8和w8a8适配deepep低延迟 · 92761bde
  王敏 authored Nov 13, 2025
  
  92761bde