Commits · 3b121addb1e42b9c21bd1898c65c3a8b53ec35e2 · OpenDAS / vllm_cscc

04 Dec, 2025 4 commits
- update kv_b_proj_weight · 3b121add
  zhuwenwen authored Dec 04, 2025
  
  3b121add
- add nn_moe · a1b2eff7
  zhuwenwen authored Dec 04, 2025
  
  a1b2eff7
- Merge branch 'v0.11.0-dev-moe_tune' into 'v0.11.0-dev' · 4924f6b5
  zhuwenwen authored Dec 04, 2025
```
Add new benchmark configurations for gfx936_80cu with E=512,N=64 and E=512,N=128 Qwen3-Next-80B-A3B-Instruct nn tp4 tp8 moe json

See merge request dcutoolkit/deeplearing/vllm!283
```
  4924f6b5
- Add new benchmark configurations for gfx936_80cu with E=512,N=64 and... · 0765eb67
  laibao authored Dec 04, 2025
```
Add new benchmark configurations for gfx936_80cu with E=512,N=64 and E=512,N=128 Qwen3-Next-80B-A3B-Instruct nn tp4 tp8 moe json
```
  0765eb67
03 Dec, 2025 3 commits
- set VLLM_USE_LIGHTOP_MOE_ALIGN=0 (for qwen3-30b) · 87503d85
  zhuwenwen authored Dec 03, 2025
  
  87503d85
- add VLLM_USE_OPT_RESHAPE_AND_CACHE、VLLM_USE_FUSE_SILU_AND_MUL and... · 15a55773
  zhuwenwen authored Dec 03, 2025
```
add VLLM_USE_OPT_RESHAPE_AND_CACHE、VLLM_USE_FUSE_SILU_AND_MUL and VLLM_USE_TOPK_RENORM for qwen3-30b
```
  15a55773
- update moe_align_block_size interface · 1db5839e
  zhuwenwen authored Dec 03, 2025
  
  1db5839e
02 Dec, 2025 1 commit
- add VLLM_USE_V32_ENCODE to use encoding_dsv32.py · ba7bcccd
  zhuwenwen authored Dec 02, 2025
  
  ba7bcccd
01 Dec, 2025 1 commit

Merge branch 'v0.11.0-dev-wm' into 'v0.11.0-dev' · b924a846

zhuwenwen authored Dec 01, 2025

[fix]解决deepseek模型cudagraph模式下精度异常问题

See merge request dcutoolkit/deeplearing/vllm!278

b924a846

30 Nov, 2025 1 commit
- [fix]解决deepseek模型cudagraph模式下精度异常问题 · 14dc2b30
  王敏 authored Nov 30, 2025
  
  14dc2b30
26 Nov, 2025 2 commits
- Fix blaslt miss bias · 09c2856a
  zhuwenwen authored Nov 26, 2025
  
  09c2856a
- add VLLM_USE_PIECEWISE to use piecewise · 9be76efd
  zhuwenwen authored Nov 26, 2025
  
  9be76efd
25 Nov, 2025 1 commit
- [Qwen3-Next] MoE configs (TN) for BW1000 TP=4,8 · 77599fa7
  zhuwenwen authored Nov 25, 2025
  
  77599fa7
24 Nov, 2025 3 commits
- update activation · 7102738f
  zhuwenwen authored Nov 24, 2025
  
  7102738f
- Merge branch 'v0.11.0-dev_scheduler' into 'v0.11.0-dev' · e5fc1b17
  zhuwenwen authored Nov 24, 2025
```
修复schedule_default，schedule_split_pd，因kv cache耗尽，服务挂掉的问题

See merge request dcutoolkit/deeplearing/vllm!266
```
  e5fc1b17
- feat: update scheduler implementation · c833e64e
  liuchy5 authored Nov 24, 2025
  
  c833e64e
21 Nov, 2025 1 commit
- 根据不同场景，更新默认调度和分离调度的选择 · 4e8af7e8
  zhuwenwen authored Nov 21, 2025
  
  4e8af7e8
20 Nov, 2025 3 commits
- 修复pd分离开cp引起的校检问题 · acf9f945
  zhuwenwen authored Nov 20, 2025
```
update VLLM_USE_PD_SPLIT=0 (for dspk)and  VLLM_USE_PD_SPLIT=1 (for others)
```
  acf9f945
- update m // 8 · cf975626
  zhuwenwen authored Nov 20, 2025
  
  cf975626
- add qwen3-30B tp2 tn moe json · 3fcdea26
  zhuwenwen authored Nov 20, 2025
```
add VLLM_USE_PP_SYNC to use pp sync
update qwen3 of rmsnorm
```
  3fcdea26
18 Nov, 2025 2 commits
- Merge branch 'v0.11.0-dev-wm' into 'v0.11.0-dev' · 923ca4fa
  zhuwenwen authored Nov 18, 2025
```
[feat]支持prefill和decoding分开调度

See merge request dcutoolkit/deeplearing/vllm!260
```
  923ca4fa
- [feat]支持prefill和decoding分开调度 · ff3e7f0a
  王敏 authored Nov 18, 2025
  
  ff3e7f0a
17 Nov, 2025 3 commits
- update free_encoder_mm_hashes · 1eff9d04
  zhuwenwen authored Nov 17, 2025
  
  1eff9d04
- Merge branch 'minimax_m2' into 'v0.11.0-dev' · f4776ec3
  zhuwenwen authored Nov 17, 2025
```
Add minimax_m2

See merge request dcutoolkit/deeplearing/vllm!258
```
  f4776ec3
- Add minimax_m2 · 7636d436
  chenych authored Nov 17, 2025
  
  7636d436
14 Nov, 2025 2 commits
- update SchedulerOutput · e712dcbb
  zhuwenwen authored Nov 14, 2025
  
  e712dcbb
- add use_sparse · 23f39c5b
  zhuwenwen authored Nov 14, 2025
  
  23f39c5b
13 Nov, 2025 13 commits
- Merge branch 'v0.11.0-dev-wm' into 'v0.11.0-dev' · 70764a8f
  zhuwenwen authored Nov 13, 2025
```
[fix]解决moe_fused_gate编译错误

See merge request dcutoolkit/deeplearing/vllm!254
```
  70764a8f
- [fix]解决moe_fused_gate编译错误 · 3c039206
  王敏 authored Nov 13, 2025
  
  3c039206
- add VLLM_USE_OPT_ZEROS to replace triton_ (torch.zeros) · e7f2785f
  zhuwenwen authored Nov 13, 2025
```
set default_max_num_batched_tokens = 10240
update qwen3_moe of layernorm
off lightop of moe_fused_gate
```
  e7f2785f
- Support blaslt w8a8 GEMM op. · 671dcfff
  zhuwenwen authored Nov 13, 2025
  
  671dcfff
- 解决w8a8 pp16开启marlin的oom问题 · 5bd9b304
  zhuwenwen authored Nov 13, 2025
  
  5bd9b304
- set VLLM_USE_LIGHTOP=0 for dpsk-v3 · 6a8fd297
  zhuwenwen authored Nov 13, 2025
```
add VLLM_USE_PD_SPLIT to split prefill and decode
replace triton_ of rms and act_and_mul
```
  6a8fd297
- Merge branch 'v0.11.0-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.11.0-dev · 31201280
  zhuwenwen authored Nov 13, 2025
  
  31201280
- feat: w8a8_marlin 接入，通过-q slimquant_marlin开启，优化w4a8_marlin代码 · f2bac431
  zhuwenwen authored Nov 13, 2025
  
  f2bac431
- Merge branch 'v0.11.0-dev-wm' into 'v0.11.0-dev' · 12748306
  zhuwenwen authored Nov 13, 2025
```
[fix]解决moe_fused_gate编译错误，去掉mla中mtp部分的修改

See merge request dcutoolkit/deeplearing/vllm!251
```
  12748306
- 修改triton 量化w8a8 config命令方式 · 9f7f976c
  zhuwenwen authored Nov 13, 2025
```
add deps of pd-pp
```
  9f7f976c
- Merge remote-tracking branch 'origin/v0.11.0-dev' into v0.11.0-dev · bb67a24c
  王敏 authored Nov 13, 2025
  
  bb67a24c
- [fix]解决moe_fused_gate编译错误，去掉mla中mtp部分的修改 · f687d53c
  王敏 authored Nov 13, 2025
  
  f687d53c
- restore v32 support · 81eaff62
  zhuwenwen authored Nov 13, 2025
  
  81eaff62