Commits · b256f7acc2f57f11c9858c3ea169a554f4865444 · OpenDAS / vllm_cscc

17 Dec, 2025 3 commits
- Merge branch 'v0.11.0-dev-yql' into 'v0.11.0-dev' · b256f7ac
  zhuwenwen authored Dec 17, 2025
```
修复CompressedTensorsLinearMethod中的w4a16的冲突问题

See merge request dcutoolkit/deeplearing/vllm!302
```
  b256f7ac
- 修复CompressedTensorsLinearMethod中的w4a16的冲突问题 · 37771741
  chenyue3 authored Dec 17, 2025
  
  37771741
- Merge branch 'v0.11.0-dev-moe_tune' into 'v0.11.0-dev' · dfc7e914
  zhuwenwen authored Dec 17, 2025
```
feat: add Marlin W16A16 fused MoE behind VLLM_USE_MARLIN_W16A16_MOE

See merge request dcutoolkit/deeplearing/vllm!300
```
  dfc7e914
16 Dec, 2025 1 commit

feat(moe): add Marlin W16A16 fused MoE behind VLLM_USE_MARLIN_W16A16_MOE · bd70dbb7

laibao authored Dec 16, 2025

新增环境变量 VLLM_USE_MARLIN_W16A16_MOE，用于显式启用 Marlin W16A16 MoE experts
在 fused_moe 中当开关开启且实现可用时，调用 fused_experts_impl_w16a16_marlin
增加 Marlin W16A16 MoE 实现与 reduce 路径

bd70dbb7

12 Dec, 2025 2 commits
- update fp8_mqa_logits and fp8_paged_mqa_logits · 259605da
  zhuwenwen authored Dec 12, 2025
  
  259605da
- replace the fp8_mqa_logits and fp8_paged_mqa_logits interfaces in deepgemm... · a55b8f91
  zhuwenwen authored Dec 12, 2025
```
replace the fp8_mqa_logits and fp8_paged_mqa_logits interfaces in deepgemm with mqa_logits and paged_mqa_logits from lightop
```
  a55b8f91
05 Dec, 2025 4 commits
- update mla interface · 31021d81
  zhuwenwen authored Dec 05, 2025
  
  31021d81
- Merge branch 'v0.11.0-dev-wm-1205' into 'v0.11.0-dev' · f6aa3d19
  zhuwenwen authored Dec 05, 2025
```
去掉无效代码

See merge request dcutoolkit/deeplearing/vllm!285
```
  f6aa3d19
- 去掉无效代码 · 7343379a
  王敏 authored Dec 05, 2025
  
  7343379a
- Merge remote-tracking branch 'origin/v0.11.0-dev' into v0.11.0-dev · 6311e003
  王敏 authored Dec 05, 2025
  
  6311e003
04 Dec, 2025 7 commits
- update MLACommonBaseImpl get_and_maybe_dequant_weights · b8412df6
  zhuwenwen authored Dec 04, 2025
  
  b8412df6
- fix MergedColumnParallelLinear weight_loader · 24962bed
  zhuwenwen authored Dec 04, 2025
  
  24962bed
- Revert "update kv_b_proj_weight" · 7f1d5aff
  zhuwenwen authored Dec 04, 2025
```
This reverts commit 3b121add.
```
  7f1d5aff
- update kv_b_proj_weight · 3b121add
  zhuwenwen authored Dec 04, 2025
  
  3b121add
- add nn_moe · a1b2eff7
  zhuwenwen authored Dec 04, 2025
  
  a1b2eff7
- Merge branch 'v0.11.0-dev-moe_tune' into 'v0.11.0-dev' · 4924f6b5
  zhuwenwen authored Dec 04, 2025
```
Add new benchmark configurations for gfx936_80cu with E=512,N=64 and E=512,N=128 Qwen3-Next-80B-A3B-Instruct nn tp4 tp8 moe json

See merge request dcutoolkit/deeplearing/vllm!283
```
  4924f6b5
- Add new benchmark configurations for gfx936_80cu with E=512,N=64 and... · 0765eb67
  laibao authored Dec 04, 2025
```
Add new benchmark configurations for gfx936_80cu with E=512,N=64 and E=512,N=128 Qwen3-Next-80B-A3B-Instruct nn tp4 tp8 moe json
```
  0765eb67
03 Dec, 2025 3 commits
- set VLLM_USE_LIGHTOP_MOE_ALIGN=0 (for qwen3-30b) · 87503d85
  zhuwenwen authored Dec 03, 2025
  
  87503d85
- add VLLM_USE_OPT_RESHAPE_AND_CACHE、VLLM_USE_FUSE_SILU_AND_MUL and... · 15a55773
  zhuwenwen authored Dec 03, 2025
```
add VLLM_USE_OPT_RESHAPE_AND_CACHE、VLLM_USE_FUSE_SILU_AND_MUL and VLLM_USE_TOPK_RENORM for qwen3-30b
```
  15a55773
- update moe_align_block_size interface · 1db5839e
  zhuwenwen authored Dec 03, 2025
  
  1db5839e
02 Dec, 2025 2 commits
- add VLLM_USE_V32_ENCODE to use encoding_dsv32.py · ba7bcccd
  zhuwenwen authored Dec 02, 2025
  
  ba7bcccd
- [fix]解决部分mtp启动报错 · 26084d72
  王敏 authored Dec 02, 2025
  
  26084d72
01 Dec, 2025 1 commit

Merge branch 'v0.11.0-dev-wm' into 'v0.11.0-dev' · b924a846

zhuwenwen authored Dec 01, 2025

[fix]解决deepseek模型cudagraph模式下精度异常问题

See merge request dcutoolkit/deeplearing/vllm!278

b924a846

30 Nov, 2025 1 commit
- [fix]解决deepseek模型cudagraph模式下精度异常问题 · 14dc2b30
  王敏 authored Nov 30, 2025
  
  14dc2b30
26 Nov, 2025 2 commits
- Fix blaslt miss bias · 09c2856a
  zhuwenwen authored Nov 26, 2025
  
  09c2856a
- add VLLM_USE_PIECEWISE to use piecewise · 9be76efd
  zhuwenwen authored Nov 26, 2025
  
  9be76efd
25 Nov, 2025 1 commit
- [Qwen3-Next] MoE configs (TN) for BW1000 TP=4,8 · 77599fa7
  zhuwenwen authored Nov 25, 2025
  
  77599fa7
24 Nov, 2025 3 commits
- update activation · 7102738f
  zhuwenwen authored Nov 24, 2025
  
  7102738f
- Merge branch 'v0.11.0-dev_scheduler' into 'v0.11.0-dev' · e5fc1b17
  zhuwenwen authored Nov 24, 2025
```
修复schedule_default，schedule_split_pd，因kv cache耗尽，服务挂掉的问题

See merge request dcutoolkit/deeplearing/vllm!266
```
  e5fc1b17
- feat: update scheduler implementation · c833e64e
  liuchy5 authored Nov 24, 2025
  
  c833e64e
21 Nov, 2025 1 commit
- 根据不同场景，更新默认调度和分离调度的选择 · 4e8af7e8
  zhuwenwen authored Nov 21, 2025
  
  4e8af7e8
20 Nov, 2025 3 commits
- 修复pd分离开cp引起的校检问题 · acf9f945
  zhuwenwen authored Nov 20, 2025
```
update VLLM_USE_PD_SPLIT=0 (for dspk)and  VLLM_USE_PD_SPLIT=1 (for others)
```
  acf9f945
- update m // 8 · cf975626
  zhuwenwen authored Nov 20, 2025
  
  cf975626
- add qwen3-30B tp2 tn moe json · 3fcdea26
  zhuwenwen authored Nov 20, 2025
```
add VLLM_USE_PP_SYNC to use pp sync
update qwen3 of rmsnorm
```
  3fcdea26
18 Nov, 2025 2 commits
- Merge branch 'v0.11.0-dev-wm' into 'v0.11.0-dev' · 923ca4fa
  zhuwenwen authored Nov 18, 2025
```
[feat]支持prefill和decoding分开调度

See merge request dcutoolkit/deeplearing/vllm!260
```
  923ca4fa
- [feat]支持prefill和decoding分开调度 · ff3e7f0a
  王敏 authored Nov 18, 2025
  
  ff3e7f0a
17 Nov, 2025 3 commits
- update free_encoder_mm_hashes · 1eff9d04
  zhuwenwen authored Nov 17, 2025
  
  1eff9d04
- Merge branch 'minimax_m2' into 'v0.11.0-dev' · f4776ec3
  zhuwenwen authored Nov 17, 2025
```
Add minimax_m2

See merge request dcutoolkit/deeplearing/vllm!258
```
  f4776ec3
- Add minimax_m2 · 7636d436
  chenych authored Nov 17, 2025
  
  7636d436
14 Nov, 2025 1 commit
- update SchedulerOutput · e712dcbb
  zhuwenwen authored Nov 14, 2025
  
  e712dcbb