Commits · 36c58b105deaffe50bc57f9eb4a314ccf4c277b3 · OpenDAS / vllm_cscc

05 Jan, 2026 8 commits
- Merge branch 'v0.11.0-dev-ds' into 'v0.11.0-dev' · 36c58b10
  zhuwenwen authored Jan 05, 2026
```
fix: 修复deepseek量化模型的若干问题

See merge request dcutoolkit/deeplearing/vllm!338
```
  36c58b10
- fix: 修复deepseek量化模型的若干问题 · d10b80ce
  jujl1 authored Jan 05, 2026
  
  d10b80ce
- update sparse_attn_indexer · 734f52d8
  zhuwenwen authored Jan 05, 2026
  
  734f52d8
- update mqa_logits and paged_mqa_logits · f441aca2
  zhuwenwen authored Jan 05, 2026
  
  f441aca2
- add sinks of vllm_flash_attn_varlen_func · cc7715fd
  zhuwenwen authored Jan 05, 2026
  
  cc7715fd
- support sinks · 965934b8
  zhuwenwen authored Jan 05, 2026
  
  965934b8
- update _forward_encoder_attention interface · 8b1077ba
  zhuwenwen authored Jan 05, 2026
  
  8b1077ba
- Merge branch 'v0.11.0-dev-qwen3moe-rms-mrope-fuse' into 'v0.11.0-dev' · 98f111f9
  zhuwenwen authored Jan 05, 2026
```
[feat] 支持 mRoPE 的 fused RMSNorm+RoPE 路径，并修正 torch.compile 动态维度标注

See merge request dcutoolkit/deeplearing/vllm!334
```
  98f111f9
04 Jan, 2026 1 commit

[feat] 支持 mRoPE 的 fused RMSNorm+RoPE 路径，并修正 torch.compile 动态维度标注 · e08422ae

laibao authored Jan 04, 2026

实现了用于优化张量计算的 rms_mrope_fuse 和 rms_mrope_fuse_fake 方法
更新了 forward：在满足条件时走新的 M-RoPE 融合路径
增强了 Qwen3MoeModel 对动态参数维度的支持，以适配该功能

e08422ae

24 Dec, 2025 6 commits
- Merge branch 'v0.11.0-dev-yql-12.24' into 'v0.11.0-dev' · ca4598a4
  zhuwenwen authored Dec 24, 2025
```
在v0.11中暂不支持w4a16的moe算子scale和zero合并操作

See merge request dcutoolkit/deeplearing/vllm!318
```
  ca4598a4
- 在v0.11中暂不支持awq的scale和zero合并操作 · 0ba1219a
  yangql authored Dec 24, 2025
  
  0ba1219a
- [Perf] Change default CUDAGraphMode from FULL_AND_PIECEWISE to PIECEWISE · 9ff617d7
  zhuwenwen authored Dec 24, 2025
  
  9ff617d7
- Merge branch 'v-0.11.0-pa' into 'v0.11.0-dev' · fd8764b3
  zhuwenwen authored Dec 24, 2025
```
[PD][Feat]支持fa_pa kvcahe类型模型推理

See merge request dcutoolkit/deeplearing/vllm!317
```
  fd8764b3
- update flash_mla_with_kvcache · fd8e4a76
  zhuwenwen authored Dec 24, 2025
```
set VLLM_USE_PIECEWISE=0
```
  fd8e4a76
- [PD][Feat]支持fa_pa kvcahe类型模型推理 · 2241085d
  Your Name authored Dec 24, 2025
  
  2241085d
23 Dec, 2025 2 commits
- Merge branch 'v0.11.0-dev-12.23-yql' into 'v0.11.0-dev' · 1871c26c
  zhuwenwen authored Dec 23, 2025
```
适配gptq/awq的triton moe算子

See merge request dcutoolkit/deeplearing/vllm!313
```
  1871c26c
- 适配gptq/awq的triton moe算子 · 25e8b412
  yangql authored Dec 23, 2025
  
  25e8b412
22 Dec, 2025 4 commits
- fix weights_not_loaded · 10349d37
  zhuwenwen authored Dec 22, 2025
  
  10349d37
- update deepgemm interface · bcd4dc84
  zhuwenwen authored Dec 22, 2025
  
  bcd4dc84
- update utils.py · 65bb0ebc
  zhuwenwen authored Dec 22, 2025
  
  65bb0ebc
- update weights_not_loaded and flash_mla_with_kvcache · a3f4b5b8
  zhuwenwen authored Dec 22, 2025
  
  a3f4b5b8
20 Dec, 2025 1 commit
- update paged_mqa_logits · d89f7579
  zhuwenwen authored Dec 20, 2025
  
  d89f7579
18 Dec, 2025 2 commits
- Merge branch 'v0.11.0-nccl' into 'v0.11.0-dev' · 30399801
  zhuwenwen authored Dec 18, 2025
```
merge v0.11.0-nccl into v0.11.0-dev

See merge request dcutoolkit/deeplearing/vllm!305
```
  30399801
- [Fix] nccl暂不支持ncclCommWindowDeregister接口，引入nccl.so时报错问题解决 · a14aa44f
  xuxz authored Dec 18, 2025
  
  a14aa44f
17 Dec, 2025 5 commits
- Merge branch 'v0.11.0-dev-yql' into 'v0.11.0-dev' · 39a5084a
  zhuwenwen authored Dec 17, 2025
```
解决gptq的不能开启graph的问题

See merge request dcutoolkit/deeplearing/vllm!304
```
  39a5084a
- 解决gptq的不能开启graph的问题 · 89db76fd
  chenyue3 authored Dec 17, 2025
  
  89db76fd
- Merge branch 'v0.11.0-dev-yql' into 'v0.11.0-dev' · b256f7ac
  zhuwenwen authored Dec 17, 2025
```
修复CompressedTensorsLinearMethod中的w4a16的冲突问题

See merge request dcutoolkit/deeplearing/vllm!302
```
  b256f7ac
- 修复CompressedTensorsLinearMethod中的w4a16的冲突问题 · 37771741
  chenyue3 authored Dec 17, 2025
  
  37771741
- Merge branch 'v0.11.0-dev-moe_tune' into 'v0.11.0-dev' · dfc7e914
  zhuwenwen authored Dec 17, 2025
```
feat: add Marlin W16A16 fused MoE behind VLLM_USE_MARLIN_W16A16_MOE

See merge request dcutoolkit/deeplearing/vllm!300
```
  dfc7e914
16 Dec, 2025 1 commit

feat(moe): add Marlin W16A16 fused MoE behind VLLM_USE_MARLIN_W16A16_MOE · bd70dbb7

laibao authored Dec 16, 2025

新增环境变量 VLLM_USE_MARLIN_W16A16_MOE，用于显式启用 Marlin W16A16 MoE experts
在 fused_moe 中当开关开启且实现可用时，调用 fused_experts_impl_w16a16_marlin
增加 Marlin W16A16 MoE 实现与 reduce 路径

bd70dbb7

12 Dec, 2025 2 commits
- update fp8_mqa_logits and fp8_paged_mqa_logits · 259605da
  zhuwenwen authored Dec 12, 2025
  
  259605da
- replace the fp8_mqa_logits and fp8_paged_mqa_logits interfaces in deepgemm... · a55b8f91
  zhuwenwen authored Dec 12, 2025
```
replace the fp8_mqa_logits and fp8_paged_mqa_logits interfaces in deepgemm with mqa_logits and paged_mqa_logits from lightop
```
  a55b8f91
05 Dec, 2025 4 commits
- update mla interface · 31021d81
  zhuwenwen authored Dec 05, 2025
  
  31021d81
- Merge branch 'v0.11.0-dev-wm-1205' into 'v0.11.0-dev' · f6aa3d19
  zhuwenwen authored Dec 05, 2025
```
去掉无效代码

See merge request dcutoolkit/deeplearing/vllm!285
```
  f6aa3d19
- 去掉无效代码 · 7343379a
  王敏 authored Dec 05, 2025
  
  7343379a
- Merge remote-tracking branch 'origin/v0.11.0-dev' into v0.11.0-dev · 6311e003
  王敏 authored Dec 05, 2025
  
  6311e003
04 Dec, 2025 4 commits
- update MLACommonBaseImpl get_and_maybe_dequant_weights · b8412df6
  zhuwenwen authored Dec 04, 2025
  
  b8412df6
- fix MergedColumnParallelLinear weight_loader · 24962bed
  zhuwenwen authored Dec 04, 2025
  
  24962bed
- Revert "update kv_b_proj_weight" · 7f1d5aff
  zhuwenwen authored Dec 04, 2025
```
This reverts commit 3b121add.
```
  7f1d5aff
- update kv_b_proj_weight · 3b121add
  zhuwenwen authored Dec 04, 2025
  
  3b121add