Commits · 7c8db5e7695e6b9bb5c5d6f41d115b9202fc7fe9 · OpenDAS / vllm_cscc

21 Mar, 2026 3 commits
- 修复get_gcn_arch_name的导入bug · 7c8db5e7
  yangql authored Mar 21, 2026
  
  7c8db5e7
- 关闭sparse_mla的num_head到64/128的pad，以及添加控制fp8_use_mixed_batch模式的环境变量控制，FP8_USE_MI... · c6a45c08
  yangql authored Mar 21, 2026
```
关闭sparse_mla的num_head到64/128的pad，以及添加控制fp8_use_mixed_batch模式的环境变量控制，FP8_USE_MIXED_BATCH，默认为false，为分离模式
```
  c6a45c08
- 增加triton的indexer的kcahche读写操作 · 656944ac
  yangql authored Mar 21, 2026
  
  656944ac
20 Mar, 2026 2 commits
- Merge branch 'v0.15.1-dev_lightop_moe_sum_mul_add' into 'v0.15.1-dev' · 12b5bcb1
  wangmin6 authored Mar 20, 2026
```
fix(moe): 仅在 fused moe_sum+mul+add 开启时透传 shared_output

See merge request dcutoolkit/deeplearing/vllm!520
```
  12b5bcb1
- fix(moe): 仅在 fused moe_sum+mul+add 开启时透传 shared_output · 839dc88e
  laibao authored Mar 20, 2026
  
  839dc88e
19 Mar, 2026 5 commits

Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · 84b9fe55
wangmin6 authored Mar 19, 2026
```
[fix]修复GLM mtp精度问题

See merge request dcutoolkit/deeplearing/vllm!518
```
84b9fe55
[fix]修复GLM mtp精度问题 · 44d4976d
王敏 authored Mar 19, 2026

44d4976d
Merge branch 'gy-015-qwen3py-fused_mrope' into 'v0.15.1-dev' · dfb597c8
wangmin6 authored Mar 19, 2026
```
qwen3.py合入fused_morpe

See merge request dcutoolkit/deeplearing/vllm!516
```
dfb597c8

Merge branch 'v0.15.1-dev_lightop_moe_sum_mul_add' into 'v0.15.1-dev' · fca0956a

wangmin6 authored Mar 19, 2026

feat(moe): 修复 shared_output 透传被覆盖并兼容 torch.compile 启动路径

See merge request dcutoolkit/deeplearing/vllm!517

fca0956a

feat(moe): 修复 shared_output 透传被覆盖并兼容 torch.compile 启动路径 · eb933fe1

laibao authored Mar 19, 2026

移除 forward 中对 experts.use_overlapped/_shared_experts 的状态改写，避免 torch.compile 启动期 shared/non-shared 路径不一致
FusedMoE.forward_impl 仅在 shared_output 为空时计算 shared experts，防止透传值被本地重算覆盖

eb933fe1

18 Mar, 2026 12 commits
- 修改VLLM_USE_FUSED_RMS_ROPE的不同路径 · ef79626d
  guanyu1 authored Mar 18, 2026
  
  ef79626d
- Merge branch 'v0.15.1-dev_yql_3.18' into 'v0.15.1-dev' · 1ea9a3f0
  wangmin6 authored Mar 18, 2026
```
x接入mla_cat算子仅在nmz和kvcache-fp8情况下生效，默认关闭，开启需要export VLLM_USE_CAT_MLA=1

See merge request dcutoolkit/deeplearing/vllm!513
```
  1ea9a3f0
- Merge branch 'v0.15.1-dev-rzc' into 'v0.15.1-dev' · cd8563a4
  wangmin6 authored Mar 18, 2026
```
fix prompt_is_reasoning_end_arr not defined

See merge request dcutoolkit/deeplearing/vllm!515
```
  cd8563a4
- Merge branch 'v0.15.1-dev_lightop_moe_sum_mul_add' into 'v0.15.1-dev' · 8f4471f0
  wangmin6 authored Mar 18, 2026
```
feat(deepseek-moe): 接入 VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD 融合链路

See merge request dcutoolkit/deeplearing/vllm!485
```
  8f4471f0
- _custom_op文件有个if没删除 · c1cd5334
  guanyu1 authored Mar 18, 2026
  
  c1cd5334
- qwen3.py合入fused_morpe · 04d429f6
  guanyu1 authored Mar 18, 2026
  
  04d429f6
- feat(moe): 增加 LightOP moe_sum+mul+add 融合并打通参数透传 · 0639678c
  laibao authored Mar 18, 2026
```
  新增环境变量 VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD 用于控制
  fused sum+mul+add 开关。
  在 DeepseekV2MoE 中增加 fused 路径，预计算 shared_output，并下传 iqis 与 routed_scaling_factor。
  扩展 FusedMoE/SharedFusedMoE 及相关 custom op 接口，统一透传 i_q/i_s/shared_output/routed_scaling_factor。
  同步适配 Triton、Marlin W16A16、SlimQuant W4A8、CompressedTensors W8A8 等实现，支持在内核侧完成 sum+mul+add。
```
  0639678c
- fix prompt_is_reasoning_end_arr not define · 1e7e69d9
  renzhc authored Mar 18, 2026
  
  1e7e69d9
- Merge branch 'v0.15.1-mqa_fp8' into 'v0.15.1-dev' · 7676d0c9
  wangmin6 authored Mar 18, 2026
```
feat:支持mqa的fp8实现

See merge request dcutoolkit/deeplearing/vllm!514
```
  7676d0c9
- feat:支持mqa的fp8实现 · b5323d90
  lixh6 authored Mar 18, 2026
  
  b5323d90
- Merge branch 'v0.15.1-fused_fill_rms_cat' into 'v0.15.1-dev' · 80f0794e
  wangmin6 authored Mar 18, 2026
```
feat:接入VLLM_USE_FUSED_FILL_RMS_CAT优化

See merge request dcutoolkit/deeplearing/vllm!512
```
  80f0794e
- x接入mla_cat算子仅在nmz和kvcache-fp8情况下生效，默认关闭，开启需要export VLLM_USE_CAT_MLA=1 · 3bff7958
  yangql authored Mar 18, 2026
  
  3bff7958
17 Mar, 2026 10 commits
- feat:接入VLLM_USE_FUSED_FILL_RMS_CAT优化 · 6395b73e
  liuchy5 authored Mar 17, 2026
  
  6395b73e
- Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · 7306fe81
  wangmin6 authored Mar 17, 2026
```
[perf]默认使用full graph

See merge request dcutoolkit/deeplearing/vllm!511
```
  7306fe81
- Merge remote-tracking branch 'origin/v0.15.1-dev' into v0.15.1-dev · a0ba4268
  王敏 authored Mar 17, 2026
  
  a0ba4268
- [perf]默认使用full graph · 81077e8d
  王敏 authored Mar 17, 2026
  
  81077e8d
- Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · af0e6d8f
  wangmin6 authored Mar 17, 2026
```
[perf]消除sparse mla build时的拷贝调度空泡

See merge request dcutoolkit/deeplearing/vllm!510
```
  af0e6d8f
- [perf]消除sparse mla build时的拷贝调度空泡 · 46ab154b
  王敏 authored Mar 17, 2026
  
  46ab154b
- Merge branch 'v0.15.1-dev-unified_fix' into 'v0.15.1-dev' · efa6bed2
  wangmin6 authored Mar 17, 2026
```
add fa unified attn 导入判断

See merge request dcutoolkit/deeplearing/vllm!509
```
  efa6bed2
- Merge branch 'v0.15.1-dev-qwen2audio' into 'v0.15.1-dev' · 79052e70
  wangmin6 authored Mar 17, 2026
```
invoke flash_attn in the Qwen2AudioEncoder (transformers)

See merge request dcutoolkit/deeplearing/vllm!508
```
  79052e70
- add fa unified attn 导入判断 · 3c900b76
  fanwl authored Mar 17, 2026
  
  3c900b76
- invoke flash_attn in the Qwen2AudioEncoder (transformers) · 3a45ab97
  caihl authored Mar 17, 2026
  
  3a45ab97
16 Mar, 2026 8 commits
- Merge branch 'v0.15.1-blockshape' into 'v0.15.1-dev' · 9ce8b1a3
  wangmin6 authored Mar 16, 2026
```
fix: resolve block_shape conflicts between DeepEP MoE and non-DeepEP quantization

See merge request dcutoolkit/deeplearing/vllm!507
```
  9ce8b1a3
- fix: resolve block_shape conflicts between DeepEP MoE and non-DeepEP quantization · f9a04c97
  chenhw5 authored Mar 16, 2026
  
  f9a04c97
- Merge branch 'v0.15.1-dev-pd' into 'v0.15.1-dev' · 22890a8e
  zhangqha authored Mar 16, 2026
```
Merge v0.15.1-dev-pd into v0.15.1-dev

See merge request dcutoolkit/deeplearing/vllm!506
```
  22890a8e
- [PD]添加VLLM_PP_LAYER_PARTITION_D控制d层切分 · be81eaf6
  xuxz authored Mar 16, 2026
  
  be81eaf6
- Merge branch 'v0.15.1-dev-qwen3.5' into 'v0.15.1-dev' · b5ca585e
  zhangqha authored Mar 16, 2026
```
Fix Qwen3/Qwen3.5 Reasoning Parser  (#34779)

See merge request dcutoolkit/deeplearing/vllm!504
```
  b5ca585e
- [PD][Bugfix]修复0151pd分离d卡住问题 · 0c5e5f88
  xuxz authored Mar 16, 2026
  
  0c5e5f88
- [PD][Fixbug]修复CachedRequestData结构体升级找不到resumed_req_ids变量 · 2ce7c096
  xuxz authored Mar 16, 2026
  
  2ce7c096
- Merge branch 'v0.15.1-dev_GLM4.7_moe_call_RQ' into 'v0.15.1-dev' · 05eca476
  wangmin6 authored Mar 16, 2026
```
perf: GLM4.7增加MOE调用rmsQuant, fix: 修掉fused_moe向后传递None导致的报错

See merge request dcutoolkit/deeplearing/vllm!505
```
  05eca476