Commits · 1e2fe58f638d4678835242fffc307f6839e0be47 · OpenDAS / vllm_cscc

11 Feb, 2026 1 commit

feat(moe): 补齐 v0.15 中 Marlin W16A16 MoE 端到端接入 · 1e2fe58f

laibao authored Feb 11, 2026

参考并移植 011/vllm 的关键提交逻辑
新增 VLLM_USE_MOE_W16A16_TRITON 开关，并接入基于 lightop 的运行时能力探测与启用结果缓存。
在权重加载后对 w13 与 w2 执行 W16A16 Marlin 预打包。
W16A16 Marlin 启用时保留 monolithic 执行路径，并在 fused_experts_impl 中增加 packed 权重 fast-path。
保持 Marlin 或 lightop 不可用时的回退行为不变。

1e2fe58f

10 Feb, 2026 2 commits
- fix qwen3-next nn layout · 8cdc3a30
  zhuwenwen authored Feb 10, 2026
  
  8cdc3a30
- fix qwen3-next run error · 440222e9
  zhuwenwen authored Feb 10, 2026
  
  440222e9
09 Feb, 2026 5 commits
- fix indentation · b8f555af
  zhuwenwen authored Feb 09, 2026
  
  b8f555af
- pd separation uses default scheduling and set VLLM_USE_PD_SPLIT=1 · a4bcf959
  zhuwenwen authored Feb 09, 2026
  
  a4bcf959
- Merge branch 'v0.15.1-dev-wm-mtp' into 'v0.15.1-dev' · ff8b5e11
  zhuwenwen authored Feb 09, 2026
```
[feat]宽松mtp支持temp,top-p等参数设置

See merge request dcutoolkit/deeplearing/vllm!420
```
  ff8b5e11
- Merge branch 'v0.15.1-dev-splitpd' into 'v0.15.1-dev' · be4dea75
  zhuwenwen authored Feb 09, 2026
```
[feat]支持prefill和decode调度分离

See merge request dcutoolkit/deeplearing/vllm!419
```
  be4dea75
- Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · 65f43084
  zhuwenwen authored Feb 09, 2026
```
适配w8a8 deepep,接入lightop版deepgemm

See merge request dcutoolkit/deeplearing/vllm!418
```
  65f43084
08 Feb, 2026 4 commits
- [feat]宽松mtp支持temp,top-p等参数设置 · 78e20661
  王敏 authored Feb 08, 2026
  
  78e20661
- [feat]支持prefill和decode调度分离 · 9ef6f50a
  王敏 authored Feb 08, 2026
  
  9ef6f50a
- 去掉调试代码 · d08e3d52
  王敏 authored Feb 08, 2026
  
  d08e3d52
- [feat]适配w8a8 deepep,接入lightop版deepgemm · 289f98c6
  王敏 authored Feb 08, 2026
  
  289f98c6
06 Feb, 2026 13 commits
- perf(qwen3): 融合 q/k RMSNorm + RoPE · e807ec39
  zhuwenwen authored Feb 06, 2026
```
set fp8_e4m3 only supported on nmz and support q&kvcache fp8
set VLLM_PCIE_USE_CUSTOM_ALLREDUCE=1
```
  e807ec39
- Merge branch 'v0.15.1-dev-wm' into 'v0.15.1-dev' · cf4be8ff
  zhuwenwen authored Feb 06, 2026
```
[feat]支持宽松mtp

See merge request dcutoolkit/deeplearing/vllm!414
```
  cf4be8ff
- 删除重复代码 · aec90b84
  王敏 authored Feb 06, 2026
  
  aec90b84
- [feat]支持宽松mtp · ce1d4073
  王敏 authored Feb 06, 2026
  
  ce1d4073
- Merge remote-tracking branch 'origin/v0.15.1-dev' into v0.15.1-dev · 6af85e40
  王敏 authored Feb 06, 2026
```
# Conflicts:
#	vllm/model_executor/layers/fused_moe/modular_kernel.py
```
  6af85e40
- fix nn_moe run error · 4a4fb3de
  zhuwenwen authored Feb 06, 2026
  
  4a4fb3de
- Merge remote-tracking branch 'origin/v0.15.1-dev' into v0.15.1-dev · c80f5968
  王敏 authored Feb 06, 2026
```
# Conflicts:
#	vllm/model_executor/layers/fused_moe/config.py
#	vllm/model_executor/layers/fused_moe/layer.py
#	vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_marlin.py
```
  c80f5968
- [fix]修复nn_moe启动报错 · 74306deb
  王敏 authored Feb 06, 2026
  
  74306deb
- [feat]W8A8适配deepseek以及mtp · 530e785f
  zhuwenwen authored Feb 06, 2026
  
  530e785f
- fix indentation of self.quant_method · 3c35c466
  zhuwenwen authored Feb 06, 2026
  
  3c35c466
- [feat]W8A8适配deepseek以及mtp · ee58c1bf
  王敏 authored Feb 06, 2026
  
  ee58c1bf
- sync v0.15.1 (models) · df704163
  zhuwenwen authored Feb 06, 2026
  
  df704163
- 修复awq/w4a16的triton支持，以及fuse_moe的接口对齐，以及awq_moe_marlin推理的相关bug，并解决awq/w4a16的精度问题 · d7db129a
  zhuwenwen authored Feb 06, 2026
  
  d7db129a
05 Feb, 2026 5 commits
- sync v0.15.1 (fused_moe) · bc387d5a
  zhuwenwen authored Feb 05, 2026
  
  bc387d5a
- sync v0.15.1(ex fused_moe&models) · 899a2db4
  zhuwenwen authored Feb 05, 2026
  
  899a2db4
- sync v0.15.1(tests) · 78c1f9e5
  zhuwenwen authored Feb 05, 2026
  
  78c1f9e5
- sync v0.15.1 (ex tests&vllm) · 86a65417
  zhuwenwen authored Feb 05, 2026
  
  86a65417
- Merge tag 'v0.15.1' into v0.15.1-dev · 45a060d6
  zhuwenwen authored Feb 05, 2026
  
  45a060d6
04 Feb, 2026 10 commits
- fix load error · 99fc9fc3
  zhuwenwen authored Feb 04, 2026
  
  99fc9fc3
- [perf] use optimized topk_softmax + renormalize (lightop) · e9e95d0f
  zhuwenwen authored Feb 04, 2026
  
  e9e95d0f
- [perf] update op.moe_fused_gate · 06e16a27
  zhuwenwen authored Feb 04, 2026
  
  06e16a27
- update VLLM_USE_OPT_RESHAPE_AND_CACHE to support bf16 and qwen3-dense · 263f45a4
  zhuwenwen authored Feb 04, 2026
  
  263f45a4
- [perf] add VLLM_USE_FLASH_ATTN_FP8 to use fa fp8 attention · ac28ab22
  zhuwenwen authored Feb 04, 2026
  
  ac28ab22
- [perf] add VLLM_USE_FUSED_FILL_RMS_CAT to use lightop for dpsk mtp fill + rms*2 + cat · 5fe03549
  zhuwenwen authored Feb 04, 2026
  
  5fe03549
- skip SPLIT_K · b8c7ba0a
  zhuwenwen authored Feb 04, 2026
  
  b8c7ba0a
- remove remove VLLM_USE_OPT_MOE_SUM · 2703e2e9
  zhuwenwen authored Feb 04, 2026
  
  2703e2e9
- update mla interface · 1cb851b0
  zhuwenwen authored Feb 04, 2026
  
  1cb851b0
- skip AiterInt8ScaledMMLinearKernel · 4599e05f
  zhuwenwen authored Feb 04, 2026
  
  4599e05f