Commits · 1663f34ccb696080ae6e4c596355d380ee2d30ba · OpenDAS / vllm_cscc

25 Dec, 2025 3 commits
- Merge branch 'v0.9.2-dev_mtp_sampler' into 'v0.9.2-dev' · 1663f34c
  zhuwenwen authored Dec 25, 2025
```
V1 采样器：新增 reduced top-k/top-p 采样路径

See merge request dcutoolkit/deeplearing/vllm!321
```
  1663f34c
- Merge branch 'v0.9.2-dev-update' into 'v0.9.2-dev' · 66b3ded6
  zhuwenwen authored Dec 25, 2025
```
修复w8a8 triton config 择优位运算可能引发torch compile 编译错误，修复smquant w8a8 权重后处理位置

See merge request dcutoolkit/deeplearing/vllm!320
```
  66b3ded6
- 修复w8a8 triton config 择优位运算可能引发torch compile 编译错误，修复smquant w8a8 权重后处理位置 · 16d49763
  gaoqiong authored Dec 25, 2025
  
  16d49763
24 Dec, 2025 2 commits

V1 采样器：新增 reduced top-k/top-p 采样路径 · 9b1e03d4

laibao authored Dec 24, 2025

新增环境变量 VLLM_V1_USE_REDUCED_TOPK_TOPP_SAMPLER 用于开关控制
扩展 SamplingMetadata，增加 max_top_k 与 has_any_no_top_k
在 InputBatch 侧计算 top-k 的主机端汇总信息，避免 device 同步
更新 Sampler/TopKTopPSampler 传递并使用新参数以启用优化采样

9b1e03d4

Merge branch 'v0.9.2-dev-pd-all' into 'v0.9.2-dev' · 7d5faa43

zhuwenwen authored Dec 24, 2025

mla模型P、D单实例单机的任意切分方式（满足D的tp>=P的tp)使用

See merge request dcutoolkit/deeplearing/vllm!315

7d5faa43

23 Dec, 2025 5 commits
- mla模型P、D单实例单机的任意切分方式（满足D的tp>=P的tp)使用 · 4f51931d
  xiabo authored Dec 23, 2025
  
  4f51931d
- update fuse_fill_rms_x2_concat · bac269d7
  zhuwenwen authored Dec 23, 2025
  
  bac269d7
- set VLLM_CUSTOM_CACHE=1 · bdae1255
  zhuwenwen authored Dec 23, 2025
  
  bdae1255
- Merge branch 'v0.9.2-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.9.2-dev · 5d423ddc
  zhuwenwen authored Dec 23, 2025
  
  5d423ddc
- add VLLM_USE_FUSED_FILL_RMS_CAT for dpsk mtp fill + rms*2 + cat · e80dcabe
  zhuwenwen authored Dec 23, 2025
```
update VLLM_USE_LIGHTOP_RMS_ROPE_CONCAT impl
```
  e80dcabe
22 Dec, 2025 3 commits

Merge branch 'v0.9.2-dev-pd-bwandnmz' into 'v0.9.2-dev' · 3c117f20
zhuwenwen authored Dec 22, 2025
```
支持pd分离:P做跨机pp2tp8，D做单机的tp8.

See merge request dcutoolkit/deeplearing/vllm!311
```
3c117f20
增肌pd分离，P/D单实例单机的所有对称切分。 · bdeb3a85
xiabo authored Dec 22, 2025

bdeb3a85

支持pd分离:P做跨机pp2tp8，D做单机的tp8. · 2af12d7a

xiabo authored Dec 22, 2025

使用方式P在connector的参数添加："enable_asymmetric_p2p":true,"remote_tp_size":8,"remote_pp_size":1 这3个参数。例：
"kv_connector_extra_config":{"enable_asymmetric_p2p":true,"remote_tp_size":8,"remote_pp_size":1,"proxy_ip":"10.0.1.1","proxy_port":"30001","http_port":"20001"}

2af12d7a

20 Dec, 2025 1 commit
- update qwen3_moe.py · 4f9947e6
  zhuwenwen authored Dec 20, 2025
  
  4f9947e6
19 Dec, 2025 2 commits
- update flash_mla_with_kvcache · 1e622f10
  zhuwenwen authored Dec 19, 2025
  
  1e622f10
- update k_cache · 31a3beb5
  zhuwenwen authored Dec 19, 2025
  
  31a3beb5
18 Dec, 2025 5 commits
- update self._q_scale · ee93cb70
  zhuwenwen authored Dec 18, 2025
  
  ee93cb70
- Merge branch 'v0.9.2-dev-custom' into 'v0.9.2-dev' · 06106338
  zhuwenwen authored Dec 18, 2025
```
解决custom cudagraph模式需要拷贝的问题，这个需要配合dtk进行使用。

See merge request dcutoolkit/deeplearing/vllm!306
```
  06106338
- 解决custom cudagraph模式需要拷贝的问题，这个需要配合dtk进行使用。 · 651925e8
  xiabo authored Dec 18, 2025
```
vllm：export VLLM_CUSTOM_CACHE=1
dtk：export HIP_KERNEL_EVENT_SYSTENFENCE=1
```
  651925e8
- set VLLM_REJECT_SAMPLE_OPT=1 · afdabfbe
  zhuwenwen authored Dec 18, 2025
  
  afdabfbe
- update get_mla_decoding_metadata_dense_fp8 interface and _k_scale&_v_scale · 1acf2d7a
  zhuwenwen authored Dec 18, 2025
  
  1acf2d7a
17 Dec, 2025 5 commits
- update flash_mla_with_kvcache_fp8 interface and k_cache · 77210184
  zhuwenwen authored Dec 17, 2025
  
  77210184
- Merge branch 'v0.9.2-dev-nmz' into v0.9.2-dev · 347fc09c
  zhuwenwen authored Dec 17, 2025
  
  347fc09c
- maintain consistency between k_cache type and q · 3e191138
  zhuwenwen authored Dec 17, 2025
  
  3e191138
- convert q to float8_e4m3fn · da85feb7
  zhuwenwen authored Dec 17, 2025
  
  da85feb7
- remove fuse_rmsnorm_rope_quant_gfx938 · 99981972
  zhuwenwen authored Dec 17, 2025
  
  99981972
16 Dec, 2025 4 commits

add fuse_rmsnorm_rope_quant_gfx938 to support use fp8_e4m3 mla · 0ce3b670
zhuwenwen authored Dec 16, 2025

0ce3b670

Merge branch 'v0.9.2-dev_mtp_sampler' into 'v0.9.2-dev' · ffcc47b7

zhuwenwen authored Dec 16, 2025

Marlin W16A16 MoE: 清理未用量化接口与辅助代码,合入算子优化

See merge request dcutoolkit/deeplearing/vllm!298

ffcc47b7

add VLLM_USE_FLASH_MLA_FP8 to use mla fp8 · a9f57e73
zhuwenwen authored Dec 16, 2025
```
set VLLM_USE_LIGHTOP_RMS_ROPE_CONCAT=1
```
a9f57e73

Marlin W16A16 MoE: 清理未用量化接口与辅助代码 · 80e8f551

laibao authored Dec 16, 2025

移除 fuse_moe_w16a16_marlin.py 中未被调用的量化准备逻辑与相关导入
精简 fused_experts_impl_w16a16_marlin 的未用量化参数，并同步更新 fused_moe.py 调用点
清理 marlin_quant.py 中未被 vLLM 主路径使用的函数与 __main__ 调试入口，仅保留 W16A16 权重打包所需实现
添加MOE_SUM_MUL_ADD、MOE_SUM优化

80e8f551

15 Dec, 2025 2 commits
- set VLLM_USE_LIGHTOP_FILL_MOE_ALIGN=0 when use dpsk-v3 non-quantitative · 8548cf87
  zhuwenwen authored Dec 15, 2025
  
  8548cf87
- add bw qwen3-480B tp8 moe configs · a1314cac
  zhuwenwen authored Dec 15, 2025
  
  a1314cac
14 Dec, 2025 2 commits

Merge branch 'v0.9.2-dev_mtp_sampler' into 'v0.9.2-dev' · c441dda9

zhuwenwen authored Dec 14, 2025

feat: 为Qwen3 MoE添加RMSNorm和RoPE融合优化与qwen3-480B tp8 moe配置文件

See merge request dcutoolkit/deeplearing/vllm!295

c441dda9

feat: 为Qwen3 MoE添加RMSNorm和RoPE融合优化与qwen3-480B tp8 moe配置文件 · 6a5443d4

laibao authored Dec 14, 2025

- 新增rms_rotary_embedding_fuse自定义操作
- 添加内核配置文件E=160,N=320
- 通过VLLM_USE_FUSED_RMS_ROPE环境变量控制融合路径

6a5443d4

12 Dec, 2025 1 commit
- Merge branch 'v0.9.2-dev_mtp_sampler' into 'v0.9.2-dev' · 3ab9494d
  zhuwenwen authored Dec 12, 2025
```
feat: add Marlin W16A16 MoE fast path

See merge request dcutoolkit/deeplearing/vllm!294
```
  3ab9494d
11 Dec, 2025 4 commits
- feat: add Marlin W16A16 MoE fast path · 4f575f17
  laibao authored Dec 11, 2025
```
- 添加环境变量开关 VLLM_USE_MARLIN_W16A16_MOE（及 fused RMS+RoPE 标志位）
- 增加 W16A16 Marlin 权重重排/缓存逻辑
- 集成 lightop 的 W16A16 MoE fast path，复用打包缓存避免重复 pack 并在 GPU 卸载原布局
```
  4f575f17
- add qwen3-480b tp16 nn moe json · dac87ca7
  zhuwenwen authored Dec 11, 2025
  
  dac87ca7
- Merge branch 'v0.9.2-dev-fix-DS-unquant-rebase' into 'v0.9.2-dev' · bcbf9572
  zhuwenwen authored Dec 11, 2025
```
fix: 细化量化模型开启融合场景

See merge request dcutoolkit/deeplearing/vllm!292
```
  bcbf9572
- fix: 细化量化模型开启融合场景 · e445bd91
  wujl5 authored Dec 11, 2025
  
  e445bd91
09 Dec, 2025 1 commit
- update USE_FUSED_RMS_QUANT=1 and USE_FUSED_SILU_MUL_QUANT=1 for dpsk-v3 quantitative models · c0e0e7cd
  zhuwenwen authored Dec 09, 2025
  
  c0e0e7cd