Commits · v0.11.0-dev_tc_opt · OpenDAS / vllm_cscc

06 Feb, 2026 4 commits

fix(qwen3): 在 fused RMS+RoPE 算子内支持非连续输入 · b65d0556

chenyue3 authored Feb 06, 2026

  - 在 C++ 算子中移除 query/key/residual 的 contiguous 强校验
  - 对非连续输入使用工作张量执行计算（优化路径与 fallback 路径统一）
  - 计算完成后将结果 copy_ 回原张量，保持 in-place 语义
  - 移除 qwen3 / qwen3_moe Python 前向中的 q、k.contiguous() 预处理

b65d0556

chore(bench): 删除 tc_opt benchmark 解析脚本 · 76687ddd
chenyue3 authored Feb 06, 2026

76687ddd

feat(qwen3): 支持 rot_dim=64 的 fused RMS+RoPE 优化路径 · 9bf8406f

chenyue3 authored Feb 06, 2026

launch_opt_rms_rope 增加 rot_dim=64/128 分发路径
放宽 supports_qwen3_opt 条件，允许 rot_dim=64 进入优化分支
qwen3 / qwen3_moe 将 q_bias、k_bias 参数统一为 q_residual、k_residual
qwen3_moe 的自定义 op 注册增加重复注册保护"`

9bf8406f

• feat(qwen3)：新增 vLLM 内置 RMS+RoPE 融合算子，并支持 LightOp 后端切换 · 588538f5

laibao authored Feb 06, 2026

  - 在 vLLM _C 扩展中新增 rms_rotary_embedding_fuse（注册 op + CUDA kernel），减少对 LightOp 的硬依赖
  - 新增环境变量 VLLM_FUSED_RMS_ROPE_BACKEND=auto|vllm|lightop，auto 优先走 vLLM，缺失时回退 LightOp
  - 更新 Qwen3 / Qwen3-MoE 的 fused 路径按后端选择执行
  - 补充 tc_opt benchmark 结果解析脚本 benchmarks/tc_opt/test/parse_bench_results.py

588538f5

03 Feb, 2026 2 commits
- Merge branch 'v0.11.0-dev-lxh-channelwise' into 'v0.11.0-dev' · 70506d98
  zhuwenwen authored Feb 03, 2026
```
V0.11.0 dev lxh channelwise

See merge request dcutoolkit/deeplearing/vllm!401
```
  70506d98
- V0.11.0 dev lxh channelwise · 9b42963d
  wanglong3 authored Feb 03, 2026
  
  9b42963d
29 Jan, 2026 1 commit
- add prepare_so_files to prepare so · c5980399
  zhuwenwen authored Jan 29, 2026
  
  c5980399
28 Jan, 2026 3 commits

Merge branch 'v0.11.0-dev_tc_opt' into 'v0.11.0-dev' · 0bf89b0c

zhuwenwen authored Jan 28, 2026

feat(moe)：新增 VLLM_USE_MOE_W16A16_TRTION 强制 Triton MoE

See merge request dcutoolkit/deeplearing/vllm!397

0bf89b0c

feat(moe)：新增 VLLM_USE_MOE_W16A16_TRTION 强制 Triton MoE · 57eb1192

laibao authored Jan 28, 2026

增加环境变量开关，禁用 Marlin W16A16 MoE 路径
强制 Triton 且权重已是 Marlin packed 时给出明确报错
Marlin 支持探测改为 best-effort（不再依赖 VLLM_USE_LIGHTOP）

57eb1192

release rc2 · 0946f6c9
zhuwenwen authored Jan 28, 2026

0946f6c9

27 Jan, 2026 5 commits
- Merge branch 'v0.11.0-dev-Q' into 'v0.11.0-dev' · a59531f8
  zhuwenwen authored Jan 27, 2026
```
V0.11.0 dev q

See merge request dcutoolkit/deeplearing/vllm!392
```
  a59531f8
- Q支持fp8 · 1fb40bd3
  xiabo authored Jan 27, 2026
  
  1fb40bd3
- Q支持fp8 · 1a3ed91b
  xiabo authored Jan 27, 2026
  
  1a3ed91b
- Merge branch 'v0.11.0-dev_fth' into 'v0.11.0-dev' · 0289bb5b
  zhuwenwen authored Jan 27, 2026
```
fused_moe_fp8接入lmslim

See merge request dcutoolkit/deeplearing/vllm!389
```
  0289bb5b
- fused_moe_fp8接入lmslim · cf40e82a
  SAC_fanth authored Jan 27, 2026
  
  cf40e82a
26 Jan, 2026 4 commits
- Merge branch 'v0.11.0-dev' into 'v0.11.0-dev' · 5f5ecd20
  zhuwenwen authored Jan 26, 2026
```
[MiniMax-M2.1] 新增minimax-m2.1工具调用

See merge request dcutoolkit/deeplearing/vllm!387
```
  5f5ecd20
- Update MiniMaxM2ReasoningParser · 54f62b3c
  chenych authored Jan 26, 2026
  
  54f62b3c
- Add minimax-m2.1 tool call and resoning parase in v0.11.0 · 44181448
  chenych authored Jan 26, 2026
  
  44181448
- update version of rc2 test · 8348926e
  zhuwenwen authored Jan 26, 2026
  
  8348926e
23 Jan, 2026 4 commits
- fix qwen3-next nn layout · 6cd43ae5
  zhuwenwen authored Jan 23, 2026
  
  6cd43ae5
- add fp8 support on bw · 88411543
  zhuwenwen authored Jan 23, 2026
  
  88411543
- only support fp8 e4m3 on nmz · 625b0b5e
  zhuwenwen authored Jan 23, 2026
  
  625b0b5e
- Merge branch 'v0.11.0-dev-wm-0122' into 'v0.11.0-dev' · a3488ab0
  zhuwenwen authored Jan 23, 2026
```
[fix]解决dp+graph+naive all2all dispatch时的维度不匹配问题

See merge request dcutoolkit/deeplearing/vllm!384
```
  a3488ab0
22 Jan, 2026 1 commit
- [fix]解决dp+graph+naive all2all dispatch时的维度不匹配问题 · d2c20c55
  王敏 authored Jan 22, 2026
  
  d2c20c55
21 Jan, 2026 11 commits
- perf(qwen3): 融合 q/k RMSNorm + RoPE · 3cd3d1e6
  zhuwenwen authored Jan 21, 2026
```
新增 VLLM_USE_FUSED_RMS_ROPE 分支，走 fused 路径
注册 torch.ops.vllm.rms_rotary_embedding_fuse（direct_register_custom_op）
cos_sin_cache 自动转 device/dtype 并缓存，避免每次重复拷贝
```
  3cd3d1e6
- update VLLM_USE_FUSED_RMS_ROPE=0 (default) · 80a6b121
  zhuwenwen authored Jan 21, 2026
```
for qwen3, VLLM_USE_FUSED_RMS_ROPE=1 (default)
```
  80a6b121
- Merge branch '011_blaslt_fp8_channelwise' into 'v0.11.0-dev' · ba73bd6f
  zhuwenwen authored Jan 21, 2026
```
feat: Supprot fp8 channle-wise matmul.

See merge request dcutoolkit/deeplearing/vllm!380
```
  ba73bd6f
- feat: Supprot fp8 channle-wise matmul. · 94c8a620
  wanglong3 authored Jan 21, 2026
  
  94c8a620
- Merge branch 'v0.11.0-dev-kvscale' into 'v0.11.0-dev' · 4dcfd0ae
  zhuwenwen authored Jan 21, 2026
```
V0.11.0 dev kvscale

See merge request dcutoolkit/deeplearing/vllm!378
```
  4dcfd0ae
- Merge branch 'v0.11.0-dev-hipblaslt-blockwise-fp8' into 'v0.11.0-dev' · ebf3d1d8
  zhuwenwen authored Jan 21, 2026
```
feat: support fp8-blockwise matmul impl.

See merge request dcutoolkit/deeplearing/vllm!377
```
  ebf3d1d8
- 1、kvcache支持fp8的scale · c77bc77c
  xiabo authored Jan 21, 2026
  
  c77bc77c
- feat: support fp8-blockwise matmul impl. · 96590097
  lixh6 authored Jan 20, 2026
  
  96590097
- 1、kvcache支持fp8的scale · 3d01cce7
  xiabo authored Jan 21, 2026
  
  3d01cce7
- remove unused code · 43155293
  zhuwenwen authored Jan 21, 2026
  
  43155293
- Merge branch 'v0.11.0-dev_marlin_opt' into 'v0.11.0-dev' · 6dcb89d2
  zhuwenwen authored Jan 21, 2026
```
feat(moe/marlin): 移除 VLLM_USE_MARLIN_W16A16_MOE，改为基于 lightop 探测自动启用并一次性缓存决策

See merge request dcutoolkit/deeplearing/vllm!376
```
  6dcb89d2
20 Jan, 2026 5 commits
- • feat(moe/marlin): 移除 VLLM_USE_MARLIN_W16A16_MOE，改为基于 lightop 探测自动启用并一次性缓存决策 · 714a7573
  laibao authored Jan 20, 2026
```
  - 使用 get_moe_cuda_marlin_config_w16a16(status) 判断 W16A16 Marlin MoE 是否可用
  - 在 FusedMoE 初始化阶段计算并缓存 _marlin_w16a16_moe_enabled，满足条件时强制 use_nn_moe=False
  - 权重加载后按缓存结果进行一次性 Marlin pack；运行时按 packed 标记走 Marlin fast path
  - 删除 envs.py 中 VLLM_USE_MARLIN_W16A16_MOE 环境变量定义与解析逻辑
```
  714a7573
- update pt_weights_iterator · 145b4eac
  zhuwenwen authored Jan 20, 2026
  
  145b4eac
- Merge branch 'v0.11.0-dev-wm-0120' into 'v0.11.0-dev' · 9bc81d6d
  zhuwenwen authored Jan 20, 2026
```
[fix]解决glm4 moe + mtp精度异常

See merge request dcutoolkit/deeplearing/vllm!374
```
  9bc81d6d
- Merge remote-tracking branch 'origin/v0.11.0-dev' into v0.11.0-dev · 0da696a7
  王敏 authored Jan 20, 2026
  
  0da696a7
- [fix]解决glm4 moe + mtp精度异常 · 82c0bf76
  王敏 authored Jan 20, 2026
  
  82c0bf76