Commits · b65d055687b4f779ec7fa689b6057b9e0d30aca0 · OpenDAS / vllm_cscc

06 Feb, 2026 3 commits

fix(qwen3): 在 fused RMS+RoPE 算子内支持非连续输入 · b65d0556

chenyue3 authored Feb 06, 2026

  - 在 C++ 算子中移除 query/key/residual 的 contiguous 强校验
  - 对非连续输入使用工作张量执行计算（优化路径与 fallback 路径统一）
  - 计算完成后将结果 copy_ 回原张量，保持 in-place 语义
  - 移除 qwen3 / qwen3_moe Python 前向中的 q、k.contiguous() 预处理

b65d0556

feat(qwen3): 支持 rot_dim=64 的 fused RMS+RoPE 优化路径 · 9bf8406f

chenyue3 authored Feb 06, 2026

launch_opt_rms_rope 增加 rot_dim=64/128 分发路径
放宽 supports_qwen3_opt 条件，允许 rot_dim=64 进入优化分支
qwen3 / qwen3_moe 将 q_bias、k_bias 参数统一为 q_residual、k_residual
qwen3_moe 的自定义 op 注册增加重复注册保护"`

9bf8406f

• feat(qwen3)：新增 vLLM 内置 RMS+RoPE 融合算子，并支持 LightOp 后端切换 · 588538f5

laibao authored Feb 06, 2026

  - 在 vLLM _C 扩展中新增 rms_rotary_embedding_fuse（注册 op + CUDA kernel），减少对 LightOp 的硬依赖
  - 新增环境变量 VLLM_FUSED_RMS_ROPE_BACKEND=auto|vllm|lightop，auto 优先走 vLLM，缺失时回退 LightOp
  - 更新 Qwen3 / Qwen3-MoE 的 fused 路径按后端选择执行
  - 补充 tc_opt benchmark 结果解析脚本 benchmarks/tc_opt/test/parse_bench_results.py

588538f5

21 Jan, 2026 1 commit

perf(qwen3): 融合 q/k RMSNorm + RoPE · 3cd3d1e6

zhuwenwen authored Jan 21, 2026

新增 VLLM_USE_FUSED_RMS_ROPE 分支，走 fused 路径
注册 torch.ops.vllm.rms_rotary_embedding_fuse（direct_register_custom_op）
cos_sin_cache 自动转 device/dtype 并缓存，避免每次重复拷贝

3cd3d1e6

20 Nov, 2025 1 commit
- add qwen3-30B tp2 tn moe json · 3fcdea26
  zhuwenwen authored Nov 20, 2025
```
add VLLM_USE_PP_SYNC to use pp sync
update qwen3 of rmsnorm
```
  3fcdea26
21 Sep, 2025 1 commit
- [V0 Deprecation] Remove V0 sampling metadata (#25345) · 1c3ffdbe
  Woosuk Kwon authored Sep 21, 2025
```
Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai>
```
  1c3ffdbe
11 Sep, 2025 1 commit
- remove unused code · a053add9
  zhuwenwen authored Sep 11, 2025
  
  a053add9
26 Aug, 2025 1 commit
- [mypy] Fix incorrect type hint for EAGLE3 support (#23617) · 7d67a9d9
  Cyrus Leung authored Aug 26, 2025
```
Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
```
  7d67a9d9
12 Aug, 2025 1 commit
- Add: `SupportsEagle3` interface for explicit EAGLE3 support (#22642) · 5a4b4b37
  Rahul Tuli authored Aug 12, 2025
```
Signed-off-by: Rahul Tuli <rtuli@redhat.com>
```
  5a4b4b37
07 Aug, 2025 1 commit
- [Qwen3] Enable dual-chunk-attention support for Qwen3 models. (#21924) · 7377131a
  Tao He authored Aug 07, 2025
```
Signed-off-by: Tao He <linzhu.ht@alibaba-inc.com>
```
  7377131a
02 Aug, 2025 1 commit
- [Speculators][Speculative Decoding] Add Qwen Eagle3 Support (#21835) · 9f9c38c3
  Dipika Sikka authored Aug 01, 2025
```
Signed-off-by: Dipika Sikka <dipikasikka1@gmail.com>
```
  9f9c38c3
18 Jul, 2025 1 commit
- [Model] Re-add the implicit conversion feature for as_seq_cls_model (#21103) · ca4eb82b
  wang.yuqi authored Jul 18, 2025
```
Signed-off-by: wang.yuqi <noooop@126.com>
```
  ca4eb82b
12 Jul, 2025 1 commit
- remove qk contiguous · e34d3444
  zhuwenwen authored Jul 12, 2025
  
  e34d3444
11 Jul, 2025 1 commit
- add qk contiguous · bcf6be4c
  zhuwenwen authored Jul 11, 2025
  
  bcf6be4c
10 Jul, 2025 1 commit
- add apex rmsnorm · 3e0a595d
  zhuwenwen authored Jul 10, 2025
  
  3e0a595d
04 Jul, 2025 1 commit
- [Model][3/N] Automatic conversion of CrossEncoding model (#20168) · 2e26f915
  wang.yuqi authored Jul 04, 2025
```
Signed-off-by: wang.yuqi <noooop@126.com>
```
  2e26f915
27 Jun, 2025 1 commit
- [Model][1/N] Automatic conversion of CrossEncoding model (#20012) · cd4cfee6
  wang.yuqi authored Jun 27, 2025
```
Signed-off-by: wang.yuqi <noooop@126.com>
```
  cd4cfee6
19 Jun, 2025 1 commit

Support embedding models in V1 (#16188) · 799397ee

Maximilien de Bayser authored Jun 19, 2025


Signed-off-by: Max de Bayser <mbayser@br.ibm.com>
Signed-off-by: Max de Bayser <maxdebayser@gmail.com>
Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com>
Co-authored-by: 22quinn <33176974+22quinn@users.noreply.github.com>

799397ee

13 Jun, 2025 1 commit
- [New Model]: Support Qwen3 Embedding & Reranker · 9bcbaafc
  zhuwenwen authored Jun 13, 2025
  
  9bcbaafc
11 Jun, 2025 1 commit
- [New Model]: Support Qwen3 Embedding & Reranker (#19260) · 3952731e
  wang.yuqi authored Jun 11, 2025
  
  3952731e
03 Jun, 2025 1 commit
- [Misc] Add SPDX-FileCopyrightText (#19100) · 02f0c7b2
  Simon Mo authored Jun 03, 2025
```
Signed-off-by: simon-mo <simon.mo@hey.com>
```
  02f0c7b2
15 May, 2025 1 commit
- Update deprecated type hinting in `models` (#18132) · 26d04193
  Harry Mellor authored May 15, 2025
```
Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
```
  26d04193
07 May, 2025 1 commit
- [Kernel] Use fused rmsnorm for some models like qwen3 series (#17735) · f80ae5bd
  Wanrui Dai authored May 07, 2025
```
Signed-off-by: evian <eviantai@u.nus.edu>
Co-authored-by: evian <eviantai@u.nus.edu>
```
  f80ae5bd
24 Apr, 2025 1 commit
- [Chore] Remove Sampler from Model Code (#17084) · b411418f
  Woosuk Kwon authored Apr 24, 2025
```
Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>
```
  b411418f
07 Apr, 2025 1 commit

[Model] Add Qwen3 and Qwen3MoE (#15289) · 7699258e

YamPengLi authored Apr 07, 2025


Signed-off-by: YamPengLi <yampayne.lyp@alibaba-inc.com>
Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>

7699258e