Commits · b65d055687b4f779ec7fa689b6057b9e0d30aca0 · OpenDAS / vllm_cscc

06 Feb, 2026 3 commits

fix(qwen3): 在 fused RMS+RoPE 算子内支持非连续输入 · b65d0556

chenyue3 authored Feb 06, 2026

  - 在 C++ 算子中移除 query/key/residual 的 contiguous 强校验
  - 对非连续输入使用工作张量执行计算（优化路径与 fallback 路径统一）
  - 计算完成后将结果 copy_ 回原张量，保持 in-place 语义
  - 移除 qwen3 / qwen3_moe Python 前向中的 q、k.contiguous() 预处理

b65d0556

feat(qwen3): 支持 rot_dim=64 的 fused RMS+RoPE 优化路径 · 9bf8406f

chenyue3 authored Feb 06, 2026

launch_opt_rms_rope 增加 rot_dim=64/128 分发路径
放宽 supports_qwen3_opt 条件，允许 rot_dim=64 进入优化分支
qwen3 / qwen3_moe 将 q_bias、k_bias 参数统一为 q_residual、k_residual
qwen3_moe 的自定义 op 注册增加重复注册保护"`

9bf8406f

• feat(qwen3)：新增 vLLM 内置 RMS+RoPE 融合算子，并支持 LightOp 后端切换 · 588538f5

laibao authored Feb 06, 2026

  - 在 vLLM _C 扩展中新增 rms_rotary_embedding_fuse（注册 op + CUDA kernel），减少对 LightOp 的硬依赖
  - 新增环境变量 VLLM_FUSED_RMS_ROPE_BACKEND=auto|vllm|lightop，auto 优先走 vLLM，缺失时回退 LightOp
  - 更新 Qwen3 / Qwen3-MoE 的 fused 路径按后端选择执行
  - 补充 tc_opt benchmark 结果解析脚本 benchmarks/tc_opt/test/parse_bench_results.py

588538f5

03 Feb, 2026 1 commit
- V0.11.0 dev lxh channelwise · 9b42963d
  wanglong3 authored Feb 03, 2026
  
  9b42963d
28 Jan, 2026 1 commit

feat(moe)：新增 VLLM_USE_MOE_W16A16_TRTION 强制 Triton MoE · 57eb1192

laibao authored Jan 28, 2026

增加环境变量开关，禁用 Marlin W16A16 MoE 路径
强制 Triton 且权重已是 Marlin packed 时给出明确报错
Marlin 支持探测改为 best-effort（不再依赖 VLLM_USE_LIGHTOP）

57eb1192

27 Jan, 2026 1 commit
- fused_moe_fp8接入lmslim · cf40e82a
  SAC_fanth authored Jan 27, 2026
  
  cf40e82a
23 Jan, 2026 1 commit
- fix qwen3-next nn layout · 6cd43ae5
  zhuwenwen authored Jan 23, 2026
  
  6cd43ae5
21 Jan, 2026 5 commits
- perf(qwen3): 融合 q/k RMSNorm + RoPE · 3cd3d1e6
  zhuwenwen authored Jan 21, 2026
```
新增 VLLM_USE_FUSED_RMS_ROPE 分支，走 fused 路径
注册 torch.ops.vllm.rms_rotary_embedding_fuse（direct_register_custom_op）
cos_sin_cache 自动转 device/dtype 并缓存，避免每次重复拷贝
```
  3cd3d1e6
- update VLLM_USE_FUSED_RMS_ROPE=0 (default) · 80a6b121
  zhuwenwen authored Jan 21, 2026
```
for qwen3, VLLM_USE_FUSED_RMS_ROPE=1 (default)
```
  80a6b121
- feat: Supprot fp8 channle-wise matmul. · 94c8a620
  wanglong3 authored Jan 21, 2026
  
  94c8a620
- feat: support fp8-blockwise matmul impl. · 96590097
  lixh6 authored Jan 20, 2026
  
  96590097
- remove unused code · 43155293
  zhuwenwen authored Jan 21, 2026
  
  43155293
20 Jan, 2026 5 commits
- • feat(moe/marlin): 移除 VLLM_USE_MARLIN_W16A16_MOE，改为基于 lightop 探测自动启用并一次性缓存决策 · 714a7573
  laibao authored Jan 20, 2026
```
  - 使用 get_moe_cuda_marlin_config_w16a16(status) 判断 W16A16 Marlin MoE 是否可用
  - 在 FusedMoE 初始化阶段计算并缓存 _marlin_w16a16_moe_enabled，满足条件时强制 use_nn_moe=False
  - 权重加载后按缓存结果进行一次性 Marlin pack；运行时按 packed 标记走 Marlin fast path
  - 删除 envs.py 中 VLLM_USE_MARLIN_W16A16_MOE 环境变量定义与解析逻辑
```
  714a7573
- update pt_weights_iterator · 145b4eac
  zhuwenwen authored Jan 20, 2026
  
  145b4eac
- [fix]解决glm4 moe + mtp精度异常 · 82c0bf76
  王敏 authored Jan 20, 2026
  
  82c0bf76
- update VLLM_USE_TOPK_RENORM · 6fa116fb
  zhuwenwen authored Jan 20, 2026
  
  6fa116fb
- fix：topk 重归一化默认关闭；新增Qwen3-Next-80B-A3B-Instruct k100_ai tp4 tp8配置 · 9e94b9d8
  laibao authored Jan 20, 2026
  
  9e94b9d8
19 Jan, 2026 2 commits
- [fix]解决gpt oss nn moe权重加载出错 · 4d70732e
  王敏 authored Jan 19, 2026
  
  4d70732e
- [qwen3-235b] MoE(TN&NN) configs for nmz TP=8 · ae0dc0ac
  zhuwenwen authored Jan 19, 2026
```
[qwen3-480b] MoE(TN) configs for nmz TP=8
```
  ae0dc0ac
14 Jan, 2026 3 commits
- fix tests of kernels · 0e607f8e
  zhuwenwen authored Jan 14, 2026
```
set VLLM_USE_PD_SPLIT=1
update moe_align_block_size
```
  0e607f8e
- 适配block-wise fp8接口 · 284b2450
  SAC_fanth authored Jan 14, 2026
  
  284b2450
- Switch default w8a8 gemm impl to blaslt. · 80e71eb8
  wanglong3 authored Jan 14, 2026
  
  80e71eb8
10 Jan, 2026 2 commits

perf(fused-moe): 预打包 Marlin W16A16 MoE 权重，降低 warmup 显存峰值 · 402c8b1e

laibao authored Jan 10, 2026

在 post-load hook 中对 w13/w2 做 per-expert Marlin pack，并替换为 packed 参数
Marlin fast path 仅接受 packed 权重；未预打包则 fail fast，避免运行时 packing 峰值/不确定性
更新 Marlin wrapper 的入参与 shape 推导（从 packed layout 计算 K/N）

402c8b1e

remove pa · 29a9e952
zhuwenwen authored Jan 10, 2026

29a9e952

07 Jan, 2026 3 commits

perf(fused-moe): 接入 W16A16 Marlin MoE 并缓存 pack 权重 · 2b0c9835

laibao authored Jan 07, 2026

 - fused_experts_impl 增加 VLLM_USE_MARLIN_W16A16_MOE fast path：首次对 w1/w2 做 Marlin pack 后缓存，避免重复 reorder；并将原始
    权重 offload 到 CPU，降低 GPU 双份驻留
  - envs 补齐环境变量 VLLM_USE_LIGHTOP_MOE_SUM_MUL_ADD
  - 更新 fuse_moe_w16a16_marlin.py 的报错提示为 VLLM_USE_LIGHTOP=1

2b0c9835

remove USE_FUSED_RMS_QUANT and USE_FUSED_SILU_MUL_QUANT · c2ef7fdd
zhuwenwen authored Jan 07, 2026

c2ef7fdd
skip indexer_k_cache · 383f2ce8
zhuwenwen authored Jan 07, 2026

383f2ce8

06 Jan, 2026 3 commits
- add bw gpt-oss-20b-BF16 tp1&2 moe (nn) configs · 65f79b5a
  zhuwenwen authored Jan 06, 2026
  
  65f79b5a
- [gpt-oss-120b] MoE configs for BW1000 TP=8 · 8a72bd23
  zhuwenwen authored Jan 06, 2026
  
  8a72bd23
- 适配glm4_1v量化模型 · e03b1b33
  zhuwenwen authored Jan 06, 2026
  
  e03b1b33
05 Jan, 2026 6 commits
- add bw gpt-oss-20b-BF16 tp1&2 moe (tn) configs · 1af252cb
  zhuwenwen authored Jan 05, 2026
```
add indexer_k_cache_kernel
```
  1af252cb
- add moe configs · 90d4a822
  zhuwenwen authored Jan 05, 2026
  
  90d4a822
- update DeepseekV32IndexerCache · 2cbda743
  zhuwenwen authored Jan 05, 2026
  
  2cbda743
- fix: 修复deepseek量化模型的若干问题 · d10b80ce
  jujl1 authored Jan 05, 2026
  
  d10b80ce
- update sparse_attn_indexer · 734f52d8
  zhuwenwen authored Jan 05, 2026
  
  734f52d8
- update mqa_logits and paged_mqa_logits · f441aca2
  zhuwenwen authored Jan 05, 2026
  
  f441aca2
04 Jan, 2026 1 commit

[feat] 支持 mRoPE 的 fused RMSNorm+RoPE 路径，并修正 torch.compile 动态维度标注 · e08422ae

laibao authored Jan 04, 2026

实现了用于优化张量计算的 rms_mrope_fuse 和 rms_mrope_fuse_fake 方法
更新了 forward：在满足条件时走新的 M-RoPE 融合路径
增强了 Qwen3MoeModel 对动态参数维度的支持，以适配该功能

e08422ae

24 Dec, 2025 1 commit
- 在v0.11中暂不支持awq的scale和zero合并操作 · 0ba1219a
  yangql authored Dec 24, 2025
  
  0ba1219a
23 Dec, 2025 1 commit
- 适配gptq/awq的triton moe算子 · 25e8b412
  yangql authored Dec 23, 2025
  
  25e8b412
22 Dec, 2025 1 commit
- fix weights_not_loaded · 10349d37
  zhuwenwen authored Dec 22, 2025
  
  10349d37