Commits · be81eaf617aa8ec2018daacef98ebf04aba59c93 · OpenDAS / vllm_cscc

16 Mar, 2026 3 commits
- [PD]添加VLLM_PP_LAYER_PARTITION_D控制d层切分 · be81eaf6
  xuxz authored Mar 16, 2026
  
  be81eaf6
- [PD][Bugfix]修复0151pd分离d卡住问题 · 0c5e5f88
  xuxz authored Mar 16, 2026
  
  0c5e5f88
- [PD][Fixbug]修复CachedRequestData结构体升级找不到resumed_req_ids变量 · 2ce7c096
  xuxz authored Mar 16, 2026
  
  2ce7c096
09 Mar, 2026 1 commit
- [PD]适配v0.15.1 · 56fef1c3
  xuxz authored Mar 09, 2026
  
  56fef1c3
06 Mar, 2026 3 commits
- perf:Deepseek v2模型增加rmsQuant和siluMulQuant融合 · 58a36508
  wujl5 authored Mar 06, 2026
  
  58a36508
- [perf]glm4_moe模型适配rmsquant和silu_quant融合算子 · 110bbdd5
  王敏 authored Mar 06, 2026
  
  110bbdd5
- [perf]添加Module支持split qkv+rmsnorm+rope+kvcache融合算子，GLM4_MOE完成适配 · f1a7696f
  王敏 authored Mar 06, 2026
  
  f1a7696f
05 Mar, 2026 3 commits
- 修复dsa的workspace的bug，以及添加环境变量关闭DSAVLLM_DISABLE_DSA=1 · cb1a27d2
  yangql authored Mar 05, 2026
  
  cb1a27d2
- add qwen3-asr · c50e6dee
  weishb authored Mar 05, 2026
  
  c50e6dee
- 修复channel-int8 的config读取bug · cfd6a543
  SAC_fanth authored Mar 05, 2026
  
  cfd6a543
04 Mar, 2026 3 commits
- feat:fix dsa · 6e7c8326
  liuchy5 authored Mar 04, 2026
  
  6e7c8326
- 恢复误删代码 · 5e77b44f
  王敏 authored Mar 04, 2026
  
  5e77b44f
- [perf]合入lightop topp_topk 融合算子 · 586f0eba
  王敏 authored Mar 04, 2026
  
  586f0eba
03 Mar, 2026 3 commits
- 修复awq-marlin的bug · 09bdce60
  yangql authored Mar 03, 2026
  
  09bdce60
- update kv_cache_dtype support · aaf8c95f
  zhuwenwen authored Mar 03, 2026
  
  aaf8c95f
- support dsa · d71496bf
  zhuwenwen authored Mar 03, 2026
  
  d71496bf
02 Mar, 2026 3 commits
- fix(qwen3): 修复VL场景fused RoPE分支条件，并更正qwen3_moe中rms_mrope参数顺序 · 02b0d6ba
  laibao authored Mar 02, 2026
  
  02b0d6ba
- [perf]优化异步调度+并行解码 step之间的空泡，实现kernel提前下发 · 6f6ea0a8
  王敏 authored Mar 02, 2026
  
  6f6ea0a8
- [Model] GLM adaptation · afe3ea1e
  zhuwenwen authored Mar 02, 2026
  
  afe3ea1e
28 Feb, 2026 1 commit
- 修复qwen3.5的使用dtype为fp16的picecwise的推理模式 · b5e8d01e
  yangql1 authored Feb 28, 2026
  
  b5e8d01e
26 Feb, 2026 1 commit

feat(sampler): 增加 reduced topk+topp 采样快速路径以降低全词表 softmax 开销 · a17c410d

laibao authored Feb 26, 2026

新增 VLLM_V1_USE_REDUCED_TOPK_TOPP_SAMPLER 开关并补充适用场景说明

在 V1 GPU 输入批预计算 max_top_k/has_any_no_top_k，native sampler 满足条件时走 reduced fast path，异常自动回退

a17c410d

25 Feb, 2026 1 commit
- 修复block-wise 用triton报错的bug · 359c16db
  SAC_fanth authored Feb 25, 2026
  
  359c16db
24 Feb, 2026 3 commits

修复channel-wise 用triton报错的bug · 9d44744c
SAC_fanth authored Feb 24, 2026

9d44744c

feat(moe): 增加 Qwen3 路由 logits 的环境变量可控采集能力 · 9ae319b3

laibao authored Feb 21, 2026

新增 router_capture 工具，用于按 num_tokens/rank 过滤并落盘 MoE router logits
在 Qwen3MoeSparseMoeBlock 中接入采集调用，并在 torch.compile 场景下自动跳过
补充 VLLM_MOE_ROUTER_CAPTURE* 环境变量

9ae319b3

• perf(v1): 增加可选的快速 token-id 拷贝路径 · d3a95d54

laibao authored Feb 20, 2026

  - 新增环境变量 `VLLM_V1_FAST_TOKEN_ID_COPY`（默认关闭）
  - 在 `CachedRequestState` 中缓存 int32 的 prompt token ids（numpy 数组）
  - 开启后在 `InputBatch` 中使用 `np.copyto` 拷贝 prompt/output token ids

d3a95d54

19 Feb, 2026 1 commit
- 支持非deepseek模型使用moe_fused_gate · 93548076
  王敏 authored Feb 19, 2026
  
  93548076
16 Feb, 2026 2 commits
- add qwen3_5 · 4dc838d3
  Rayyyyy authored Feb 16, 2026
  
  4dc838d3
- Add qwen3_5 · 843c1822
  Rayyyyy authored Feb 16, 2026
  
  843c1822
13 Feb, 2026 1 commit
- [feat]支持glm4_moe_mtp使用torch compile，实现mtp cudagraph模式 · dc027d74
  王敏 authored Feb 13, 2026
  
  dc027d74
12 Feb, 2026 1 commit
- update chat template of dsv32 · 838b4509
  zhuwenwen authored Feb 12, 2026
  
  838b4509
11 Feb, 2026 3 commits

remove unused impl and envs · b5ea93d4
zhuwenwen authored Feb 11, 2026

b5ea93d4

feat(moe): 补齐 v0.15 中 Marlin W16A16 MoE 端到端接入 · 1e2fe58f

laibao authored Feb 11, 2026

参考并移植 011/vllm 的关键提交逻辑
新增 VLLM_USE_MOE_W16A16_TRITON 开关，并接入基于 lightop 的运行时能力探测与启用结果缓存。
在权重加载后对 w13 与 w2 执行 W16A16 Marlin 预打包。
W16A16 Marlin 启用时保留 monolithic 执行路径，并在 fused_experts_impl 中增加 packed 权重 fast-path。
保持 Marlin 或 lightop 不可用时的回退行为不变。

1e2fe58f

接入channel、block triton 及channel-wise marlin · 7771c0ac
SAC_fanth authored Feb 11, 2026

7771c0ac

10 Feb, 2026 4 commits
- fix qwen3-next nn layout · 8cdc3a30
  zhuwenwen authored Feb 10, 2026
  
  8cdc3a30
- feat：适配Blaslt Channelwise gemm · 0636f239
  lixh6 authored Feb 10, 2026
  
  0636f239
- feat: implement FP8 blockwise GEMM with hipblaslt · 8510c10c
  lixh authored Feb 09, 2026
  
  8510c10c
- fix qwen3-next run error · 440222e9
  zhuwenwen authored Feb 10, 2026
  
  440222e9
09 Feb, 2026 3 commits
- feat: w4a8 · 7b2122d9
  jujl1 authored Feb 08, 2026
  
  7b2122d9
- feat: pp balance · 76ec56bd
  jujl1 authored Feb 06, 2026
  
  76ec56bd
- fix indentation · b8f555af
  zhuwenwen authored Feb 09, 2026
  
  b8f555af