Commits · 3d01cce77c9e96d897576afdf633c34a9770c929 · OpenDAS / vllm_cscc

"vscode:/vscode.git/clone" did not exist on "6d646d08a2e0e73e83e313a5ae470c1f9e4f200e"

21 Jan, 2026 2 commits
- 1、kvcache支持fp8的scale · 3d01cce7
  xiabo authored Jan 21, 2026
  
  3d01cce7
- Merge branch 'v0.11.0-dev_marlin_opt' into 'v0.11.0-dev' · 6dcb89d2
  zhuwenwen authored Jan 21, 2026
```
feat(moe/marlin): 移除 VLLM_USE_MARLIN_W16A16_MOE，改为基于 lightop 探测自动启用并一次性缓存决策

See merge request dcutoolkit/deeplearing/vllm!376
```
  6dcb89d2
20 Jan, 2026 9 commits
- • feat(moe/marlin): 移除 VLLM_USE_MARLIN_W16A16_MOE，改为基于 lightop 探测自动启用并一次性缓存决策 · 714a7573
  laibao authored Jan 20, 2026
```
  - 使用 get_moe_cuda_marlin_config_w16a16(status) 判断 W16A16 Marlin MoE 是否可用
  - 在 FusedMoE 初始化阶段计算并缓存 _marlin_w16a16_moe_enabled，满足条件时强制 use_nn_moe=False
  - 权重加载后按缓存结果进行一次性 Marlin pack；运行时按 packed 标记走 Marlin fast path
  - 删除 envs.py 中 VLLM_USE_MARLIN_W16A16_MOE 环境变量定义与解析逻辑
```
  714a7573
- update pt_weights_iterator · 145b4eac
  zhuwenwen authored Jan 20, 2026
  
  145b4eac
- Merge branch 'v0.11.0-dev-wm-0120' into 'v0.11.0-dev' · 9bc81d6d
  zhuwenwen authored Jan 20, 2026
```
[fix]解决glm4 moe + mtp精度异常

See merge request dcutoolkit/deeplearing/vllm!374
```
  9bc81d6d
- Merge remote-tracking branch 'origin/v0.11.0-dev' into v0.11.0-dev · 0da696a7
  王敏 authored Jan 20, 2026
  
  0da696a7
- [fix]解决glm4 moe + mtp精度异常 · 82c0bf76
  王敏 authored Jan 20, 2026
  
  82c0bf76
- update VLLM_USE_TOPK_RENORM · 6fa116fb
  zhuwenwen authored Jan 20, 2026
  
  6fa116fb
- [Frontend] Require flag for loading text and image embeds · fb35feea
  zhuwenwen authored Jan 20, 2026
  
  fb35feea
- fix：topk 重归一化默认关闭；新增Qwen3-Next-80B-A3B-Instruct k100_ai tp4 tp8配置 · 9e94b9d8
  laibao authored Jan 20, 2026
  
  9e94b9d8
- Merge branch 'v0.11.0-dev-wm-0119' into 'v0.11.0-dev' · 470dc415
  zhuwenwen authored Jan 20, 2026
```
[fix]解决gpt oss nn moe权重加载出错

See merge request dcutoolkit/deeplearing/vllm!372
```
  470dc415
19 Jan, 2026 4 commits
- [fix]解决gpt oss nn moe权重加载出错 · 4d70732e
  王敏 authored Jan 19, 2026
  
  4d70732e
- remove SUPPORT_MOE_MARLIN_W16A16 · 6216b12d
  zhuwenwen authored Jan 19, 2026
  
  6216b12d
- update rc1 · 1a26d0b6
  zhuwenwen authored Jan 19, 2026
  
  1a26d0b6
- [qwen3-235b] MoE(TN&NN) configs for nmz TP=8 · ae0dc0ac
  zhuwenwen authored Jan 19, 2026
```
[qwen3-480b] MoE(TN) configs for nmz TP=8
```
  ae0dc0ac
16 Jan, 2026 5 commits
- Merge branch 'v0.11.0-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.11.0-dev · cea85c38
  zhuwenwen authored Jan 16, 2026
  
  cea85c38
- set VLLM_USE_FUSED_RMS_ROPE=1 · 6d8c8719
  zhuwenwen authored Jan 16, 2026
  
  6d8c8719
- Merge branch 'v0.11.0-dev-d2dpcie' into 'v0.11.0-dev' · bc80af59
  zhuwenwen authored Jan 16, 2026
```
1、pcie 解决custom cudagraph模式需要拷贝的问题，这个需要配合dtk进行使用。

See merge request dcutoolkit/deeplearing/vllm!369
```
  bc80af59
- 1、pcie 解决custom cudagraph模式需要拷贝的问题，这个需要配合dtk进行使用。 · 7bc904d7
  xiabo authored Jan 16, 2026
```
   vllm：export VLLM_CUSTOM_CACHE=1
   dtk：export HIP_KERNEL_EVENT_SYSTENFENCE=1
2、kvcache支持fp8
```
  7bc904d7
- add SUPPORT_MOE_MARLIN_W16A16 to use moe marlin on bw · ad60a973
  zhuwenwen authored Jan 16, 2026
  
  ad60a973
15 Jan, 2026 3 commits
- remove unused · f4cef40c
  zhuwenwen authored Jan 15, 2026
  
  f4cef40c
- support fa kvcache fp8 · c8bd8db7
  zhuwenwen authored Jan 15, 2026
```
todo: add VLLM_USE_QUERY_QUANT to not use q quant
```
  c8bd8db7
- fix tests of kernels · 2a75c6bc
  zhuwenwen authored Jan 15, 2026
  
  2a75c6bc
14 Jan, 2026 7 commits
- fix return of schedule · 3dd7fd64
  zhuwenwen authored Jan 14, 2026
  
  3dd7fd64
- Merge branch 'v0.11.0-dev-fth' into 'v0.11.0-dev' · 37f9bb50
  zhuwenwen authored Jan 14, 2026
```
适配block-wise fp8接口

See merge request dcutoolkit/deeplearing/vllm!366
```
  37f9bb50
- Merge branch 'v0.11.0-dev' of http://10.16.6.30/dcutoolkit/deeplearing/vllm into v0.11.0-dev · 6a14c9f3
  zhuwenwen authored Jan 14, 2026
  
  6a14c9f3
- fix tests of kernels · 0e607f8e
  zhuwenwen authored Jan 14, 2026
```
set VLLM_USE_PD_SPLIT=1
update moe_align_block_size
```
  0e607f8e
- 适配block-wise fp8接口 · 284b2450
  SAC_fanth authored Jan 14, 2026
  
  284b2450
- Merge branch 'v0.11.0-dev-rename' into 'v0.11.0-dev' · 1a64d266
  zhuwenwen authored Jan 14, 2026
```
Switch default w8a8 gemm impl to blaslt.

See merge request dcutoolkit/deeplearing/vllm!365
```
  1a64d266
- Switch default w8a8 gemm impl to blaslt. · 80e71eb8
  wanglong3 authored Jan 14, 2026
  
  80e71eb8
12 Jan, 2026 2 commits
- Merge branch 'v0.11.0-dev-yql-1.12' into 'v0.11.0-dev' · cbdc58ec
  zhuwenwen authored Jan 12, 2026
```
处理test_concat的ds_cat的导入bug

See merge request dcutoolkit/deeplearing/vllm!361
```
  cbdc58ec
- 处理test_concat的ds_cat的导入bug · 184fb9e4
  yangql authored Jan 12, 2026
  
  184fb9e4
10 Jan, 2026 8 commits
- Merge branch 'v0.11.0-dev_tc_opt' into 'v0.11.0-dev' · 14705754
  zhuwenwen authored Jan 10, 2026
```
perf(fused-moe): 预打包 Marlin W16A16 MoE 权重，降低 warmup 显存峰值

See merge request dcutoolkit/deeplearing/vllm!358
```
  14705754
- perf(fused-moe): 预打包 Marlin W16A16 MoE 权重，降低 warmup 显存峰值 · 402c8b1e
  laibao authored Jan 10, 2026
```
在 post-load hook 中对 w13/w2 做 per-expert Marlin pack，并替换为 packed 参数
Marlin fast path 仅接受 packed 权重；未预打包则 fail fast，避免运行时 packing 峰值/不确定性
更新 Marlin wrapper 的入参与 shape 推导（从 packed layout 计算 K/N）
```
  402c8b1e
- fix _forward_encoder_attention · b949b805
  zhuwenwen authored Jan 10, 2026
  
  b949b805
- add gfx938 · d10ac4af
  zhuwenwen authored Jan 10, 2026
  
  d10ac4af
- 解决custom cudagraph模式需要拷贝的问题，需要配合dtk进行使用。 · b93c3473
  zhuwenwen authored Jan 10, 2026
```
区分pcie和hglink custom allreduce的使用
vllm：export VLLM_CUSTOM_CACHE=1
dtk：export HIP_KERNEL_EVENT_SYSTENFENCE=1
```
  b93c3473
- remove attn_masks · 58de8cd6
  zhuwenwen authored Jan 10, 2026
  
  58de8cd6
- remove medusa tree decoding · 99f4d1c2
  zhuwenwen authored Jan 10, 2026
  
  99f4d1c2
- remove pa · 29a9e952
  zhuwenwen authored Jan 10, 2026
  
  29a9e952