Commits · 503f8487c295343ac13124bc2483cee4e2aabf02 · OpenDAS / vllm_cscc

25 May, 2025 1 commit
- [Misc] Reduce logs on startup (#18649) · 503f8487
  Cyrus Leung authored May 25, 2025
```
Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
```
  503f8487
24 May, 2025 2 commits
- [BugFix] Fix import error for fused_moe (#18642) · b9018a3f
  wangxiyuan authored May 24, 2025
```
Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>
```
  b9018a3f
- FIX MOE issue in AutoRound format (#18586) · ec82c3e3
  Wenhua Cheng authored May 24, 2025
```
Signed-off-by: wenhuach21 <wenhua.cheng@intel.com>
```
  ec82c3e3
23 May, 2025 5 commits
- [Bugfix] Migrate to REGEX Library to prevent catastrophic backtracking (#18454) · 4fc1bf81
  Feng XiaoLong authored May 24, 2025
```
Signed-off-by: Crucifixion-Fxl <xmufxl@gmail.com>
Co-authored-by: Crucifixion-Fxl <xmufxl@gmail.com>
```
  4fc1bf81
- [ModelOpt] Introduce VLLM_MAX_TOKENS_PER_EXPERT_FP4_MOE env var to control... · f2036734
  Pavani Majety authored May 23, 2025
```
[ModelOpt] Introduce VLLM_MAX_TOKENS_PER_EXPERT_FP4_MOE env var to control blockscale tensor allocation (#18160)
Signed-off-by: Pavani Majety <pmajety@nvidia.com>
```
  f2036734
- Refactor pplx init logic to make it modular (prepare for deepep) (#18200) · 6a7988c5
  youkaichao authored May 23, 2025
```
Signed-off-by: youkaichao <youkaichao@gmail.com>
```
  6a7988c5
- Include private attributes in API documentation (#18614) · d4c29197
  Harry Mellor authored May 23, 2025
```
Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
```
  d4c29197
- [Hardware][CPU] Update intel_extension_for_pytorch 2.7.0 and move to... · 7ab056c2
  Kay Yan authored May 23, 2025
```
[Hardware][CPU] Update intel_extension_for_pytorch 2.7.0 and move to `requirements/cpu.txt`  (#18542)
Signed-off-by: Kay Yan <kay.yan@daocloud.io>
```
  7ab056c2
22 May, 2025 2 commits

[Build/CI] Fix CUDA 11.8 build (#17679) · 6e588da0

Tyler Michael Smith authored May 22, 2025


Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com>
Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
Signed-off-by: Tyler Michael Smith <tysmith@redhat.com>
Co-authored-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

6e588da0

[FalconH1] Fix output dtype in RMSNorm fallback path for Falcon-H1 (e.g. 0.5B) (#18500) · 20bd6f4d

Dhia Eddine Rhaiem authored May 22, 2025


Signed-off-by: dhia.rhaiem <dhia.rhaiem@tii.ae>
Co-authored-by: younesbelkada <younesbelkada@gmail.com>
Co-authored-by: Ilyas Chahed <ilyas.chahed@tii.ae>
Co-authored-by: Jingwei Zuo <jingwei.zuo@tii.ae>

20bd6f4d

21 May, 2025 3 commits

[Doc] fix arg docstring in linear layers (#18410) · c154d893
GiantCroc authored May 21, 2025
```
Signed-off-by: giantcroc <1204449533@qq.com>
```
c154d893

[MODEL] FalconH1 (#18406) · eca18691

Dhia Eddine Rhaiem authored May 21, 2025


Signed-off-by: dhia.rhaiem <dhia.rhaiem@tii.ae>
Co-authored-by: younesbelkada <younesbelkada@gmail.com>
Co-authored-by: Ilyas Chahed <ilyas.chahed@tii.ae>
Co-authored-by: Jingwei Zuo <jingwei.zuo@tii.ae>

eca18691

[TPU] Re-enable the Pallas MoE kernel (#18025) · 3b17ea26
Michael Goin authored May 20, 2025
```
Signed-off-by: Michael Goin <mgoin64@gmail.com>
```
3b17ea26

20 May, 2025 2 commits
- [Minor] Rename quantization nvfp4 to modelopt_fp4 (#18356) · f4a8a374
  Michael Goin authored May 20, 2025
```
Signed-off-by: mgoin <mgoin64@gmail.com>
```
  f4a8a374
- [Bugfix] fix adding bias twice in ipex GPTQ quantization (#18363) · bca55b55
  Random Fly authored May 20, 2025
```
Signed-off-by: rand-fly <randfly@outlook.com>
```
  bca55b55
19 May, 2025 2 commits
- Add files via uploadAdd fused MoE kernel tuning configs (fp8_w8a8) for... · 7937c2fd
  sunyicode0012 authored May 20, 2025
```
Add files via uploadAdd fused MoE kernel tuning configs (fp8_w8a8) for DeepSeek V3/R1 on a single-node 8x NVIDIA H20 96GB setup (#18337)
```
  7937c2fd
- [Feature]Add support for models quantized with AutoRound (#17850) · e2ee1e8e
  Wenhua Cheng authored May 20, 2025
```
Signed-off-by: wenhuach21 <wenhua.cheng@intel.com>
```
  e2ee1e8e
18 May, 2025 1 commit
- [Model] Use sigmoid for single-label classification (#18313) · 908733ac
  22quinn authored May 18, 2025
```
Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com>
```
  908733ac
16 May, 2025 2 commits
- [Sampler] Adapt to FlashInfer 0.2.3 sampler API (#15777) · 7fdfa015
  Bowen Wang authored May 16, 2025
```
Signed-off-by: Bowen Wang <abmfy@icloud.com>
Co-authored-by: mgoin <mgoin64@gmail.com>
```
  7fdfa015
- use ceil_div in cutlass block scaling shape check (#17918) · e23564cb
  Lain authored May 16, 2025
  
  e23564cb
15 May, 2025 3 commits
- [Bugfix] [ROCm]: Remove assertion logic when using AITER fused moe in... · 92540529
  TJian authored May 16, 2025
```
[Bugfix] [ROCm]: Remove assertion logic when using AITER fused moe in unquantizedMethod to reenable LLama4 BF16 (#18205)
Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
```
  92540529
- fix: typos (#18151) · a9944aab
  omahs authored May 15, 2025
```
Signed-off-by: omahs <73983677+omahs@users.noreply.github.com>
```
  a9944aab
- [Bugfix] Fix FusedMoEPrepareAndFinalize for cuda-disalike backends (#18178) · 70f8b967
  Mengqing Cao authored May 15, 2025
```
Signed-off-by: Mengqing Cao <cmq0113@163.com>
```
  70f8b967
14 May, 2025 11 commits
- Add support for loading torchao models with `AOPerModuleConfig` (#17826) · 79747367
  Jerry Zhang authored May 14, 2025
```
Signed-off-by: Jerry Zhang <jerryzh168@gmail.com>
```
  79747367
- Modularize fused experts and integrate PPLX kernels (#15956) · f9c069c8
  bnellnm authored May 14, 2025
  
  f9c069c8
- [FEAT] [ROCm]: Add AITER CK 2 Stages MoE support (#17110) · 612c2edb
  TJian authored May 14, 2025
```
Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
Co-authored-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
```
  612c2edb
- [Bugfix] Fix QKVCrossParallelLinear::sync_weight_attrs for PyTorch compile (#17844) · 38fe728d
  Andrzej Kotłowski authored May 14, 2025
```
Signed-off-by: Andrzej Kotłowski <akotlowski@habana.ai>
```
  38fe728d
- [New Model]: support GTE NewModel (#17986) · 63ad6222
  wang.yuqi authored May 14, 2025
  
  63ad6222
- [BugFix][AMD] Compatible patch for AITER lib after 04/20 (#17912) · 4f8b3732
  qli88 authored May 14, 2025
```
Signed-off-by: Qiang Li <qiang.li2@amd.com>
```
  4f8b3732
- [FEAT] [ROCm] [V1]: Add AITER biased group topk for DeepSeekV3 (#17955) · 2d912fb6
  vllmellm authored May 14, 2025
```
Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
Co-authored-by: tjtanaa <tunjian.tan@embeddedllm.com>
```
  2d912fb6
- [Bugfix] Fix FP8 Marlin MoE and enable for compressed-tensors models (#18026) · 9a2a6357
  Michael Goin authored May 13, 2025
```
Signed-off-by: mgoin <mgoin64@gmail.com>
```
  9a2a6357
- [core][distributed] add ep group and all2all interface (#18077) · 6266c57b
  youkaichao authored May 14, 2025
```
Signed-off-by: youkaichao <youkaichao@gmail.com>
```
  6266c57b
- [Hardware/NVIDIA/Modelopt] Fix modelopt forward method for v1 torch.compile (#18101) · 65f0f74b
  Pavani Majety authored May 13, 2025
```
Signed-off-by: Pavani Majety <pmajety@nvidia.com>
```
  65f0f74b
- [FEAT] [ROCm]: Add AITER Block-Scaled GEMM Feature (#14968) · 40de1ef4
  vllmellm authored May 14, 2025
```
Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>
Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
Co-authored-by: tjtanaa <tunjian.tan@embeddedllm.com>
```
  40de1ef4
13 May, 2025 6 commits
- Update deprecated type hinting in `model_executor/layers` (#18056) · 6223dd81
  Harry Mellor authored May 13, 2025
```
Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
```
  6223dd81
- [Bugfix] Fix marlin moe fallback logic for llama4 (#18042) · ea6ae8cb
  Michael Goin authored May 13, 2025
```
Signed-off-by: mgoin <mgoin64@gmail.com>
```
  ea6ae8cb
- [Bugfix] Fixes for new marlin moe usage (#18017) · 1df491c5
  Michael Goin authored May 12, 2025
```
Signed-off-by: mgoin <mgoin64@gmail.com>
```
  1df491c5
- [Misc] Slight spelling modification (#18039) · c06af9a9
  Jee Jee Li authored May 13, 2025
```
Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
```
  c06af9a9
- Implements dual-chunk-flash-attn backend for dual chunk attention with sparse... · 60f76243
  Tao He authored May 13, 2025
```
Implements dual-chunk-flash-attn backend for dual chunk attention with sparse attention support (#11844)
```
  60f76243
- Use NVFP4 Marlin for CompressedTensorsW4A16Fp4 (#18000) · 307939f2
  Michael Goin authored May 12, 2025
```
Signed-off-by: mgoin <mgoin64@gmail.com>
Signed-off-by: Dipika <dipikasikka1@gmail.com>
Co-authored-by: Dipika <dipikasikka1@gmail.com>
```
  307939f2