vllm/model_executor/layers/quantization/modelopt.py · 17edd8a807019c8d1e58634aecb1de7984e8d467 · OpenDAS / vllm_cscc

[Quantization/NVFP4] Speed up TRTLLM NVFP4 MOE weight loading and fix K/V... · a2691733

Pavani Majety authored Oct 03, 2025


[Quantization/NVFP4] Speed up TRTLLM NVFP4 MOE weight loading and fix K/V scale loading for MLA Attn (#25968)
Signed-off-by: Pavani Majety <pmajety@nvidia.com>

a2691733

modelopt.py 68.3 KB

Replace modelopt.py