# MiMo-V2.5 ## 论文 [MiMo-V2-Flash Technical Report](https://mimo.xiaomi.com/mimo-v2-5) ## 模型简介 MiMo-V2.5 是一个原生全模态模型,具备强大的智能体(agentic)能力,通过统一架构支持文本、图像、视频和音频的理解。该模型基于 MiMo-V2-Flash 主干网络构建,并扩展了专用的视觉和音频编码器,在多模态感知、长上下文推理和智能体工作流方面表现出卓越性能。其主要特性包括: - 混合注意力架构:继承自 MiMo-V2-Flash 的混合设计,以 5:1 的比例交错使用滑动窗口注意力(SWA)和全局注意力(GA),滑动窗口大小为 128。这使 KV 缓存存储量减少近 6 倍,同时通过可学习的注意力汇聚偏置(attention sink bias)维持长上下文性能。 - 原生全模态编码器:配备一个 7.29 亿参数的 Vision Transformer(ViT),采用混合窗口注意力机制,并集成一个专用音频编码器(其权重初始化自 MiMo-Audio),从而实现高质量的图像、视频和音频理解。 - 多 Token 预测(MTP):包含三个轻量级 MTP 模块,采用密集前馈网络(FFN),通过推测解码(speculative decoding)加速推理,并提升强化学习(RL)训练效率。 - 高效预训练:使用 FP8 混合精度在总计约 48T tokens 的数据上进行训练,上下文窗口最大支持 1M tokens。 - 智能体能力:后训练阶段融合了监督微调(SFT)、大规模智能体强化学习(agentic RL)以及多教师在线策略蒸馏(MOPD),在智能体任务和多模态理解基准测试中均取得优异表现。
## 环境依赖 | 软件 | 版本 | | :------: | :------: | | DTK | 26.04 | | Python | 3.10.12 | | torch | 2.9.0+das.opt1.dtk2604.2604151933.g4ed9ab | | triton | 3.3.0+das.opt2.dtk2604.torch290.20260331.g31542e | | Transformers | 5.3.0 | | SGLang | 0.5.10rc0+das.opt2.alpha.dtk2604.torch290.2604151948.gfdf368 | 当前仅支持镜像: harbor.sourcefind.cn:5443/dcu/admin/base/custom:sglang-0.5.10-mimov2.5-0429 - 挂载地址`-v`根据实际模型情况修改 ```bash docker run -it \ --shm-size 256g \ --network=host \ --name mimo-v2.5 \ --privileged \ --device=/dev/kfd \ --device=/dev/dri \ --device=/dev/mkfd \ --group-add video \ --cap-add=SYS_PTRACE \ --security-opt seccomp=unconfined \ -u root \ -v /opt/hyhal/:/opt/hyhal/:ro \ -v /path/your_code_data/:/path/your_code_data/ \ harbor.sourcefind.cn:5443/dcu/admin/base/custom:sglang-0.5.10-mimov2.5-0429 bash ``` 更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。 ## 预训练权重 **请根据`支持的DCU型号`选择对应模型下载,FP8模型仅在BW1100/BW1101上支持,其他型号请勿使用!** | 模型名称 | 权重大小 | 数据类型 | 支持的DCU型号 | 最低卡数需求 | 下载地址 | |:-----:|:----------:|:----------:|:----------:|:---------------------:|:----------:| | MiMo-V2.5 | 310B | FP8 | BW1100 | 4 | [ModelScope](https://modelscope.cn/models/XiaomiMiMo/MiMo-V2.5/summary) | ## 数据集 `暂无` ## 训练 `暂无` ## 推理 ### SGLang #### 单机推理 1. 启动服务 当前版本除文字推理之外,模态推理暂时有bug,正在积极解决,若有多模态需求,请耐心等待。 用例以最低所需4卡为例,如果需要8卡,需要增加`--dp-size 2`参数。 ```bash export SGLANG_USE_LIGHTOP=1 export SGLANG_KV_LAYOUT_DCU_FA=0 export SGLANG_ENABLE_SPEC_V2=1 export SGLANG_USE_AITER_FP8_ASM_MOE=1 export SGLANG_USE_TRITON_EXTEND_FROM_AITER=1 sglang serve --model-path /home/dengjb1/models/XiaomiMiMo/MiMo-V2.5 \ --tp-size 4 \ --page-size 64 \ --host 0.0.0.0 \ --port 8001 \ --trust-remote-code \ --mem-fraction-static 0.85 \ --max-running-requests 64 \ --tool-call-parser mimo \ --context-length 262144 \ --attention-backend triton \ --chunked-prefill-size -1 ``` 2. 访问推理服务 ```bash curl -s -X POST http://localhost:8001/v1/chat/completions -H "Content-Type: application/json" -d '{ "model": "XiaomiMiMo/MiMo-V2.5", "messages": [{"role": "user", "content": "你叫什么名字哇,你能帮我做什么"}] }' ``` ## 效果展示
### 精度 `DCU与GPU精度一致,推理框架:SGLang。` ## 源码仓库及问题反馈 - https://developer.sourcefind.cn/codes/modelzoo/mimo-v2.5 ## 参考资料 - https://modelscope.cn/models/XiaomiMiMo/MiMo-V2.5/summary