readme.md

# MiMo-V2.5
## 论文
[MiMo-V2-Flash Technical Report](https://mimo.xiaomi.com/mimo-v2-5)

## 模型简介
MiMo-V2.5 是一个原生全模态模型，具备强大的智能体（agentic）能力，通过统一架构支持文本、图像、视频和音频的理解。该模型基于 MiMo-V2-Flash 主干网络构建，并扩展了专用的视觉和音频编码器，在多模态感知、长上下文推理和智能体工作流方面表现出卓越性能。其主要特性包括：

- 混合注意力架构：继承自 MiMo-V2-Flash 的混合设计，以 5:1 的比例交错使用滑动窗口注意力（SWA）和全局注意力（GA），滑动窗口大小为 128。这使 KV 缓存存储量减少近 6 倍，同时通过可学习的注意力汇聚偏置（attention sink bias）维持长上下文性能。
- 原生全模态编码器：配备一个 7.29 亿参数的 Vision Transformer（ViT），采用混合窗口注意力机制，并集成一个专用音频编码器（其权重初始化自 MiMo-Audio），从而实现高质量的图像、视频和音频理解。
- 多 Token 预测（MTP）：包含三个轻量级 MTP 模块，采用密集前馈网络（FFN），通过推测解码（speculative decoding）加速推理，并提升强化学习（RL）训练效率。
- 高效预训练：使用 FP8 混合精度在总计约 48T tokens 的数据上进行训练，上下文窗口最大支持 1M tokens。
- 智能体能力：后训练阶段融合了监督微调（SFT）、大规模智能体强化学习（agentic RL）以及多教师在线策略蒸馏（MOPD），在智能体任务和多模态理解基准测试中均取得优异表现。

<div align=center>
    <img src="./doc/architecture.svg"/>
</div>

## 环境依赖

| 软件 | 版本 |
| :------: | :------: |
| DTK | 26.04 |
| Python | 3.10.12 |
| torch | 2.9.0+das.opt1.dtk2604.2604151933.g4ed9ab |
| triton | 3.3.0+das.opt2.dtk2604.torch290.20260331.g31542e |
| Transformers | 5.3.0 |
| SGLang | 0.5.10rc0+das.opt2.alpha.dtk2604.torch290.2604151948.gfdf368 |

当前仅支持镜像: harbor.sourcefind.cn:5443/dcu/admin/base/custom:sglang-0.5.10-mimov2.5-0429

- 挂载地址`-v`根据实际模型情况修改

```bash
docker run -it \
    --shm-size 256g \
    --network=host \
    --name mimo-v2.5 \
    --privileged \
    --device=/dev/kfd \
    --device=/dev/dri \
    --device=/dev/mkfd \
    --group-add video \
    --cap-add=SYS_PTRACE \
    --security-opt seccomp=unconfined \
    -u root \
    -v /opt/hyhal/:/opt/hyhal/:ro \
    -v /path/your_code_data/:/path/your_code_data/ \
    harbor.sourcefind.cn:5443/dcu/admin/base/custom:sglang-0.5.10-mimov2.5-0429 bash
```
更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。

## 预训练权重
**请根据`支持的DCU型号`选择对应模型下载，FP8模型仅在BW1100/BW1101上支持，其他型号请勿使用！**

| 模型名称  | 权重大小  | 数据类型 |  支持的DCU型号  | 最低卡数需求 | 下载地址 |
|:-----:|:----------:|:----------:|:----------:|:---------------------:|:----------:|
| MiMo-V2.5 | 310B | FP8 | BW1100 | 4 | [ModelScope](https://modelscope.cn/models/XiaomiMiMo/MiMo-V2.5/summary) |

## 数据集
`暂无`

## 训练
`暂无`

## 推理
### SGLang
#### 单机推理
1. 启动服务

当前版本除文字推理之外，模态推理暂时有bug，正在积极解决，若有多模态需求，请耐心等待。

用例以最低所需4卡为例，如果需要8卡，需要增加`--dp-size 2`参数。

```bash
export SGLANG_USE_LIGHTOP=1
export SGLANG_KV_LAYOUT_DCU_FA=0
export SGLANG_ENABLE_SPEC_V2=1
export SGLANG_USE_AITER_FP8_ASM_MOE=1
export SGLANG_USE_TRITON_EXTEND_FROM_AITER=1

sglang serve --model-path /home/dengjb1/models/XiaomiMiMo/MiMo-V2.5 \
        --tp-size 4 \
        --page-size 64 \
        --host 0.0.0.0 \
        --port 8001 \
        --trust-remote-code \
        --mem-fraction-static 0.85 \
        --max-running-requests 64 \
        --tool-call-parser mimo \
        --context-length 262144 \
        --attention-backend triton \
        --chunked-prefill-size -1
```

2. 访问推理服务


```bash
curl -s -X POST http://localhost:8001/v1/chat/completions   -H "Content-Type: application/json"   -d '{
    "model": "XiaomiMiMo/MiMo-V2.5",
    "messages": [{"role": "user", "content": "你叫什么名字哇，你能帮我做什么"}]
  }'
```

## 效果展示
<div align=center>
    <img src="./doc/results-dcu.png"/>
</div>

### 精度
`DCU与GPU精度一致，推理框架：SGLang。`

## 源码仓库及问题反馈
- https://developer.sourcefind.cn/codes/modelzoo/mimo-v2.5

## 参考资料
- https://modelscope.cn/models/XiaomiMiMo/MiMo-V2.5/summary