MiMo-V2.5

MiMo-V2.5 是一个原生全模态模型，具备强大的智能体（agentic）能力，通过统一架构支持文本、图像、视频和音频的理解。该模型基于 MiMo-V2-Flash 主干网络构建，并扩展了专用的视觉和音频编码器，在多模态感知、长上下文推理和智能体工作流方面表现出卓越性能。