M

MiMo-V2.5

MiMo-V2.5 是一个原生全模态模型,具备强大的智能体(agentic)能力,通过统一架构支持文本、图像、视频和音频的理解。该模型基于 MiMo-V2-Flash 主干网络构建,并扩展了专用的视觉和音频编码器,在多模态感知、长上下文推理和智能体工作流方面表现出卓越性能。