# Ovis2.6 ## 论文 [Ovis2.5 Technical Report](https://arxiv.org/abs/2508.11737)
[Ovis: Structural Embedding Alignment for Multimodal Large Language Model](https://arxiv.org/abs/2405.20797) ## 模型简介 我们推出 Ovis2.6-30B-A3B,这是 Ovis 系列多模态大语言模型(MLLM)的最新进展。在 Ovis2.5 的坚实基础上,Ovis2.6 将 LLM 主干网络升级为 混合专家(Mixture-of-Experts, MoE) 架构,在显著降低推理成本的同时实现了卓越的多模态性能。此外,该模型还在长上下文与高分辨率理解、结合主动图像分析的视觉推理,以及信息密集型文档理解方面带来了重大改进。
超越 GPT-5.2:在 HealthBench、HealthBench-Hard、幻觉评估和 SCAN-bench 等多项指标上全面超越 OpenAI 最新模型,树立医疗 AI 新的 SOTA。
### 核心特性 MoE 架构:卓越性能,低推理成本
LLM 主干网络已升级为 混合专家(Mixture-of-Experts, MoE) 架构。这使得 Ovis2.6 能够扩展至 总计 300 亿参数,从而捕获海量知识与细微差异。关键在于,其推理过程中仅激活约 30 亿参数,确保了较低的推理成本和高吞吐量。
增强的长序列与高分辨率处理能力
Ovis2.6 将上下文窗口扩展至 64K tokens,并支持最高 2880×2880 的图像分辨率,显著提升了处理高分辨率及信息密集型视觉输入的能力。这些改进在 长文档问答 场景中尤为有效,此时模型需从多页内容中收集并整合线索以得出正确答案。
“以图思考”(Think with Image)
我们引入了 “以图思考” 能力,将视觉从被动输入转变为主动的认知工作区。在推理过程中,模型可主动调用视觉工具(如裁剪和旋转),在其思维链(Chain-of-Thought)中重新审视和分析图像区域,从而实现对视觉输入的多轮、自省式推理,提升复杂任务的准确性。
强化的 OCR、文档与图表理解能力
延续我们在信息密集型视觉任务上的专注,我们进一步增强了模型在 光学字符识别(OCR)、文档理解 和 图表/示意图分析 方面的能力。Ovis2.6 不仅能精准地从视觉数据中提取结构化信息,还能对提取内容进行 推理。
## 环境依赖 | 软件 | 版本 | | :----------: | :--------------------------------------------: | | DTK | 26.04.2 | | python | 3.10.12 | | transformers | 4.57.6 | | vllm | 0.15.1+das.opt1.alpha.dtk2604.20260220.g2799735a | | torch | 2.9.0+das.opt1.dtk2604.20260206.g275d08c2 | | numpy | 1.25.0 | | pillow | 11.3.0 | | moviepy | 1.0.3 | | accelerate | 1.12.0 | | flash_attn | 2.6.1+das.opt1.dtk2604.torch291.20260210.g7808665e | 推荐使用镜像:harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220 - 挂载地址`-v`根据实际模型情况修改 ```bash docker run -it \ --shm-size 200g \ --network=host \ --name ovis2.6 \ --privileged \ --device=/dev/kfd \ --device=/dev/dri \ --device=/dev/mkfd \ --group-add video \ --cap-add=SYS_PTRACE \ --security-opt seccomp=unconfined \ -u root \ -v /opt/hyhal/:/opt/hyhal/:ro \ -v /path/your_code_data/:/path/your_code_data/ \ harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220 bash ``` 更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。 关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装,moviepy库需要单独安装。 ```bash pip install moviepy==1.0.3 ``` ## 数据集 `暂无` ## 训练 `暂无` ## 推理 ### transformers #### 单机推理 ```bash python inference.py ``` 多图输入 ```bash python inference-mul.py ``` 视频输入 ```bash python inference-mov.py ``` ## 效果展示
### 精度 `DCU与GPU精度一致,推理框架:transformers` ## 预训练权重 | 模型名称 | 权重大小 | DCU型号 | 最低卡数需求 |下载地址| |:-----:|:----------:|:----------:|:---------------------:|:----------:| | Ovis2.6 | 30B | BW1000 | 2 | [Modelscope](https://www.modelscope.cn/models/AIDC-AI/Ovis2.6-30B-A3B) | ## 源码仓库及问题反馈 - https://developer.sourcefind.cn/codes/modelzoo/ovis2.6_pytorch ## 参考资料 - https://www.modelscope.cn/models/AIDC-AI/Ovis2