README.md

# Ovis2.6
## 论文
[Ovis2.5 Technical Report](https://arxiv.org/abs/2508.11737)<br>
[Ovis: Structural Embedding Alignment for Multimodal Large Language Model](https://arxiv.org/abs/2405.20797)

## 模型简介
我们推出 Ovis2.6-30B-A3B，这是 Ovis 系列多模态大语言模型（MLLM）的最新进展。在 Ovis2.5 的坚实基础上，Ovis2.6 将 LLM 主干网络升级为 混合专家（Mixture-of-Experts, MoE） 架构，在显著降低推理成本的同时实现了卓越的多模态性能。此外，该模型还在长上下文与高分辨率理解、结合主动图像分析的视觉推理，以及信息密集型文档理解方面带来了重大改进。<br>
超越 GPT-5.2：在 HealthBench、HealthBench-Hard、幻觉评估和 SCAN-bench 等多项指标上全面超越 OpenAI 最新模型，树立医疗 AI 新的 SOTA。<br>

<div align="center">
    <img src="https://cdn-uploads.huggingface.co/production/uploads/658a8a837959448ef5500ce5/IPsQk8gTTMD-ipTye3WED.png" width="100%" />
</div>

## 核心特性
MoE 架构：卓越性能，低推理成本<br>
LLM 主干网络已升级为 混合专家（Mixture-of-Experts, MoE） 架构。这使得 Ovis2.6 能够扩展至 总计 300 亿参数，从而捕获海量知识与细微差异。关键在于，其推理过程中仅激活约 30 亿参数，确保了较低的推理成本和高吞吐量。<br>
增强的长序列与高分辨率处理能力<br>
Ovis2.6 将上下文窗口扩展至 64K tokens，并支持最高 2880×2880 的图像分辨率，显著提升了处理高分辨率及信息密集型视觉输入的能力。这些改进在 长文档问答 场景中尤为有效，此时模型需从多页内容中收集并整合线索以得出正确答案。<br>
“以图思考”（Think with Image）<br>
我们引入了 “以图思考” 能力，将视觉从被动输入转变为主动的认知工作区。在推理过程中，模型可主动调用视觉工具（如裁剪和旋转），在其思维链（Chain-of-Thought）中重新审视和分析图像区域，从而实现对视觉输入的多轮、自省式推理，提升复杂任务的准确性。<br>
强化的 OCR、文档与图表理解能力<br>
延续我们在信息密集型视觉任务上的专注，我们进一步增强了模型在 光学字符识别（OCR）、文档理解 和 图表/示意图分析 方面的能力。Ovis2.6 不仅能精准地从视觉数据中提取结构化信息，还能对提取内容进行 推理。<br>

<div align="center">
    <img src="https://cdn-uploads.huggingface.co/production/uploads/658a8a837959448ef5500ce5/3_A0CA-oO0Ie_WoigjAwo.png" width="100%" />
</div>


## 环境依赖

|     软件     |                      版本                      |
| :----------: | :--------------------------------------------: |
|     DTK      |                    26.04.2                     |
|    python    |                    3.10.12                     |
| transformers |                     4.57.6                     |
|     vllm     | 0.15.1+das.opt1.alpha.dtk2604.20260220.g2799735a | 
|    torch     |  2.9.0+das.opt1.dtk2604.20260206.g275d08c2     | 
|    numpy     |                    1.25.0                      |
|    pillow    |                    11.3.0                      |
|   moviepy    |                    1.0.3                       |
|  accelerate  |                    1.12.0                      |
|  flash_attn  | 2.6.1+das.opt1.dtk2604.torch291.20260210.g7808665e |

推荐使用镜像：harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220

- 挂载地址`-v`根据实际模型情况修改

```bash
docker run -it \
    --shm-size 200g \
    --network=host \
    --name ovis2.6 \
    --privileged \
    --device=/dev/kfd \
    --device=/dev/dri \
    --device=/dev/mkfd \
    --group-add video \
    --cap-add=SYS_PTRACE \
    --security-opt seccomp=unconfined \
    -u root \
    -v /opt/hyhal/:/opt/hyhal/:ro \
    -v /path/your_code_data/:/path/your_code_data/ \
    harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220 bash
```
更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。

关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装，moviepy库需要单独安装。

```bash
pip install moviepy==1.0.3
```

## 数据集

`暂无`

## 训练

`暂无`

## 推理

### transformers
#### 单机推理
```bash
python inference.py
```
##### 多图输入
```bash
python inference-mul.py
```
##### 视频输入
```bash
python inference-mov.py
```


## 效果展示
<div align=center>
    <img src="./doc/result.png"/>
</div>


### 精度
`DCU与GPU精度一致，推理框架：transformers`

## 预训练权重
| 模型名称  | 权重大小  | DCU型号  | 最低卡数需求 |下载地址|
|:-----:|:----------:|:----------:|:---------------------:|:----------:|
| Ovis2.6 | 30B | BW1000  | 2  | [Modelscope](https://www.modelscope.cn/models/AIDC-AI/Ovis2.6-30B-A3B) |

## 源码仓库及问题反馈
- https://developer.sourcefind.cn/codes/modelzoo/ovis2.6_transformers

## 参考资料
- https://www.modelscope.cn/models/AIDC-AI/Ovis2