README.md 5.12 KB
Newer Older
shihm's avatar
updata  
shihm committed
1
2
# Ovis2.6
## 论文
shihm's avatar
shihm committed
3
[Ovis2.5 Technical Report](https://arxiv.org/abs/2508.11737)<br>
shihm's avatar
updata  
shihm committed
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
[Ovis: Structural Embedding Alignment for Multimodal Large Language Model](https://arxiv.org/abs/2405.20797)

## 模型简介
我们推出 Ovis2.6-30B-A3B,这是 Ovis 系列多模态大语言模型(MLLM)的最新进展。在 Ovis2.5 的坚实基础上,Ovis2.6 将 LLM 主干网络升级为 混合专家(Mixture-of-Experts, MoE) 架构,在显著降低推理成本的同时实现了卓越的多模态性能。此外,该模型还在长上下文与高分辨率理解、结合主动图像分析的视觉推理,以及信息密集型文档理解方面带来了重大改进。<br>
超越 GPT-5.2:在 HealthBench、HealthBench-Hard、幻觉评估和 SCAN-bench 等多项指标上全面超越 OpenAI 最新模型,树立医疗 AI 新的 SOTA。<br>

<div align="center">
    <img src="https://cdn-uploads.huggingface.co/production/uploads/658a8a837959448ef5500ce5/IPsQk8gTTMD-ipTye3WED.png" width="100%" />
</div>

## 核心特性
MoE 架构:卓越性能,低推理成本<br>
LLM 主干网络已升级为 混合专家(Mixture-of-Experts, MoE) 架构。这使得 Ovis2.6 能够扩展至 总计 300 亿参数,从而捕获海量知识与细微差异。关键在于,其推理过程中仅激活约 30 亿参数,确保了较低的推理成本和高吞吐量。<br>
增强的长序列与高分辨率处理能力<br>
Ovis2.6 将上下文窗口扩展至 64K tokens,并支持最高 2880×2880 的图像分辨率,显著提升了处理高分辨率及信息密集型视觉输入的能力。这些改进在 长文档问答 场景中尤为有效,此时模型需从多页内容中收集并整合线索以得出正确答案。<br>
“以图思考”(Think with Image)<br>
我们引入了 “以图思考” 能力,将视觉从被动输入转变为主动的认知工作区。在推理过程中,模型可主动调用视觉工具(如裁剪和旋转),在其思维链(Chain-of-Thought)中重新审视和分析图像区域,从而实现对视觉输入的多轮、自省式推理,提升复杂任务的准确性。<br>
强化的 OCR、文档与图表理解能力<br>
延续我们在信息密集型视觉任务上的专注,我们进一步增强了模型在 光学字符识别(OCR)、文档理解 和 图表/示意图分析 方面的能力。Ovis2.6 不仅能精准地从视觉数据中提取结构化信息,还能对提取内容进行 推理。<br>

<div align="center">
    <img src="https://cdn-uploads.huggingface.co/production/uploads/658a8a837959448ef5500ce5/3_A0CA-oO0Ie_WoigjAwo.png" width="100%" />
</div>



## 环境依赖

|     软件     |                      版本                      |
| :----------: | :--------------------------------------------: |
|     DTK      |                    26.04.2                     |
|    python    |                    3.10.12                     |
| transformers |                     4.57.6                     |
|     vllm     | 0.15.1+das.opt1.alpha.dtk2604.20260220.g2799735a | 
|    torch     |  2.9.0+das.opt1.dtk2604.20260206.g275d08c2     | 
|    numpy     |                    1.25.0                      |
|    pillow    |                    11.3.0                      |
|   moviepy    |                    1.0.3                       |
|  accelerate  |                    1.12.0                      |
|  flash_attn  | 2.6.1+das.opt1.dtk2604.torch291.20260210.g7808665e |

推荐使用镜像:harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220

- 挂载地址`-v`根据实际模型情况修改

```bash
docker run -it \
    --shm-size 200g \
    --network=host \
    --name ovis2.6 \
    --privileged \
    --device=/dev/kfd \
    --device=/dev/dri \
    --device=/dev/mkfd \
    --group-add video \
    --cap-add=SYS_PTRACE \
    --security-opt seccomp=unconfined \
    -u root \
    -v /opt/hyhal/:/opt/hyhal/:ro \
    -v /path/your_code_data/:/path/your_code_data/ \
    harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220 bash
```
更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。

关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装,moviepy库需要单独安装。

```bash
pip install moviepy==1.0.3
```

## 数据集

`暂无`

## 训练

`暂无`

## 推理

### transformers
#### 单机推理
```bash
python inference.py
```
##### 多图输入
```bash
python inference-mul.py
```
##### 视频输入
```bash
python inference-mov.py
```


## 效果展示
<div align=center>
    <img src="./doc/result.png"/>
</div>





### 精度
`DCU与GPU精度一致,推理框架:transformers`

## 预训练权重
| 模型名称  | 权重大小  | DCU型号  | 最低卡数需求 |下载地址|
|:-----:|:----------:|:----------:|:---------------------:|:----------:|
| Ovis2.6 | 30B | BW1000  | 2  | [Modelscope](https://www.modelscope.cn/models/AIDC-AI/Ovis2.6-30B-A3B) |

## 源码仓库及问题反馈
shihm's avatar
shihm committed
117
- https://developer.sourcefind.cn/codes/modelzoo/ovis2.6_transformers
shihm's avatar
updata  
shihm committed
118

shihm's avatar
shihm committed
119
120
## 参考资料
- https://www.modelscope.cn/models/AIDC-AI/Ovis2
shihm's avatar
updata  
shihm committed
121