README.md 5.12 KB
Newer Older
shihm's avatar
updata  
shihm committed
1
2
# Ovis2.6
## 论文
shihm's avatar
shihm committed
3
[Ovis2.5 Technical Report](https://arxiv.org/abs/2508.11737)<br>
shihm's avatar
updata  
shihm committed
4
5
6
7
8
9
10
11
12
13
[Ovis: Structural Embedding Alignment for Multimodal Large Language Model](https://arxiv.org/abs/2405.20797)

## 模型简介
我们推出 Ovis2.6-30B-A3B,这是 Ovis 系列多模态大语言模型(MLLM)的最新进展。在 Ovis2.5 的坚实基础上,Ovis2.6 将 LLM 主干网络升级为 混合专家(Mixture-of-Experts, MoE) 架构,在显著降低推理成本的同时实现了卓越的多模态性能。此外,该模型还在长上下文与高分辨率理解、结合主动图像分析的视觉推理,以及信息密集型文档理解方面带来了重大改进。<br>
超越 GPT-5.2:在 HealthBench、HealthBench-Hard、幻觉评估和 SCAN-bench 等多项指标上全面超越 OpenAI 最新模型,树立医疗 AI 新的 SOTA。<br>

<div align="center">
    <img src="https://cdn-uploads.huggingface.co/production/uploads/658a8a837959448ef5500ce5/IPsQk8gTTMD-ipTye3WED.png" width="100%" />
</div>

shihm's avatar
shihm committed
14
### 核心特性
shihm's avatar
updata  
shihm committed
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
MoE 架构:卓越性能,低推理成本<br>
LLM 主干网络已升级为 混合专家(Mixture-of-Experts, MoE) 架构。这使得 Ovis2.6 能够扩展至 总计 300 亿参数,从而捕获海量知识与细微差异。关键在于,其推理过程中仅激活约 30 亿参数,确保了较低的推理成本和高吞吐量。<br>
增强的长序列与高分辨率处理能力<br>
Ovis2.6 将上下文窗口扩展至 64K tokens,并支持最高 2880×2880 的图像分辨率,显著提升了处理高分辨率及信息密集型视觉输入的能力。这些改进在 长文档问答 场景中尤为有效,此时模型需从多页内容中收集并整合线索以得出正确答案。<br>
“以图思考”(Think with Image)<br>
我们引入了 “以图思考” 能力,将视觉从被动输入转变为主动的认知工作区。在推理过程中,模型可主动调用视觉工具(如裁剪和旋转),在其思维链(Chain-of-Thought)中重新审视和分析图像区域,从而实现对视觉输入的多轮、自省式推理,提升复杂任务的准确性。<br>
强化的 OCR、文档与图表理解能力<br>
延续我们在信息密集型视觉任务上的专注,我们进一步增强了模型在 光学字符识别(OCR)、文档理解 和 图表/示意图分析 方面的能力。Ovis2.6 不仅能精准地从视觉数据中提取结构化信息,还能对提取内容进行 推理。<br>

<div align="center">
    <img src="https://cdn-uploads.huggingface.co/production/uploads/658a8a837959448ef5500ce5/3_A0CA-oO0Ie_WoigjAwo.png" width="100%" />
</div>



## 环境依赖

|     软件     |                      版本                      |
| :----------: | :--------------------------------------------: |
|     DTK      |                    26.04.2                     |
|    python    |                    3.10.12                     |
| transformers |                     4.57.6                     |
|     vllm     | 0.15.1+das.opt1.alpha.dtk2604.20260220.g2799735a | 
|    torch     |  2.9.0+das.opt1.dtk2604.20260206.g275d08c2     | 
|    numpy     |                    1.25.0                      |
|    pillow    |                    11.3.0                      |
|   moviepy    |                    1.0.3                       |
|  accelerate  |                    1.12.0                      |
|  flash_attn  | 2.6.1+das.opt1.dtk2604.torch291.20260210.g7808665e |

推荐使用镜像:harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220

- 挂载地址`-v`根据实际模型情况修改

```bash
docker run -it \
    --shm-size 200g \
    --network=host \
    --name ovis2.6 \
    --privileged \
    --device=/dev/kfd \
    --device=/dev/dri \
    --device=/dev/mkfd \
    --group-add video \
    --cap-add=SYS_PTRACE \
    --security-opt seccomp=unconfined \
    -u root \
    -v /opt/hyhal/:/opt/hyhal/:ro \
    -v /path/your_code_data/:/path/your_code_data/ \
    harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220 bash
```
更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。

关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装,moviepy库需要单独安装。

```bash
pip install moviepy==1.0.3
```

## 数据集

`暂无`

## 训练

`暂无`

## 推理

### transformers
#### 单机推理
```bash
python inference.py
```
shihm's avatar
shihm committed
89
 多图输入
shihm's avatar
updata  
shihm committed
90
91
92
```bash
python inference-mul.py
```
shihm's avatar
shihm committed
93
 视频输入
shihm's avatar
updata  
shihm committed
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
```bash
python inference-mov.py
```


## 效果展示
<div align=center>
    <img src="./doc/result.png"/>
</div>





### 精度
`DCU与GPU精度一致,推理框架:transformers`

## 预训练权重
| 模型名称  | 权重大小  | DCU型号  | 最低卡数需求 |下载地址|
|:-----:|:----------:|:----------:|:---------------------:|:----------:|
shihm's avatar
shihm committed
114
| Ovis2.6-30B-A3B | 30B | BW1000  | 2  | [Modelscope](https://www.modelscope.cn/models/AIDC-AI/Ovis2.6-30B-A3B) |
shihm's avatar
updata  
shihm committed
115
116

## 源码仓库及问题反馈
shihm's avatar
shihm committed
117
- https://developer.sourcefind.cn/codes/modelzoo/ovis2.6_pytorch
shihm's avatar
updata  
shihm committed
118

shihm's avatar
shihm committed
119
## 参考资料
shihm's avatar
shihm committed
120
- https://www.modelscope.cn/models/AIDC-AI/Ovis2.6-30B-A3B
shihm's avatar
updata  
shihm committed
121