README.md 4.4 KB
Newer Older
zzg_666's avatar
zzg_666 committed
1
2
3
4
5
6
7
8
# Qianfan-OCR
## 论文
[Qianfan-OCR](https://arxiv.org/abs/2603.13398)

## 模型简介
Qianfan-OCR是由百度千帆团队研发的一款参数量为40亿(4B)的端到端文档智能模型。该模型在统一的视觉-语言架构下,实现了文档解析、版面分析与文档理解的深度融合。
相较于传统多阶段OCR流水线将版面检测、文本识别与语言理解模块串联执行的范式,Qianfan-OCR采用直接图像到Markdown的端到端转换机制,并支持广泛的提示驱动(prompt-driven)任务。其能力涵盖结构化文档解析、表格抽取、图表理解、文档问答以及关键信息提取等多元场景,所有功能均在单一模型内实现闭环处理。  
核心亮点:  
zzg_666's avatar
修改  
zzg_666 committed
9
10
11
12
13
🏆 OmniDocBench v1.5 端到端模型榜首:综合得分高达93.12,超越DeepSeek-OCR-v2(91.09)、Gemini-3 Pro(90.33)及所有其他端到端模型。  
🏆 OlmOCR Bench 端到端模型榜首:得分79.8。  
🏆 关键信息提取(KIE)性能第一:在五个公开 KIE 基准测试中取得87.9的平均分,优于Gemini-3.1-Pro、Gemini-3-Pro、Seed-2.0 及 Qwen3-VL-235B-A22B。  
🧠 Layout-as-Thought(版面即思维):一种创新的可选思维链(Chain-of-Thought)机制,通过引入  标记,在端到端范式内显式重构版面分析过程,增强模型推理能力。  
🌍 支持192种语言:具备广泛的多语言OCR能力,覆盖多种文字脚本。  
zzg_666's avatar
zzg_666 committed
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
⚡ 高效部署:在单张A100 GPU上采用W8A8量化(权重与激活值均为8比特)技术,推理吞吐量高达1.024 PPS(页/秒)。


## 环境依赖
| 软件 | 版本 |
| :------: | :------: |
| DTK | 26.04 |
| python | 3.10.12 |
| torch | 2.9.0+das.opt1.dtk2604.20260206.g275d08c2 |
| transformers | 5.0.0.dev0 |
| vllm | 0.15.1+das.opt1.alpha.dtk2604.20260220.g2799735a |

推荐使用镜像: harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220

- 挂载地址`-v`根据实际模型情况修改

```bash
docker run -it \
    --shm-size 200g \
    --network=host \
    --name Qianfan-OCR \
    --privileged \
    --device=/dev/kfd \
    --device=/dev/dri \
    --device=/dev/mkfd \
    --group-add video \
    --cap-add=SYS_PTRACE \
    --security-opt seccomp=unconfined \
    -u root \
    -v /opt/hyhal/:/opt/hyhal/:ro \
    -v /path/your_code_data/:/path/your_code_data/ \
    harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220 bash
```

更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用,其它包安装:
```
pip install pycountry
```

## 数据集
`暂无`

## 训练
`暂无`

## 推理
### vllm
#### 单机推理
```bash
## serve启动
vllm serve baidu-qianfan/Qianfan-OCR --trust-remote-code --dtype bfloat16 -tp 1 --max-model-len 32768

## client访问
curl -X POST "http://localhost:8010/v1/chat/completions"    -H "Content-Type: application/json"     --data '{
                "model": "baidu-qianfan/Qianfan-OCR",
                "messages": [
                        {
                                "role": "user",
                                "content": [
                                        {
                                                "type": "text",
                                                "text": "Describe this image in one sentence."
                                        },
                                        {
                                                "type": "image_url",
                                                "image_url": {
                                                        "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
                                                }
                                        }
                                ]
                        }
                ]
        }'


```

## 效果展示
<div align=center>
    <img src="./doc/result.png"/>
</div>

### 精度
`DCU与GPU精度一致,推理框架:vllm。`

## 预训练权重
| 模型名称  | 权重大小  | DCU型号  | 最低卡数需求 |下载地址|
|:-----:|:----------:|:----------:|:---------------------:|:----------:|
| Qianfan-OCR | 4B | BW1000 | 1 | [HuggingFace](https://huggingface.co/baidu/Qianfan-OCR) |


## 源码仓库及问题反馈
- https://developer.sourcefind.cn/codes/modelzoo/qianfan-ocr_vllm

## 参考资料
- https://github.com/baidubce/Qianfan-VL