# PaddleOCR-VL-1.5
## 论文
暂无
## 模型简介
PaddleOCR正式推出PaddleOCR-VL-1.6,PaddleOCR-VL-1.6是在PaddleOCR-VL-1.5的基础上,通过对数据和训练策略的极致优化,在OmniDocBench v1.6 突破96.3%,在OmniDocBench v1.5、Real5-OmniDocBench上同样刷新SOTA,文本、公式、表格识别全面领先开源与闭源方案。此外,表格、古籍、生僻字识别大幅提升,印章、spotting、图表识别等多场景均有显著增强。值得一提的是,模型结构与PaddleOCR-VL-1.5完全一致,零成本适配,即换即用。
## 环境依赖
| 软件 | 版本 |
| :------: | :------: |
| DTK | 25.04.2 |
| python | 3.10.12 |
| transformers | 4.57.1 |
| vllm | 0.9.2+das.opt1.dtk25042 |
| paddlepaddle-dcu | 3.2.1 |
| paddlex | 3.6.1 |
| paddleocr | 3.6.0 |
推荐使用镜像: image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.9.2-ubuntu22.04-dtk25.04.2-py3.10-paddleocr
- 挂载地址`-v`根据实际模型情况修改
```bash
docker run -it \
--shm-size 256g \
--network=host \
--name paddleocr-vl-1.6 \
--privileged \
--device=/dev/kfd \
--device=/dev/dri \
--device=/dev/mkfd \
--group-add video \
--cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined \
-u root \
-v /opt/hyhal/:/opt/hyhal/:ro \
-v /path/your_code_data/:/path/your_code_data/ \
image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.9.2-ubuntu22.04-dtk25.04.2-py3.10-paddleocr bash
```
更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。
关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装。
**升级paddle相关库**
```bash
pip install paddlepaddle-dcu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/dcu/
pip install -U "paddleocr[doc-parser]>=3.6.0"
```
## 预训练权重
| 模型名称 | 权重大小 | 数据类型 | 支持的DCU型号 | 最低卡数需求 |下载地址|
|:-----:|:----------:|:----------:|:----------:|:---------------------:|:----------:|
| PaddleOCR-VL-1.6 | 0.9B | BF16 | BW1000 | 1 | [ModelScope](https://modelscope.cn/models/PaddlePaddle/PaddleOCR-VL-1.6) |
## 数据集
`暂无`
## 训练
`暂无`
## 推理
### vLLM
#### 单机推理
1. 启动服务
```bash
export PADDLE_PDX_DISABLE_DEV_MODEL_WL=1
export DISABLE_MODEL_SOURCE_CHECK=1
paddleocr genai_server --model_name PaddleOCR-VL-1.6-0.9B --host 0.0.0.0 --port 8080 --backend vllm --backend_config ./vllm_config.yaml --model_dir /path/of/PaddleOCR-VL-1.6
```
2. 访问命令
```bash
export PADDLE_PDX_DISABLE_DEV_MODEL_WL=1
export DISABLE_MODEL_SOURCE_CHECK=1
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "PaddleOCR-VL-1.6-0.9B",
"messages": [
{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": "file:///path/of/doc/paddleocr_vl_demo.png"}},
{"type": "text", "text": "OCR:"}
]
}
],
"temperature": 0.1
}'
```
## 效果展示
### 精度
DCU与GPU精度一致,推理框架:vllm。
## 源码仓库及问题反馈
- https://developer.sourcefind.cn/codes/modelzoo/paddleocr-vl-1.6
## 参考资料
- https://github.com/PaddlePaddle/PaddleOCR