# PaddleOCR-VL-1.5 ## 论文 暂无 ## 模型简介 PaddleOCR正式推出PaddleOCR-VL-1.6,PaddleOCR-VL-1.6是在PaddleOCR-VL-1.5的基础上,通过对数据和训练策略的极致优化,在OmniDocBench v1.6 突破96.3%,在OmniDocBench v1.5、Real5-OmniDocBench上同样刷新SOTA,文本、公式、表格识别全面领先开源与闭源方案。此外,表格、古籍、生僻字识别大幅提升,印章、spotting、图表识别等多场景均有显著增强。值得一提的是,模型结构与PaddleOCR-VL-1.5完全一致,零成本适配,即换即用。
## 环境依赖 | 软件 | 版本 | | :------: | :------: | | DTK | 25.04.2 | | python | 3.10.12 | | transformers | 4.57.1 | | vllm | 0.9.2+das.opt1.dtk25042 | | paddlepaddle-dcu | 3.2.1 | | paddlex | 3.6.1 | | paddleocr | 3.6.0 | 推荐使用镜像: image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.9.2-ubuntu22.04-dtk25.04.2-py3.10-paddleocr - 挂载地址`-v`根据实际模型情况修改 ```bash docker run -it \ --shm-size 256g \ --network=host \ --name paddleocr-vl-1.6 \ --privileged \ --device=/dev/kfd \ --device=/dev/dri \ --device=/dev/mkfd \ --group-add video \ --cap-add=SYS_PTRACE \ --security-opt seccomp=unconfined \ -u root \ -v /opt/hyhal/:/opt/hyhal/:ro \ -v /path/your_code_data/:/path/your_code_data/ \ image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.9.2-ubuntu22.04-dtk25.04.2-py3.10-paddleocr bash ``` 更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。 关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装。 **升级paddle相关库** ```bash pip install paddlepaddle-dcu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/dcu/ pip install -U "paddleocr[doc-parser]>=3.6.0" ``` ## 预训练权重 | 模型名称 | 权重大小 | 数据类型 | 支持的DCU型号 | 最低卡数需求 |下载地址| |:-----:|:----------:|:----------:|:----------:|:---------------------:|:----------:| | PaddleOCR-VL-1.6 | 0.9B | BF16 | BW1000 | 1 | [ModelScope](https://modelscope.cn/models/PaddlePaddle/PaddleOCR-VL-1.6) | ## 数据集 `暂无` ## 训练 `暂无` ## 推理 ### vLLM #### 单机推理 1. 启动服务 ```bash export PADDLE_PDX_DISABLE_DEV_MODEL_WL=1 export DISABLE_MODEL_SOURCE_CHECK=1 paddleocr genai_server --model_name PaddleOCR-VL-1.6-0.9B --host 0.0.0.0 --port 8080 --backend vllm --backend_config ./vllm_config.yaml --model_dir /path/of/PaddleOCR-VL-1.6 ``` 2. 访问命令 ```bash export PADDLE_PDX_DISABLE_DEV_MODEL_WL=1 export DISABLE_MODEL_SOURCE_CHECK=1 curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "PaddleOCR-VL-1.6-0.9B", "messages": [ { "role": "user", "content": [ {"type": "image_url", "image_url": {"url": "file:///path/of/doc/paddleocr_vl_demo.png"}}, {"type": "text", "text": "OCR:"} ] } ], "temperature": 0.1 }' ``` ## 效果展示
### 精度 DCU与GPU精度一致,推理框架:vllm。 ## 源码仓库及问题反馈 - https://developer.sourcefind.cn/codes/modelzoo/paddleocr-vl-1.6 ## 参考资料 - https://github.com/PaddlePaddle/PaddleOCR