paddleOcr v5

22b7c574 · liuhy · 22b7c574 · 22b7c574 · 22b7c574 · 22b7c574
Commit 22b7c574 authored Jul 07, 2025 by liuhy
20 changed files
--- a/README.md
+++ b/README.md
+# Paddle Ocr v5
+## 论文
+A Practical Ultra Lightweight OCR System
+- https://arxiv.org/pdf/2009.09941
+## 模型结构
+详细结构通过netron（https://netron.app/）查看
+- DBNet
+ ![alt text](Doc/Images/DBNet.png)
+- CRNN
+![alt text](Doc/Images/CRNN.png)
+## 算法原理
+使用DBNet对字符区域进行分隔，并对分割后的二值图用Vatti Clipping算法对字符区域多边形简化处理，找到精确的字符区域，然后将精确的字符图片送入到CRNN网络，CRNN负责提取图片的特征，学习字符序列的上下文关系，输出是一个概率分布序列（每个时间步对应一个字符类别的概率分布），CTC 层是 CRNN 的核心组成部分之一，它解决了如何将 RNN 输出的不定长概率序列对齐到不定长的目标标签序列（即真实文本）的问题，将输出的概率序列解码为最终的文本字符串。
+![alt text](Doc/Images/pipeline.png)
+## 环境配置
+### Docker（方法一）
+拉取镜像：
+```plaintext
+docker pull image.sourcefind.cn:5000/dcu/admin/base/migraphx:5.0.0-ubuntu22.04-dtk25.04.1-py3.10
+```
+创建并启动容器：
+```plaintext
+docker run --shm-size 16g --network=host --name=ppocr_migraphx --privileged --device=/dev/kfd --device=/dev/dri --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -v $PWD/ppocr_migraphx:/home/ppocr_migraphx -v /opt/hyhal:/opt/hyhal:ro -it <Your Image ID> /bin/bash
+# 激活dtk
+source /opt/dtk/env.sh
+```
+### Dockerfile（方法二）
+```plaintext
+cd ./docker
+docker build --no-cache -t ppocrv5_migraphx:1.0 .
+docker run --shm-size 16g --network=host --name=ppocr_migraphx --privileged --device=/dev/kfd --device=/dev/dri --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -v $PWD/ppocr_migraphx:/home/ppocr_migraphx -v /opt/hyhal:/opt/hyhal:ro -it <Your Image ID> /bin/bash
+# 激活dtk
+source /opt/dtk/env.sh
+```
+## 数据集
+根据需求上传所需图像，测试图片位于Resource/Image下
+## 推理
+### Python版本推理
+下面介绍如何运行Python代码示例，Python示例的详细说明见Doc目录下的Tutorial_Python.md。
+#### 设置环境变量
+```
+export PYTHONPATH=/opt/dtk/lib:$PYTHONPATH
+```
+#### 运行示例
+```python
+# 进入ppocrv5 migraphx工程根目录
+cd <ppocrv5_migraphx> 
+# 进入示例程序目录
+cd Python/
+# 安装依赖
+pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
+如果离线环境，可手动安装需要的依赖,依赖的.whl文件存放在3rdParty/rbuild_depend目录下
+```
+```
+python inference.py
+```
+offload_copy和precision_mode参考[text](Doc/Tutorial_Python.md)，在main中设置
+### C++版本推理
+注意：当使用操作系统不一样时，CMakeList需要做相应的修改：
+```
+# ubuntu操作系统
+${CMAKE_CURRENT_SOURCE_DIR}/depend/lib64/ 修改为 ${CMAKE_CURRENT_SOURCE_DIR}/depend/lib/
+# centos操作系统
+${CMAKE_CURRENT_SOURCE_DIR}/depend/lib/ 修改为 ${CMAKE_CURRENT_SOURCE_DIR}/depend/lib64/
+```
+下面介绍如何运行C++代码示例，C++示例的详细说明见Doc目录下的Tutorial_Cpp.md。
+#### 安装Opencv依赖
+```python
+cd <path_to_ppocrv5_migraphx>
+sh ./3rdParty/InstallOpenCVDependences.sh
+```
+#### 安装OpenCV并构建工程
+```
+rbuild build -d depend
+```
+如果构建不成功可手动编译OpenCV，步骤如下：
+- 进入到3rdParty下解压opencv，tar -xvzf opencv-3.4.11_mini.tar.gz
+- 进入到opencv-3.4.11_mini目录下创建build目录，cd build
+- 执行以下命令：
+```
+cmake -D CMAKE_BUILD_TYPE=RELEASE       -D CMAKE_INSTALL_PREFIX=./opencv_dep      -D INSTALL_C_EXAMPLES=ON       -D INSTALL_PYTHON_EXAMPLES=ON       -D OPENCV_GENERATE_PKGCONFIG=ON       -D BUILD_EXAMPLES=ON  -D OPENCV_EXTRA_MODULES_PATH=../modules/ ..
+```
+- 执行make -j8 && make install,编译的头文件和库目录存放在opencv_dep,将opencv_dep目录拷贝到3rdParty,并命名为opencv
+#### 设置环境变量
+将依赖库依赖加入环境变量LD_LIBRARY_PATH，在~/.bashrc中添加如下语句：
+当操作系统是ubuntu系统时：
+```
+export LD_LIBRARY_PATH=<path_to_ppocrv5_migraphx>/depend/lib/:$LD_LIBRARY_PATH
+```
+当操作系统是centos系统时：
+```
+export LD_LIBRARY_PATH=<path_to_ppocrv5_migraphx>/depend/lib64/:$LD_LIBRARY_PATH
+```
+然后执行:
+```
+source ~/.bashrc
+```
+#### 运行示例
+```python
+# 进入ppocrv5 migraphx工程根目录
+cd <path_to_ppocrv5_migraphx> 
+# 进入build目录
+cd build/
+#编译
+cmake .. && make 
+#运行
+./ppOcrV5cd 
+```
+## result
+### Python版本
+输出结果中，每个值分别对应每个label的实际概率。
+```
+产品信息/参数, 0.954
+发足够的滋养, 1.000
+纯臻宫乔护发素, 0.883
+花费了'0'.'4''5''7''3''3''5'秒, 0.993
+【净含量】：'2''2''0'ml, 0.993
+每瓶'2''2'元，'1''0''0''0'瓶起订）, 0.998
+【品名】：纯臻营养护发素, 0.998
+【品牌】：代加工方式/'0'EMODM, 0.968
+糖、椰油酰胺丙基甜菜碱、泛醒, 0.997
+【适用人群】：适合所有肤质, 0.998
+【产品编号】：YM'-'X'-''3''0''1''1''0'.'9''6''8''9''9', 0.993
+（'4''5'元/每公斤，'1''0''0'公斤起订）, 0.972
+【主要成分】：鲸蜡硬脂醇、燕麦B'-'葡聚, 0.966
+【主要功能】：可紧致头发磷层，从而达到, 0.994
+即时持久改善头发光泽的效果，给干燥的头, 0.997
+The detectionvisualizedimagsavedin./vis.jpg, 0.940
+[Time info] elapsed:3.5736
+```
+### C++版本
+```
+ocr res :[生成一幅画，负向提示词为：画中不要出现人物。正负提示词结合会]
+ocr res :[Text_encode_'2'.副文本编码器，补充描述性细节(如材质、光照、]
+ocr res :[图片的准确性，过滤掉不需要的元素，例如正向提示词为：提示模型]
+ocr res :[编码器特征融合提升模型的理解能力。]
+ocr res :[正负 prompt 设置：正向 prompt 和负向 prompt 结合可以提升生成]
+ocr res :[语义表示捕获提示词的基础含义和全局语境（如对象、动作），与副]
+ocr res :[的图像不会发生变化，随机种子可以增加生成图像的多样性。]
+ocr res :[Text_encode.主文本编码器，将prompt序列转换为一个综合的]
+ocr res :[响初始噪声和生成结果的确定性，固定种子后，同一个prompt生成]
+ocr res :[声转化为目标图像。]
+ocr res :[随机数设置：随机数种子是控制生成过程随机性的关键参数，直接影]
+ocr res :[Scheduler：调度器，控制图像生成，决定了如何逐步将随机噪]
+ocr res :[程和图像生成过程中有着至关重要的作用。]
+ocr res :[在stable'-'dffusion'-'xl'-'base'-''1'.'0'模型中主要包含一下子组件：]
+ocr res :[Pipeline的配置参数控制图像生成的质量和速度，在扩散模型预测过]
+ocr res :[具配置文件中的定义手动加载各个子组件。]
+ocr res :[这里使用了扩散模型加载器统一加载了所有的子组件，也可以更]
+ocr res :[·'2'.'3'pipeline 配置]
+Time taken by task: 3475 ms
+```
+### 精度
+无
+## 应用场景
+图片文字提取，票据扫描、工业铭牌识别等
+### 算法类别
+OCR
+### 热点应用行业
+制造,政府,医疗,科研,交通,教育
+## 源码仓库及问题反馈
+https://developer.sourcefind.cn/codes/modelzoo/ppocrv5_migraphx
+## 参考资料
+ https://zhuanlan.zhihu.com/p/43534801
--- a/Resource/Images/20250703205038.png
+++ b/Resource/Images/20250703205038.png
--- a/Resource/Images/lite_demo.png
+++ b/Resource/Images/lite_demo.png
--- a/Resource/Models/ppocrv5_server_det_infer.onnx
+++ b/Resource/Models/ppocrv5_server_det_infer.onnx
--- a/Resource/Models/ppocrv5_server_rec_infer.onnx
+++ b/Resource/Models/ppocrv5_server_rec_infer.onnx
--- a/Resource/fonts/arabic.ttf
+++ b/Resource/fonts/arabic.ttf
--- a/Resource/fonts/chinese_cht.ttf
+++ b/Resource/fonts/chinese_cht.ttf
--- a/Resource/fonts/cyrillic.ttf
+++ b/Resource/fonts/cyrillic.ttf
--- a/Resource/fonts/french.ttf
+++ b/Resource/fonts/french.ttf
--- a/Resource/fonts/german.ttf
+++ b/Resource/fonts/german.ttf
--- a/Resource/fonts/hindi.ttf
+++ b/Resource/fonts/hindi.ttf
--- a/Resource/fonts/japan.ttc
+++ b/Resource/fonts/japan.ttc
--- a/Resource/fonts/kannada.ttf
+++ b/Resource/fonts/kannada.ttf
--- a/Resource/fonts/korean.ttf
+++ b/Resource/fonts/korean.ttf
--- a/Resource/fonts/latin.ttf
+++ b/Resource/fonts/latin.ttf
--- a/Resource/fonts/marathi.ttf
+++ b/Resource/fonts/marathi.ttf
--- a/Resource/fonts/nepali.ttf
+++ b/Resource/fonts/nepali.ttf
--- a/Resource/fonts/persian.ttf
+++ b/Resource/fonts/persian.ttf
--- a/Resource/fonts/simfang.ttf
+++ b/Resource/fonts/simfang.ttf
--- a/Resource/fonts/spanish.ttf
+++ b/Resource/fonts/spanish.ttf