Commit 72340ba7 authored by myhloli's avatar myhloli
Browse files

feat: update README_zh-CN with new PP-OCRv5 model support and handwritten document recognition

parent e422bdc0
...@@ -47,62 +47,138 @@ ...@@ -47,62 +47,138 @@
</div> </div>
# 更新记录 # 更新记录
- 2025/05/24 1.3.12 发布
- 增加ppocrv5模型的支持,将`ch_server`模型更新为`PP-OCRv5_rec_server``ch_lite`模型更新为`PP-OCRv5_rec_mobile`(需更新模型)
- 在测试中,发现ppocrv5(server)对手写文档效果有一定提升,但在其余类别文档的精度略差于v4_server_doc,因此默认的ch模型保持不变,仍为`PP-OCRv4_server_rec_doc`
- 由于ppocrv5强化了手写场景和特殊字符的识别能力,因此您可以在日繁混合场景以及手写文档场景下手动选择使用ppocrv5模型 <details>
- 您可通过lang参数`lang='ch_server'`(python api)或`--lang ch_server`(命令行)自行选择相应的模型: <summary>2025/05/24 1.3.12 发布</summary>
- `ch``PP-OCRv4_rec_server_doc`(默认)(中英日繁混合/1.5w字典) <ul>
- `ch_server``PP-OCRv5_rec_server`(中英日繁混合+手写场景/1.8w字典) <li>增加ppocrv5模型的支持,将<code>ch_server</code>模型更新为<code>PP-OCRv5_rec_server</code><code>ch_lite</code>模型更新为<code>PP-OCRv5_rec_mobile</code>(需更新模型)
- `ch_lite``PP-OCRv5_rec_mobile`(中英日繁混合+手写场景/1.8w字典) <ul>
- `ch_server_v4``PP-OCRv4_rec_server`(中英混合/6k字典) <li>在测试中,发现ppocrv5(server)对手写文档效果有一定提升,但在其余类别文档的精度略差于v4_server_doc,因此默认的ch模型保持不变,仍为<code>PP-OCRv4_server_rec_doc</code></li>
- `ch_lite_v4``PP-OCRv4_rec_mobile`(中英混合/6k字典) <li>由于ppocrv5强化了手写场景和特殊字符的识别能力,因此您可以在日繁混合场景以及手写文档场景下手动选择使用ppocrv5模型</li>
- 增加手写文档的支持,通过优化layout对手写文本区域的识别,现已支持手写文档的解析 <li>您可通过lang参数<code>lang='ch_server'</code>(python api)或<code>--lang ch_server</code>(命令行)自行选择相应的模型:
- 默认支持此功能,无需额外配置 <ul>
- 可以参考上述说明,手动选择ppocrv5模型以获得更好的手写文档解析效果 <li><code>ch</code><code>PP-OCRv4_rec_server_doc</code>(默认)(中英日繁混合/1.5w字典)</li>
- `huggingface``modelscope`的demo已更新为支持手写识别和ppocrv5模型的版本,可自行在线体验 <li><code>ch_server</code><code>PP-OCRv5_rec_server</code>(中英日繁混合+手写场景/1.8w字典)</li>
- 2025/04/29 1.3.10 发布 <li><code>ch_lite</code><code>PP-OCRv5_rec_mobile</code>(中英日繁混合+手写场景/1.8w字典)</li>
- 支持使用自定义公式标识符,可通过修改用户目录下的`magic-pdf.json`文件中的`latex-delimiter-config`项实现。 <li><code>ch_server_v4</code><code>PP-OCRv4_rec_server</code>(中英混合/6k字典)</li>
- 2025/04/27 1.3.9 发布 <li><code>ch_lite_v4</code><code>PP-OCRv4_rec_mobile</code>(中英混合/6k字典)</li>
- 优化公式解析功能,提升公式渲染的成功率 </ul>
- 2025/04/23 1.3.8 发布 </li>
- `ocr`默认模型(`ch`)更新为`PP-OCRv4_server_rec_doc`(需更新模型) </ul>
- `PP-OCRv4_server_rec_doc`是在`PP-OCRv4_server_rec`的基础上,在更多中文文档数据和PP-OCR训练数据的混合数据训练而成,增加了部分繁体字、日文、特殊字符的识别能力,可支持识别的字符为1.5万+,除文档相关的文字识别能力提升外,也同时提升了通用文字的识别能力。 </li>
- [PP-OCRv4_server_rec_doc/PP-OCRv4_server_rec/PP-OCRv4_mobile_rec 性能对比](https://paddlepaddle.github.io/PaddleX/latest/module_usage/tutorials/ocr_modules/text_recognition.html#_3) <li>增加手写文档的支持,通过优化layout对手写文本区域的识别,现已支持手写文档的解析
- 经验证,`PP-OCRv4_server_rec_doc`模型在`中英日繁`单种语言或多种语言混合场景均有明显精度提升,且速度与`PP-OCRv4_server_rec`相当,适合绝大部分场景使用。 <ul>
- `PP-OCRv4_server_rec_doc`在小部分纯英文场景可能会发生单词粘连问题,`PP-OCRv4_server_rec`则在此场景下表现更好,因此我们保留了`PP-OCRv4_server_rec`模型,用户可通过增加参数`lang='ch_server'`(python api)或`--lang ch_server`(命令行)调用。 <li>默认支持此功能,无需额外配置</li>
- 2025/04/22 1.3.7 发布 <li>可以参考上述说明,手动选择ppocrv5模型以获得更好的手写文档解析效果</li>
- 修复表格解析模型初始化时lang参数失效的问题 </ul>
- 修复在`cpu`模式下ocr和表格解析速度大幅下降的问题 </li>
- 2025/04/16 1.3.4 发布 <li><code>huggingface</code><code>modelscope</code>的demo已更新为支持手写识别和ppocrv5模型的版本,可自行在线体验</li>
- 通过移除一些无用的块,小幅提升了ocr-det的速度 </ul>
- 修复部分情况下由footnote导致的页面内排序错误 </details>
- 2025/04/12 1.3.2 发布
- 修复了windows系统下,在python3.13环境安装时一些依赖包版本不兼容的问题 <details>
- 优化批量推理时的内存占用 <summary>2025/04/29 1.3.10 发布</summary>
- 优化旋转90度表格的解析效果 <ul>
- 优化财报样本中超大表格的解析效果 <li>支持使用自定义公式标识符,可通过修改用户目录下的<code>magic-pdf.json</code>文件中的<code>latex-delimiter-config</code>项实现。</li>
- 修复了在未指定OCR语言时,英文文本区域偶尔出现的单词黏连问题(需要更新模型) </ul>
- 2025/04/08 1.3.1 发布,修复了一些兼容问题 </details>
- 支持python 3.13
- 为部分过时的linux系统(如centos7)做出最后适配,并不再保证后续版本的继续支持,[安装说明](https://github.com/opendatalab/MinerU/issues/1004) <details>
- 2025/04/03 1.3.0 发布,在这个版本我们做出了许多优化和改进: <summary>2025/04/27 1.3.9 发布</summary>
- 安装与兼容性优化 <ul>
- 通过移除layout中`layoutlmv3`的使用,解决了由`detectron2`导致的兼容问题 <li>优化公式解析功能,提升公式渲染的成功率</li>
- torch版本兼容扩展到2.2~2.6(2.5除外) </ul>
- cuda兼容支持11.8/12.4/12.6/12.8(cuda版本由torch决定),解决部分用户50系显卡与H系显卡的兼容问题 </details>
- python兼容版本扩展到3.10~3.12,解决了在非3.10环境下安装时自动降级到0.6.1的问题
- 优化离线部署流程,部署成功后不需要联网下载任何模型文件 <details>
- 性能优化 <summary>2025/04/23 1.3.8 发布</summary>
- 通过支持多个pdf文件的batch处理([脚本样例](demo/batch_demo.py)),提升了批量小文件的解析速度 (与1.0.1版本相比,公式解析速度最高提升超过1400%,整体解析速度最高提升超过500%) <ul>
- 通过优化mfr模型的加载和使用,降低了显存占用并提升了解析速度(需重新执行[模型下载流程](docs/how_to_download_models_zh_cn.md)以获得模型文件的增量更新) <li><code>ocr</code>默认模型(<code>ch</code>)更新为<code>PP-OCRv4_server_rec_doc</code>(需更新模型)
- 优化显存占用,最低仅需6GB即可运行本项目 <ul>
- 优化了在mps设备上的运行速度 <li><code>PP-OCRv4_server_rec_doc</code>是在<code>PP-OCRv4_server_rec</code>的基础上,在更多中文文档数据和PP-OCR训练数据的混合数据训练而成,增加了部分繁体字、日文、特殊字符的识别能力,可支持识别的字符为1.5万+,除文档相关的文字识别能力提升外,也同时提升了通用文字的识别能力。</li>
- 解析效果优化 <li><a href="https://paddlepaddle.github.io/PaddleX/latest/module_usage/tutorials/ocr_modules/text_recognition.html#_3">PP-OCRv4_server_rec_doc/PP-OCRv4_server_rec/PP-OCRv4_mobile_rec 性能对比</a></li>
- mfr模型更新到`unimernet(2503)`,解决多行公式中换行丢失的问题 <li>经验证,<code>PP-OCRv4_server_rec_doc</code>模型在<code>中英日繁</code>单种语言或多种语言混合场景均有明显精度提升,且速度与<code>PP-OCRv4_server_rec</code>相当,适合绝大部分场景使用。</li>
- 易用性优化 <li><code>PP-OCRv4_server_rec_doc</code>在小部分纯英文场景可能会发生单词粘连问题,<code>PP-OCRv4_server_rec</code>则在此场景下表现更好,因此我们保留了<code>PP-OCRv4_server_rec</code>模型,用户可通过增加参数<code>lang='ch_server'</code>(python api)或<code>--lang ch_server</code>(命令行)调用。</li>
- 通过使用`paddleocr2torch`,完全替代`paddle`框架以及`paddleocr`在项目中的使用,解决了`paddle``torch`的冲突问题,和由于`paddle`框架导致的线程不安全问题 </ul>
- 解析过程增加实时进度条显示,精准把握解析进度,让等待不再痛苦 </li>
</ul>
</details>
<details>
<summary>2025/04/22 1.3.7 发布</summary>
<ul>
<li>修复表格解析模型初始化时lang参数失效的问题</li>
<li>修复在<code>cpu</code>模式下ocr和表格解析速度大幅下降的问题</li>
</ul>
</details>
<details>
<summary>2025/04/16 1.3.4 发布</summary>
<ul>
<li>通过移除一些无用的块,小幅提升了ocr-det的速度</li>
<li>修复部分情况下由footnote导致的页面内排序错误</li>
</ul>
</details>
<details>
<summary>2025/04/12 1.3.2 发布</summary>
<ul>
<li>修复了windows系统下,在python3.13环境安装时一些依赖包版本不兼容的问题</li>
<li>优化批量推理时的内存占用</li>
<li>优化旋转90度表格的解析效果</li>
<li>优化财报样本中超大表格的解析效果</li>
<li>修复了在未指定OCR语言时,英文文本区域偶尔出现的单词黏连问题(需要更新模型)</li>
</ul>
</details>
<details>
<summary>2025/04/08 1.3.1 发布</summary>
<ul>
<li>修复了一些兼容问题
<ul>
<li>支持python 3.13</li>
<li>为部分过时的linux系统(如centos7)做出最后适配,并不再保证后续版本的继续支持,<a href="https://github.com/opendatalab/MinerU/issues/1004">安装说明</a></li>
</ul>
</li>
</ul>
</details>
<details>
<summary>2025/04/03 1.3.0 发布</summary>
<ul>
<li>安装与兼容性优化
<ul>
<li>通过移除layout中<code>layoutlmv3</code>的使用,解决了由<code>detectron2</code>导致的兼容问题</li>
<li>torch版本兼容扩展到2.2~2.6(2.5除外)</li>
<li>cuda兼容支持11.8/12.4/12.6/12.8(cuda版本由torch决定),解决部分用户50系显卡与H系显卡的兼容问题</li>
<li>python兼容版本扩展到3.10~3.12,解决了在非3.10环境下安装时自动降级到0.6.1的问题</li>
<li>优化离线部署流程,部署成功后不需要联网下载任何模型文件</li>
</ul>
</li>
<li>性能优化
<ul>
<li>通过支持多个pdf文件的batch处理(<a href="demo/batch_demo.py">脚本样例</a>),提升了批量小文件的解析速度 (与1.0.1版本相比,公式解析速度最高提升超过1400%,整体解析速度最高提升超过500%)</li>
<li>通过优化mfr模型的加载和使用,降低了显存占用并提升了解析速度(需重新执行<a href="docs/how_to_download_models_zh_cn.md">模型下载流程</a>以获得模型文件的增量更新)</li>
<li>优化显存占用,最低仅需6GB即可运行本项目</li>
<li>优化了在mps设备上的运行速度</li>
</ul>
</li>
<li>解析效果优化
<ul>
<li>mfr模型更新到<code>unimernet(2503)</code>,解决多行公式中换行丢失的问题</li>
</ul>
</li>
<li>易用性优化
<ul>
<li>通过使用<code>paddleocr2torch</code>,完全替代<code>paddle</code>框架以及<code>paddleocr</code>在项目中的使用,解决了<code>paddle</code><code>torch</code>的冲突问题,和由于<code>paddle</code>框架导致的线程不安全问题</li>
<li>解析过程增加实时进度条显示,精准把握解析进度,让等待不再痛苦</li>
</ul>
</li>
</ul>
</details>
<details> <details>
<summary>2025/03/03 1.2.1 发布,修复了一些问题</summary> <summary>2025/03/03 1.2.1 发布,修复了一些问题</summary>
<ul> <ul>
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment