[](https://github.com/opendatalab/MinerU)
[](https://github.com/opendatalab/MinerU)
[](https://github.com/opendatalab/MinerU/issues)
[](https://github.com/opendatalab/MinerU/issues)
[](https://pypi.org/project/magic-pdf/)
[](https://pypi.org/project/magic-pdf/)
[](https://pepy.tech/project/magic-pdf)
[](https://pepy.tech/project/magic-pdf)
[](https://mineru.net/OpenSourceTools/Extractor?source=github)
[](https://www.modelscope.cn/studios/OpenDataLab/MinerU)
[](https://huggingface.co/spaces/opendatalab/MinerU)
[](https://colab.research.google.com/gist/myhloli/3b3a00a4a0a61577b6c30f989092d20d/mineru_demo.ipynb)
[](https://arxiv.org/abs/2409.18839)

[English](README.md) | [简体中文](README_zh-CN.md)
PDF-Extract-Kit: 高质量PDF解析工具箱🔥🔥🔥
更便捷的使用方式:MinerU桌面端。无需编程,无需登录,图形界面,简单交互,畅用无忧。🚀🚀🚀
👋 join us on Discord and WeChat
# 更新记录
- 2025/06/13 2.0.0发布
- MinerU 2.0 是经过完全重构的全新版本,主要包含以下重大改进:
- **全新架构**:MinerU 2.0 完全重构了代码架构,采用了更现代化的设计,大幅提升了易用性、可维护性和可扩展性。
- 使用pyproject.toml作为项目配置文件,支持更灵活的依赖管理和版本控制。
- 完全移除pymupdf库依赖,在开源协议友好之路上迈出了重要一步。
- 支持开箱即用,无需额外配置(json文件),将绝大部分参数开放到命令行和API参数中,用户可通过命令行或API直接配置所需功能。
- 支持模型的自动下载和更新,用户无需手动干预,模型管理更简单。
- 离线部署更友好,内置模型下载命令,用户只需执行一次即可完成模型的下载和更新,支持离线部署。
- 代码结构大幅优化,移除数千行冗余代码和复杂的类继承关系,简化了代码逻辑,提升了可读性和可维护性。
- 一致的middle_json格式,兼容绝大部分基于middle_json格式的二次开发应用场景,支持生态业务无缝迁移。
- **全新模型**:集成了最新自研多模态文档解析模型,支持端到端的高速、高精度文档解析。
- MinerU 全新进化的多模态文档解析模型,不到1B的参数量,超越传统VLM模型72B的解析精度。
- 令人难以置信的全能单模型,支持多语言识别、手写识别、layout分析、表格解析、公式解析、阅读顺序排序等功能。
- 极致的解析速度,在单卡4090上超过 10000 token/s的峰值吞吐量(使用sglang加速),满足大规模文档解析需求。
- **不兼容更新**:
- MinerU 2.0 完全重构了代码架构和模型集成方式,因此与1.x版本不兼容,用户需要重新安装和配置。
- 由于架构的重大变更,部分API和命令行参数可能会有所调整,请参考[文档](docs/zh_cn/index.md)获取最新的使用说明。
- 由于模型的重大更新,用户需要重新下载模型文件,请执行`python -m mineru.models.download`命令进行模型下载。