[](https://github.com/opendatalab/MinerU)
[](https://github.com/opendatalab/MinerU)
[](https://github.com/opendatalab/MinerU/issues)
[](https://github.com/opendatalab/MinerU/issues)
[](https://pypi.org/project/magic-pdf/)
[](https://pypi.org/project/magic-pdf/)
[](https://pepy.tech/project/magic-pdf)
[](https://pepy.tech/project/magic-pdf)
[](https://mineru.net/OpenSourceTools/Extractor?source=github)
[](https://www.modelscope.cn/studios/OpenDataLab/MinerU)
[](https://huggingface.co/spaces/opendatalab/MinerU)
[](https://colab.research.google.com/gist/myhloli/3b3a00a4a0a61577b6c30f989092d20d/mineru_demo.ipynb)
[](https://arxiv.org/abs/2409.18839)

[English](README.md) | [简体中文](README_zh-CN.md)
PDF-Extract-Kit: 高质量PDF解析工具箱🔥🔥🔥
更便捷的使用方式:MinerU桌面端。无需编程,无需登录,图形界面,简单交互,畅用无忧。🚀🚀🚀
👋 join us on Discord and WeChat
# 更新记录
- 2025/06/13 2.0.0发布
- MinerU 2.0 是经过完全重构的全新版本,主要包含以下重大改进:
- **全新架构**:MinerU 2.0 完全重构了代码架构,采用了更现代化的设计,大幅提升了易用性、可维护性和可扩展性。
- 使用pyproject.toml作为项目配置文件,支持更灵活的依赖管理和版本控制。
- 完全移除pymupdf库依赖,在开源协议友好之路上迈出了重要一步。
- 支持开箱即用,无需额外配置(json文件),将绝大部分参数开放到命令行和API参数中,用户可通过命令行或API直接配置所需功能。
- 支持模型的自动下载和更新,用户无需手动干预,模型管理更简单。
- 离线部署更友好,内置模型下载命令,用户只需执行一次即可完成模型的下载和更新,支持离线部署。
- 代码结构大幅优化,移除数千行冗余代码和复杂的类继承关系,简化了代码逻辑,提升了可读性和可维护性。
- 一致的middle_json格式,兼容绝大部分基于middle_json格式的二次开发应用场景,支持生态业务无缝迁移。
- **全新模型**:集成了最新自研多模态文档解析模型,支持端到端的高速、高精度文档解析。
- MinerU 全新进化的多模态文档解析模型,不到1B的参数量,超越传统VLM模型72B的解析精度。
- 令人难以置信的全能单模型,支持多语言识别、手写识别、layout分析、表格解析、公式解析、阅读顺序排序等功能。
- 极致的解析速度,在单卡4090上超过 10000 token/s的峰值吞吐量(使用sglang加速),满足大规模文档解析需求。
- **不兼容更新**:
- 包名从`magic-pdf`更改为`mineru`,同时命令行工具从`magic-pdf`更改为`mineru`,用户需要更新相关脚本和命令行调用方式。
- 移除了内置的libreoffice文档转换功能,用户需自行将office文档转换为pdf后再通过本项目解析。