# magic_pdf
## 安装
### 以下演示在223节点安装pdf解析模块(可以直接使用镜像:1177ea7959ce)
### 1、下载本项目
`git clone http://developer.sourcefind.cn/codes/zhiAn123/magic_pdf.git`
### 2、下载需要的模型库
下载qwen模型:[快速下载通道](http://113.200.138.88:18080/aimodels/qwen/Qwen2-VL-7B-Instruct.git)
下载PDF解析需要的模型:
(1)`git lfs clone https://www.modelscope.cn/opendatalab/PDF-Extract-Kit.git`
(2)使用魔搭下载
`pip install modelscope`
`from modelscope import snapshot_download`
`model_dir = snapshot_download('opendatalab/PDF-Extract-Kit')`
### 3、安装需要的依赖库
#### 进入主目录(以下内容都在主目录下进行)
`cd magic_pdf`
执行本地源码安装
#### pip install -e .
### 4、修改magic-pdf.template.json
"models-dir":"[模型路径]" 路径指向**第二步下载的pdf解析模型路径下的models文件夹**
将magic-pdf.template.json 拷贝到/root目录下并改名为magic-pdf.json
### 5、配置config.ini中的路由地址
vim magic_pdf/config.ini
默认如下:
`pdf_server = http://0.0.0.0:4090`
`ocr_server = http://0.0.0.0:4080`
根据需要,自行配置路由地址
### 6、启动qwen-ocr模块:
修改magic_pdf/magic_pdf/dict2md/ocr_server.py文件中模型路径地址
#### qwen-ocr服务启动代码:
`python magic_pdf/dict2md/ocr_server.py`
默认使用0号DCU卡 ,可以通过--dcu_id 指定卡,-c 指定qwen模型地址,--config_path 指定config.ini路径
qwen-ocr模块启动成功:
### 7、启动pdf-server解析服务:
#### pdf-server解析服务启动代码:
`python magic_pdf/tools/pdf_server.py`
默认使用0号DCU卡 ,可以通过--dcu_id 指定卡,--config_path 指定config.ini路径
启动成功:
### 8、解析pdf
`python magic_pdf/parse/common_parse.py -p [文件/目录 路径] -o [输出地址]`
-p指定pdf路径,-o指定输出路径 --config_path 指定config.ini路径