Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
zhougaofeng
magic_pdf
Commits
016462b0
Commit
016462b0
authored
Nov 12, 2024
by
zhougaofeng
Browse files
Update README.md
parent
4f848b12
Changes
1
Hide whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
59 additions
and
11 deletions
+59
-11
README.md
README.md
+59
-11
No files found.
README.md
View file @
016462b0
# magic_pdf
# magic_pdf
##
安装
##
一、安装pdf文档解析
### 以下演示在223节点安装pdf解析模块(可以直接使用镜像:1177ea7959ce)
### 以下演示在223节点安装pdf解析模块(可以直接使用镜像:1177ea7959ce)
...
@@ -8,6 +8,13 @@
...
@@ -8,6 +8,13 @@
`git clone http://developer.sourcefind.cn/codes/zhiAn123/magic_pdf.git`
`git clone http://developer.sourcefind.cn/codes/zhiAn123/magic_pdf.git`
#### 安装依赖包
【提供的镜像暂未支持doclayout-YoLo模型,如需使用,请下载最新的库文件】
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
安装完毕后,请卸载需要使用光源库文件(torch、vllm等),以及nvdia-cuda类似不支持的库文件
### 2、下载需要的模型库
### 2、下载需要的模型库
...
@@ -15,16 +22,13 @@
...
@@ -15,16 +22,13 @@
下载PDF解析需要的模型:
[
快速下载通道
](
http://113.200.138.88:18080/aimodels/opendatalab/PDF-Extract-Kit
)
下载PDF解析需要的模型:
[
快速下载通道
](
http://113.200.138.88:18080/aimodels/opendatalab/PDF-Extract-Kit
)
(1)
`git lfs clone https://www.modelscope.cn/opendatalab/PDF-Extract-Kit.git`
(2)使用魔搭下载
`pip install modelscope`
`pip install modelscope`
`
from modelscope import snapshot_download
`
`
wget https://gitee.com/myhloli/MinerU/raw/master/scripts/download_models.py -O download_models.py
`
`
model_dir = snapshot_download('opendatalab/PDF-Extract-Kit')
`
`
python download_models.py
`
【注意,download_models.py执行完毕,会把模型文件以及layout文件安装在/root/.cache下】
### 3、安装需要的依赖库
### 3、安装需要的依赖库
...
@@ -36,7 +40,8 @@
...
@@ -36,7 +40,8 @@
#### pip install -e .
#### pip install -e .
### 4、修改magic-pdf.template.json
### 4、修改magic-pdf.json
在第二步执行download_models.py文件后,会在/root文件夹下,下载名为magic-pdf.json文件,修改文件内容
<div
align=
center
>
<div
align=
center
>
<img
src=
"doc/image (9).png"
/>
<img
src=
"doc/image (9).png"
/>
...
@@ -44,8 +49,6 @@
...
@@ -44,8 +49,6 @@
"models-dir":"[模型路径]" 路径指向
**第二步下载的pdf解析模型路径下的models文件夹**
"models-dir":"[模型路径]" 路径指向
**第二步下载的pdf解析模型路径下的models文件夹**
将magic-pdf.template.json 拷贝到/root目录下并改名为magic-pdf.json
<div
align=
center
>
<div
align=
center
>
<img
src=
"doc/image (10).png"
/>
<img
src=
"doc/image (10).png"
/>
</div>
</div>
...
@@ -64,13 +67,15 @@ vim magic_pdf/config.ini
...
@@ -64,13 +67,15 @@ vim magic_pdf/config.ini
### 6、启动qwen-ocr模块:
### 6、启动qwen-ocr模块:
#### 6.1、启动非vllm的qwen-ocr模块:
修改magic_pdf/magic_pdf/dict2md/ocr_server.py文件中模型路径地址
修改magic_pdf/magic_pdf/dict2md/ocr_server.py文件中模型路径地址
<div
align=
center
>
<div
align=
center
>
<img
src=
"doc/image11.png"
/>
<img
src=
"doc/image11.png"
/>
</div>
</div>
#### qwen-ocr服务启动代码:
####
#
qwen-ocr服务启动代码:
`python magic_pdf/dict2md/ocr_server.py`
`python magic_pdf/dict2md/ocr_server.py`
...
@@ -81,6 +86,28 @@ qwen-ocr模块启动成功:
...
@@ -81,6 +86,28 @@ qwen-ocr模块启动成功:
<img
src=
"doc/image (5).png"
/>
<img
src=
"doc/image (5).png"
/>
</div>
</div>
#### 6.2、 启动vllm的qwen-ocr模块:
1、修改magic_pdf/magic_pdf/dict2md/ocr_vllm_server.py文件中模型路径地址
2、修改magic_pdf/magic_pdf/pre_proc/cut_image.py、magic_pdf/magic_pdf/tools/pdf_server.py、magic_pdf/magic_pdf/parse/ofd_parse.py文件
将注释更改如下
<div
align=
center
>
<img
src=
"doc/image_vllm.png"
/>
</div>
##### qwen-ocr-vllm服务启动代码:
`CUDA_VISIBLE_DEVICES=0 python magic_pdf/dict2md/ocr_vllm_server.py`
默认使用0号DCU卡,-c 指定qwen模型地址,--config_path 指定config.ini路径
qwen-ocr模块启动成功:
<div
align=
center
>
<img
src=
"doc/image (5).png"
/>
</div>
### 7、启动pdf-server解析服务:
### 7、启动pdf-server解析服务:
#### pdf-server解析服务启动代码:
#### pdf-server解析服务启动代码:
...
@@ -112,4 +139,25 @@ qwen-ocr模块启动成功:
...
@@ -112,4 +139,25 @@ qwen-ocr模块启动成功:
<img
src=
"doc/image (8).png"
/>
<img
src=
"doc/image (8).png"
/>
</div>
</div>
## 二、安装ofd文档解析
`1、pip install easyofd`
2、安装需要的字体文件
查看容器内的字体:
`fc-list`
请配置magic_pdf/tools/font_tools.py文件,配置字体路径
<div
align=
center
>
<img
src=
"doc/font.png"
/>
</div>
若代码执行过程中报错,字体未找到,请向容器内添加字体后,再修改font_tools.py文件
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment