Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
wangsen
MinerU
Commits
cd2459b3
Commit
cd2459b3
authored
Jul 15, 2025
by
myhloli
Browse files
docs: streamline output_files.md by removing unnecessary sections and enhancing note clarity
parent
1df27fc6
Changes
1
Hide whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
12 additions
and
15 deletions
+12
-15
docs/zh/usage/output_files.md
docs/zh/usage/output_files.md
+12
-15
No files found.
docs/zh/usage/output_files.md
View file @
cd2459b3
# MinerU 输出文件说明
# MinerU 输出文件说明
## 目录
-
[
概览
](
#概览
)
-
[
可视化调试文件
](
#可视化调试文件
)
-
[
布局分析文件 (layout.pdf)
](
#布局分析文件-layoutpdf
)
-
[
文本片段文件 (spans.pdf)
](
#文本片段文件-spanspdf
)
-
[
结构化数据文件
](
#结构化数据文件
)
-
[
模型推理结果 (model.json)
](
#模型推理结果-modeljson
)
-
[
VLM 输出结果 (model_output.txt)
](
#vlm-输出结果-model_outputtxt
)
-
[
中间处理结果 (middle.json)
](
#中间处理结果-middlejson
)
-
[
内容列表 (content_list.json)
](
#内容列表-content_listjson
)
## 概览
## 概览
`mineru`
命令执行后,除了输出主要的 markdown 文件外,还会生成多个辅助文件用于调试、质检和进一步处理。这些文件包括:
`mineru`
命令执行后,除了输出主要的 markdown 文件外,还会生成多个辅助文件用于调试、质检和进一步处理。这些文件包括:
...
@@ -28,11 +16,13 @@
...
@@ -28,11 +16,13 @@
**文件命名格式**
:
`{原文件名}_layout.pdf`
**文件命名格式**
:
`{原文件名}_layout.pdf`
**功能说明**
:
**功能说明**
:
-
可视化展示每一页的布局分析结果
-
可视化展示每一页的布局分析结果
-
每个检测框右上角的数字表示阅读顺序
-
每个检测框右上角的数字表示阅读顺序
-
使用不同背景色块区分不同类型的内容块
-
使用不同背景色块区分不同类型的内容块
**使用场景**
:
**使用场景**
:
-
检查布局分析是否正确
-
检查布局分析是否正确
-
确认阅读顺序是否合理
-
确认阅读顺序是否合理
-
调试布局相关问题
-
调试布局相关问题
...
@@ -41,15 +31,18 @@
...
@@ -41,15 +31,18 @@
### 文本片段文件 (spans.pdf)
### 文本片段文件 (spans.pdf)
> **注意**:仅适用于 pipeline 后端
> [!NOTE]
> 仅适用于 pipeline 后端
**文件命名格式**
:
`{原文件名}_spans.pdf`
**文件命名格式**
:
`{原文件名}_spans.pdf`
**功能说明**
:
**功能说明**
:
-
根据 span 类型使用不同颜色线框标注页面内容
-
根据 span 类型使用不同颜色线框标注页面内容
-
用于质量检查和问题排查
-
用于质量检查和问题排查
**使用场景**
:
**使用场景**
:
-
快速排查文本丢失问题
-
快速排查文本丢失问题
-
检查行内公式识别情况
-
检查行内公式识别情况
-
验证文本分割准确性
-
验证文本分割准确性
...
@@ -60,7 +53,8 @@
...
@@ -60,7 +53,8 @@
### 模型推理结果 (model.json)
### 模型推理结果 (model.json)
> **注意**:仅适用于 pipeline 后端
> [!NOTE]
> 仅适用于 pipeline 后端
**文件命名格式**
:
`{原文件名}_model.json`
**文件命名格式**
:
`{原文件名}_model.json`
...
@@ -112,6 +106,7 @@ inference_result: list[PageInferenceResults] = []
...
@@ -112,6 +106,7 @@ inference_result: list[PageInferenceResults] = []
#### 坐标系统说明
#### 坐标系统说明
`poly`
坐标格式:
`[x0, y0, x1, y1, x2, y2, x3, y3]`
`poly`
坐标格式:
`[x0, y0, x1, y1, x2, y2, x3, y3]`
-
分别表示左上、右上、右下、左下四点的坐标
-
分别表示左上、右上、右下、左下四点的坐标
-
坐标原点在页面左上角
-
坐标原点在页面左上角
...
@@ -145,7 +140,8 @@ inference_result: list[PageInferenceResults] = []
...
@@ -145,7 +140,8 @@ inference_result: list[PageInferenceResults] = []
### VLM 输出结果 (model_output.txt)
### VLM 输出结果 (model_output.txt)
> **注意**:仅适用于 VLM 后端
> [!NOTE]
> 仅适用于 VLM 后端
**文件命名格式**
:
`{原文件名}_model_output.txt`
**文件命名格式**
:
`{原文件名}_model_output.txt`
...
@@ -324,6 +320,7 @@ inference_result: list[PageInferenceResults] = []
...
@@ -324,6 +320,7 @@ inference_result: list[PageInferenceResults] = []
#### 文本层级标识
#### 文本层级标识
通过
`text_level`
字段区分文本层级:
通过
`text_level`
字段区分文本层级:
-
无
`text_level`
或
`text_level: 0`
:正文文本
-
无
`text_level`
或
`text_level: 0`
:正文文本
-
`text_level: 1`
:一级标题
-
`text_level: 1`
:一级标题
-
`text_level: 2`
:二级标题
-
`text_level: 2`
:二级标题
...
...
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment