Commit cd2459b3 authored by myhloli's avatar myhloli
Browse files

docs: streamline output_files.md by removing unnecessary sections and enhancing note clarity

parent 1df27fc6
# MinerU 输出文件说明 # MinerU 输出文件说明
## 目录
- [概览](#概览)
- [可视化调试文件](#可视化调试文件)
- [布局分析文件 (layout.pdf)](#布局分析文件-layoutpdf)
- [文本片段文件 (spans.pdf)](#文本片段文件-spanspdf)
- [结构化数据文件](#结构化数据文件)
- [模型推理结果 (model.json)](#模型推理结果-modeljson)
- [VLM 输出结果 (model_output.txt)](#vlm-输出结果-model_outputtxt)
- [中间处理结果 (middle.json)](#中间处理结果-middlejson)
- [内容列表 (content_list.json)](#内容列表-content_listjson)
## 概览 ## 概览
`mineru` 命令执行后,除了输出主要的 markdown 文件外,还会生成多个辅助文件用于调试、质检和进一步处理。这些文件包括: `mineru` 命令执行后,除了输出主要的 markdown 文件外,还会生成多个辅助文件用于调试、质检和进一步处理。这些文件包括:
...@@ -28,11 +16,13 @@ ...@@ -28,11 +16,13 @@
**文件命名格式**`{原文件名}_layout.pdf` **文件命名格式**`{原文件名}_layout.pdf`
**功能说明** **功能说明**
- 可视化展示每一页的布局分析结果 - 可视化展示每一页的布局分析结果
- 每个检测框右上角的数字表示阅读顺序 - 每个检测框右上角的数字表示阅读顺序
- 使用不同背景色块区分不同类型的内容块 - 使用不同背景色块区分不同类型的内容块
**使用场景** **使用场景**
- 检查布局分析是否正确 - 检查布局分析是否正确
- 确认阅读顺序是否合理 - 确认阅读顺序是否合理
- 调试布局相关问题 - 调试布局相关问题
...@@ -41,15 +31,18 @@ ...@@ -41,15 +31,18 @@
### 文本片段文件 (spans.pdf) ### 文本片段文件 (spans.pdf)
> **注意**:仅适用于 pipeline 后端 > [!NOTE]
> 仅适用于 pipeline 后端
**文件命名格式**`{原文件名}_spans.pdf` **文件命名格式**`{原文件名}_spans.pdf`
**功能说明** **功能说明**
- 根据 span 类型使用不同颜色线框标注页面内容 - 根据 span 类型使用不同颜色线框标注页面内容
- 用于质量检查和问题排查 - 用于质量检查和问题排查
**使用场景** **使用场景**
- 快速排查文本丢失问题 - 快速排查文本丢失问题
- 检查行内公式识别情况 - 检查行内公式识别情况
- 验证文本分割准确性 - 验证文本分割准确性
...@@ -60,7 +53,8 @@ ...@@ -60,7 +53,8 @@
### 模型推理结果 (model.json) ### 模型推理结果 (model.json)
> **注意**:仅适用于 pipeline 后端 > [!NOTE]
> 仅适用于 pipeline 后端
**文件命名格式**`{原文件名}_model.json` **文件命名格式**`{原文件名}_model.json`
...@@ -112,6 +106,7 @@ inference_result: list[PageInferenceResults] = [] ...@@ -112,6 +106,7 @@ inference_result: list[PageInferenceResults] = []
#### 坐标系统说明 #### 坐标系统说明
`poly` 坐标格式:`[x0, y0, x1, y1, x2, y2, x3, y3]` `poly` 坐标格式:`[x0, y0, x1, y1, x2, y2, x3, y3]`
- 分别表示左上、右上、右下、左下四点的坐标 - 分别表示左上、右上、右下、左下四点的坐标
- 坐标原点在页面左上角 - 坐标原点在页面左上角
...@@ -145,7 +140,8 @@ inference_result: list[PageInferenceResults] = [] ...@@ -145,7 +140,8 @@ inference_result: list[PageInferenceResults] = []
### VLM 输出结果 (model_output.txt) ### VLM 输出结果 (model_output.txt)
> **注意**:仅适用于 VLM 后端 > [!NOTE]
> 仅适用于 VLM 后端
**文件命名格式**`{原文件名}_model_output.txt` **文件命名格式**`{原文件名}_model_output.txt`
...@@ -324,6 +320,7 @@ inference_result: list[PageInferenceResults] = [] ...@@ -324,6 +320,7 @@ inference_result: list[PageInferenceResults] = []
#### 文本层级标识 #### 文本层级标识
通过 `text_level` 字段区分文本层级: 通过 `text_level` 字段区分文本层级:
-`text_level``text_level: 0`:正文文本 -`text_level``text_level: 0`:正文文本
- `text_level: 1`:一级标题 - `text_level: 1`:一级标题
- `text_level: 2`:二级标题 - `text_level: 2`:二级标题
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment