Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
wangsen
paddle_dbnet
Commits
93f5b687
Commit
93f5b687
authored
Sep 23, 2021
by
Leif
Browse files
Merge pull request #4044 from Evezerest/2.3
Unified document title case
parent
ba3e198b
Changes
21
Hide whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
17 additions
and
4 deletions
+17
-4
ppstructure/table/README_ch.md
ppstructure/table/README_ch.md
+17
-4
No files found.
ppstructure/table/README_ch.md
View file @
93f5b687
# 表格识别
*
[
1. 表格识别 pipeline
](
#1
)
*
[
2. 性能
](
#2
)
*
[
3. 使用
](
#3
)
+
[
3.1 快速开始
](
#31
)
+
[
3.2 训练
](
#32
)
+
[
3.3 评估
](
#33
)
+
[
3.4 预测
](
#34
)
<a
name=
"1"
></a>
## 1. 表格识别 pipeline
表格识别主要包含三个模型
1.
单行文本检测-DB
2.
单行文本识别-CRNN
...
...
@@ -17,6 +27,8 @@
3.
由单行文字的坐标、识别结果和单元格的坐标一起组合出单元格的识别结果。
4.
单元格的识别结果和表格结构一起构造表格的html字符串。
<a
name=
"2"
></a>
## 2. 性能
我们在 PubTabNet
<sup>
[1]
</sup>
评估数据集上对算法进行了评估,性能如下
...
...
@@ -26,8 +38,9 @@
| EDD
<sup>
[2]
</sup>
| 88.3 |
| Ours | 93.32 |
<a
name=
"3"
></a>
## 3. 使用
<a
name=
"31"
></a>
### 3.1 快速开始
```
python
...
...
@@ -48,7 +61,7 @@ python3 table/predict_table.py --det_model_dir=inference/en_ppocr_mobile_v2.0_ta
运行完成后,每张图片的excel表格会保存到output字段指定的目录下
note: 上述模型是在 PubLayNet 数据集上训练的表格识别模型,仅支持英文扫描场景,如需识别其他场景需要自己训练模型后替换
`det_model_dir`
,
`rec_model_dir`
,
`table_model_dir`
三个字段即可。
<a
name=
"32"
></a>
### 3.2 训练
在这一章节中,我们仅介绍表格结构模型的训练,
[
文字检测
](
../../doc/doc_ch/detection.md
)
和
[
文字识别
](
../../doc/doc_ch/recognition.md
)
的模型训练请参考对应的文档。
...
...
@@ -75,7 +88,7 @@ python3 tools/train.py -c configs/table/table_mv3.yml -o Global.checkpoints=./yo
**注意**
:
`Global.checkpoints`
的优先级高于
`Global.pretrain_weights`
的优先级,即同时指定两个参数时,优先加载
`Global.checkpoints`
指定的模型,如果
`Global.checkpoints`
指定的模型路径有误,会加载
`Global.pretrain_weights`
指定的模型。
<a
name=
"33"
></a>
### 3.3 评估
表格使用
[
TEDS(Tree-Edit-Distance-based Similarity)
](
https://github.com/ibm-aur-nlp/PubTabNet/tree/master/src
)
作为模型的评估指标。在进行模型评估之前,需要将pipeline中的三个模型分别导出为inference模型(我们已经提供好),还需要准备评估的gt, gt示例如下:
...
...
@@ -100,7 +113,7 @@ python3 table/eval_table.py --det_model_dir=path/to/det_model_dir --rec_model_di
```
bash
teds: 93.32
```
<a
name=
"34"
></a>
### 3.4 预测
```
python
...
...
Prev
1
2
Next
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment