dataset.rst 922 Bytes
Newer Older
xu rui's avatar
xu rui committed
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

数据集
======

导入数据类
-----------

数据集
^^^^^^^^

每个 PDF 或图像将形成一个 Dataset。众所周知,PDF 有两种类别::ref:`TXT <digital_method_section>` 或 :ref:`OCR <ocr_method_section>` 方法部分。从图像中可以获得 ImageDataset,它是 Dataset 的子类;从 PDF 文件中可以获得 PymuDocDataset。ImageDataset 和 PymuDocDataset 之间的区别在于 ImageDataset 仅支持 OCR 解析方法,而 PymuDocDataset 支持 OCR 和 TXT 两种方法。

.. note::

    实际上,有些 PDF 可能是由图像生成的,这意味着它们不支持 `TXT` 方法。目前,由用户保证不会调用 `TXT` 方法来解析图像生成的 PDF

PDF 解析方法
---------------

.. _ocr_method_section:

OCR
^^^^
通过 光学字符识别 技术提取字符。

.. _digital_method_section:

TXT
^^^^^^^^
通过第三方库提取字符,目前我们使用的是 pymupdf。