重构目录结构

f99149b8 · 赵小蒙 · 59bc15e0 · f99149b8 · f99149b8 · f99149b8
Commit f99149b8 authored Mar 01, 2024 by 赵小蒙
20 changed files
--- a/pre_proc/detect_footer_by_model.py
+++ b/pre_proc/detect_footer_by_model.py
-import os                   
-import collections      # 统计库
-import re               # 正则
-from libs.commons import fitz             # pyMuPDF库
-import json             # json
+from pdf_tools.libs.commons import fitz             # pyMuPDF库


 def parse_footers(page_ID: int, page: fitz.Page, json_from_DocXchain_obj: dict):

--- a/pre_proc/detect_footer_header_by_statistics.py
+++ b/pre_proc/detect_footer_header_by_statistics.py
 from collections import defaultdict

-from loguru import logger
-
-from libs.boxbase import _is_in, calculate_iou
+from pdf_tools.libs.boxbase import calculate_iou


 def compare_bbox_with_list(bbox, bbox_list, tolerance=1):

--- a/pre_proc/detect_footnote.py
+++ b/pre_proc/detect_footnote.py
-import os
 from collections import Counter
-import re               # 正则
-from libs.commons import fitz             # pyMuPDF库
-import json             # json
+from pdf_tools.libs.commons import fitz             # pyMuPDF库


 def parse_footnotes_by_model(page_ID: int, page: fitz.Page, json_from_DocXchain_obj: dict, md_bookname_save_path, debug_mode=False):

--- a/pre_proc/detect_header.py
+++ b/pre_proc/detect_header.py
-import os                   
-import collections      # 统计库
-import re               # 正则
-from libs.commons import fitz             # pyMuPDF库
-import json             # json
+from pdf_tools.libs.commons import fitz             # pyMuPDF库


 def parse_headers(page_ID: int, page: fitz.Page, json_from_DocXchain_obj: dict):

--- a/pre_proc/detect_images.py
+++ b/pre_proc/detect_images.py
-import os                   
 import collections      # 统计库
 import re
-from libs.boxbase import _is_in_or_part_overlap               # 正则
-from libs.commons import fitz             # pyMuPDF库
-import json             # json
+from pdf_tools.libs.commons import fitz             # pyMuPDF库


 #--------------------------------------- Tool Functions --------------------------------------#

--- a/pre_proc/detect_page_number.py
+++ b/pre_proc/detect_page_number.py
-import os                   
-import collections      # 统计库
-import re               # 正则
-from libs.commons import fitz             # pyMuPDF库
-import json             # json
+from pdf_tools.libs.commons import fitz             # pyMuPDF库


 def parse_pageNos(page_ID: int, page: fitz.Page, json_from_DocXchain_obj: dict):

--- a/pre_proc/detect_tables.py
+++ b/pre_proc/detect_tables.py
-import os                   
-import collections      # 统计库
-import re               # 正则
-from libs.commons import fitz             # pyMuPDF库
-import json             # json
+from pdf_tools.libs.commons import fitz             # pyMuPDF库


 def parse_tables(page_ID: int, page: fitz.Page, json_from_DocXchain_obj: dict):

--- a/pre_proc/equations_replace.py
+++ b/pre_proc/equations_replace.py
 """
 对pymupdf返回的结构里的公式进行替换，替换为模型识别的公式结果
 """
-from libs.commons import fitz
+from pdf_tools.libs.commons import fitz
 import json
 import os
 from pathlib import Path

--- a/pre_proc/fix_image.py
+++ b/pre_proc/fix_image.py
@@ -2,10 +2,9 @@


 import re    
-from libs.boxbase import  _is_in_or_part_overlap, _is_part_overlap, _is_in, find_bottom_nearest_text_bbox, find_left_nearest_text_bbox, find_right_nearest_text_bbox, find_top_nearest_text_bbox
-from loguru import logger
+from pdf_tools.libs.boxbase import  _is_in_or_part_overlap, _is_part_overlap, find_bottom_nearest_text_bbox, find_left_nearest_text_bbox, find_right_nearest_text_bbox, find_top_nearest_text_bbox

-from libs.textbase import get_text_block_base_info
+from pdf_tools.libs.textbase import get_text_block_base_info

 def fix_image_vertical(image_bboxes:list, text_blocks:list):
    """

--- a/pre_proc/fix_table.py
+++ b/pre_proc/fix_table.py
-import os                   
-import collections      # 统计库
-import re               # 正则
-from libs.commons import fitz             # pyMuPDF库
-import json
+from pdf_tools.libs.commons import fitz             # pyMuPDF库
 import re

-from libs.boxbase import _is_in_or_part_overlap, _is_part_overlap, find_bottom_nearest_text_bbox, find_left_nearest_text_bbox, find_right_nearest_text_bbox, find_top_nearest_text_bbox             # json
+from pdf_tools.libs.boxbase import _is_in_or_part_overlap, _is_part_overlap, find_bottom_nearest_text_bbox, find_left_nearest_text_bbox, find_right_nearest_text_bbox, find_top_nearest_text_bbox             # json


 ## version 2

--- a/pre_proc/main_text_font.py
+++ b/pre_proc/main_text_font.py
--- a/pre_proc/pdf_pre_filter.py
+++ b/pre_proc/pdf_pre_filter.py
-from libs.commons import fitz
-from libs.boxbase import _is_in, _is_in_or_part_overlap
-from libs.drop_reason import DropReason
+from pdf_tools.libs.commons import fitz
+from pdf_tools.libs.boxbase import _is_in, _is_in_or_part_overlap
+from pdf_tools.libs.drop_reason import DropReason


 def __area(box):

--- a/test/assets/more_para_test_samples/gift_files.txt
+++ b/test/assets/more_para_test_samples/gift_files.txt
--- a/pre_proc/remove_colored_strip_bbox.py
+++ b/pre_proc/remove_colored_strip_bbox.py
-from libs.boxbase import _is_in, _is_in_or_part_overlap, calculate_overlap_area_2_minbox_area_ratio
+from pdf_tools.libs.boxbase import _is_in, _is_in_or_part_overlap, calculate_overlap_area_2_minbox_area_ratio
 from loguru import logger

-from libs.drop_tag import COLOR_BG_HEADER_TXT_BLOCK
+from pdf_tools.libs.drop_tag import COLOR_BG_HEADER_TXT_BLOCK


 def __area(box):

--- a/pre_proc/remove_footer_header.py
+++ b/pre_proc/remove_footer_header.py
 import re

-from libs.boxbase import _is_in_or_part_overlap
+from pdf_tools.libs.boxbase import _is_in_or_part_overlap


 def remove_headder_footer_one_page(text_raw_blocks, image_bboxes, table_bboxes, header_bboxs, footer_bboxs,

--- a/pre_proc/remove_rotate_bbox.py
+++ b/pre_proc/remove_rotate_bbox.py
-
-import json
 import math

-from libs.boxbase import is_vbox_on_side
+from pdf_tools.libs.boxbase import is_vbox_on_side


 def detect_non_horizontal_texts(result_dict):
@@ -84,7 +82,7 @@ def detect_non_horizontal_texts(result_dict):
 1. 当一个block里全部文字都不是dir=(1,0)，这个block整体去掉
 2. 当一个block里全部文字都是dir=(1,0)，但是每行只有一个字，这个block整体去掉。这个block必须出现在页面的四周，否则不去掉
 """
-import string, re
+import re

 def __is_a_word(sentence):
    # 如果输入是中文并且长度为1，则返回True

--- a/pre_proc/resolve_bbox_conflict.py
+++ b/pre_proc/resolve_bbox_conflict.py
@@ -5,7 +5,7 @@
 2. 然后去掉出现在文字blcok上的图片bbox
 """

-from libs.boxbase import _is_in, _is_in_or_part_overlap, _is_left_overlap, calculate_iou, calculate_overlap_area_2_minbox_area_ratio
+from pdf_tools.libs.boxbase import _is_in, _is_in_or_part_overlap, _is_left_overlap


 def resolve_bbox_overlap_conflict(images:list, tables:list, interline_equations:list, inline_equations:list, text_raw_blocks:list):

--- a/pre_proc/statistics.py
+++ b/pre_proc/statistics.py
--- a/test/assets/more_para_test_samples/zlib_files.txt
+++ b/test/assets/more_para_test_samples/zlib_files.txt
--- a/test/assets/more_para_test_samples/scihub_files.txt
+++ b/test/assets/more_para_test_samples/scihub_files.txt