Commits · e6da37ddac89fe893d817046ef7cc93ae07ff3b6 · wangsen / MinerU

26 Nov, 2024 12 commits
- Merge pull request #1099 from myhloli/dev · e6da37dd
  Xiaomeng Zhao authored Nov 26, 2024
```
refactor(magic_pdf): remove unused functions and simplify code
```
  e6da37dd
- refactor(magic_pdf): remove unused functions and simplify code · 6a22b5ab
  myhloli authored Nov 26, 2024
  
  6a22b5ab
- Merge pull request #1098 from myhloli/dev · 79b58a1e
  Xiaomeng Zhao authored Nov 26, 2024
```
refactor(magic_pdf): remove unused functions and simplify code
```
  79b58a1e
- refactor(magic_pdf): remove unused functions and simplify code · ecdaa49a
  myhloli authored Nov 26, 2024
  
  ecdaa49a
- Merge pull request #1095 from myhloli/dev · 1ab691fc
  Xiaomeng Zhao authored Nov 26, 2024
```
feat(pdf_parse): improve text extraction for vertical spans
```
  1ab691fc
- feat(pdf_parse): improve text extraction for vertical spans · 81635062
  myhloli authored Nov 26, 2024
```
- Calculate median span height to identify vertical spans
- Use PyMuPDF's 'dict' output to fill vertical spans with lines
```
  81635062
- Merge pull request #1094 from myhloli/dev · 026c23eb
  Xiaomeng Zhao authored Nov 26, 2024
```
test: comment out assertion in test_metascan_classify
```
  026c23eb
- test: comment out assertion in test_metascan_classify · 32c0fe73
  myhloli authored Nov 26, 2024
```
- Disable the assertion for bool_classify_by_text_layout to skip this test
```
  32c0fe73
- Merge pull request #1089 from myhloli/dev · 14f4bbb9
  Xiaomeng Zhao authored Nov 26, 2024
```
feat(pdf_parse): add OCR score to span data
```
  14f4bbb9
- feat(pdf_parse): add OCR score to span data · 7d4dfca2
  myhloli authored Nov 26, 2024
```
- Add OCR score to span dictionary when OCR text is applied
- Improve data integrity by including confidence score
```
  7d4dfca2
- Merge pull request #1088 from myhloli/dev · 9675a574
  Xiaomeng Zhao authored Nov 26, 2024
```
feat(ocr): filter out low confidence ocr results
```
  9675a574
- feat(ocr): filter out low confidence ocr results · eb45a0e8
  myhloli authored Nov 26, 2024
```
- Add confidence score threshold to filter out low confidence OCR results
- Improve OCR accuracy by ignoring less certain detections
```
  eb45a0e8
25 Nov, 2024 15 commits
- Merge pull request #1086 from myhloli/dev · 61e88cb2
  Xiaomeng Zhao authored Nov 25, 2024
```
refactor(txt_spans_extract_v2): optimize span processing and OCR logic
```
  61e88cb2
- refactor(para): improve block merging logic in para_split_v3.py · 160624bd
  myhloli authored Nov 25, 2024
```
- Add checks for uppercase character start in the first span of a block
```
  160624bd
- refactor(pdf_parse): improve text content extraction from PDF spans · 14656085
  myhloli authored Nov 25, 2024
```
- Optimize character sorting for accurate text assembly
- Handle empty char scenarios to prevent errors
- Remove unnecessary comments and improve code readability
- Enhance OCR text content handling by removing low-confidence spans
```
  14656085
- refactor(pdf_parse): improve code readability and maintainability · 7964ae45
  myhloli authored Nov 25, 2024
  
  7964ae45
- refactor(pdf_parse): improve code readability and maintainability · 97bcc8b2
  myhloli authored Nov 25, 2024
  
  97bcc8b2
- refactor(txt_spans_extract_v2): optimize span processing and OCR logic · 034c59a8
  myhloli authored Nov 25, 2024
```
- Merge useful_spans and unuseful_spans handling
- Simplify overlap ratio calculation and block type checking
- Remove unnecessary span removal and re-addition
```
  034c59a8
- Merge pull request #1082 from myhloli/dev · 6c4040ac
  Xiaomeng Zhao authored Nov 25, 2024
```
fix(pdf_parse): Move the logic for filling text content into spans before the discarded_block recognition to fix the issue of empty text blocks in discarded_block.
```
  6c4040ac
- fix(pdf_parse): Move the logic for filling text content into spans before the... · 0d3ef89f
  myhloli authored Nov 25, 2024
```
fix(pdf_parse): Move the logic for filling text content into spans before the discarded_block recognition to fix the issue of empty text blocks in discarded_block.
```
  0d3ef89f
- Merge pull request #1077 from opendatalab/master · aa78df41
  Xiaomeng Zhao authored Nov 25, 2024
```
master -> dev
```
  aa78df41
- Update version.py with new version · 9d6be7c9
  myhloli authored Nov 25, 2024
  
  9d6be7c9
- Merge pull request #1076 from opendatalab/release-0.10.1 · 4dcf31b6
  Xiaomeng Zhao authored Nov 25, 2024
```
Release 0.10.1
```
  4dcf31b6
- Merge pull request #1075 from myhloli/dev · 4f13c282
  Xiaomeng Zhao authored Nov 25, 2024
```
test: batch process demo PDFs- Update test block to iterate through multiple demo PDF files
```
  4f13c282
- test: batch process demo PDFs- Update test block to iterate through multiple demo PDF files · e11e6b32
  myhloli authored Nov 25, 2024
```
- Use os.path.join to construct file paths for better cross-platform compatibility
- Remove hardcoded file path
```
  e11e6b32
- Merge pull request #1074 from myhloli/dev · ea94a35b
  Xiaomeng Zhao authored Nov 25, 2024
```
feat(demo): add visualization bbox parameter and refactor parsing process
```
  ea94a35b
- feat(demo): add visualization bbox parameter and refactor parsing process · 17ef5c0f
  myhloli authored Nov 25, 2024
```
- Add is_draw_visualization_bbox parameter to enable/disable visualization of bounding boxes
- Refactor the parsing process to improve code readability and maintainability
- Update function documentation to reflect new parameter
- Simplify test code by using a more generic variable name
```
  17ef5c0f
24 Nov, 2024 4 commits
- Merge pull request #1071 from icecraft/fix/demo · 29b38d12
  Xiaomeng Zhao authored Nov 24, 2024
```
Fix/demo
```
  29b38d12
- fix: remove unused file · e9ace3eb
  icecraft authored Nov 24, 2024
  
  e9ace3eb
- fix: rewrite projects/ and demos with new data api · ae379e6b
  icecraft authored Nov 24, 2024
  
  ae379e6b
- fix: rewrite projects/ and demos with new data api · b1adde8e
  icecraft authored Nov 24, 2024
  
  b1adde8e
22 Nov, 2024 9 commits
- Merge pull request #1066 from opendatalab/master · 4e0b3a8f
  Xiaomeng Zhao authored Nov 22, 2024
```
master -> dev
```
  4e0b3a8f
- Update FAQ_en_us.md · dc37af0a
  Xiaomeng Zhao authored Nov 22, 2024
  
  dc37af0a
- Update FAQ_zh_cn.md · 6eabc682
  Xiaomeng Zhao authored Nov 22, 2024
  
  6eabc682
- Update version.py with new version · 0624b565
  myhloli authored Nov 22, 2024
  
  0624b565
- Merge pull request #1063 from opendatalab/release-0.10.0 · 158e556b
  Xiaomeng Zhao authored Nov 22, 2024
```
Release 0.10.0
```
  158e556b
- Merge pull request #1065 from opendatalab/dev · 30be5017
  Xiaomeng Zhao authored Nov 22, 2024
```
fix(pdf_parse): improve OCR result handling
```
  30be5017
- Merge pull request #1064 from myhloli/dev · b936cb0c
  Xiaomeng Zhao authored Nov 22, 2024
```
fix(pdf_parse): improve OCR result handling
```
  b936cb0c
- fix(pdf_parse): improve OCR result handling · 6b296ee2
  myhloli authored Nov 22, 2024
```
- Add null check for OCR results to prevent errors on empty lists
- Enhance robustness of OCR text processing in the magic-pdf project
```
  6b296ee2
- Merge pull request #1062 from opendatalab/dev · 809bf479
  Xiaomeng Zhao authored Nov 22, 2024
```
fix(table): add null check for OCR result in rapid table prediction 
```
  809bf479