miner-auto-convert.py 1.3 KB
Newer Older
wangkaixiong's avatar
init  
wangkaixiong committed
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
import requests
import os
import base64
import json

# 1. 准备请求
url = "http://127.0.0.1:8000/parse/pdf" # 你的API地址
files = {'file': open('test.pdf', 'rb')}
data = {'output_format': 'json'} # 请求JSON格式以便获取图片详情

# 2. 发送请求
response = requests.post(url, files=files, data=data)
result = response.json()

# 3. 处理结果 (根据实际API返回结构调整)
# 假设返回结构中包含 markdown 内容和图片列表
md_content = result.get('markdown', '')
images = result.get('images', []) # 假设这里有图片信息

# 4. 保存图片
os.makedirs("output_images", exist_ok=True)
for img in images:
    img_name = img.get('name')
    img_data = img.get('data') # 可能是 base64 或 url
    
    # 如果是 base64
    if img_data.startswith('data:image'):
        img_bytes = base64.b64decode(img_data.split(',')[1])
        with open(f"output_images/{img_name}", 'wb') as f:
            f.write(img_bytes)
    
    # 如果是 URL (需要二次下载)
    elif img_data.startswith('http'):
        img_resp = requests.get(img_data)
        with open(f"output_images/{img_name}", 'wb') as f:
            f.write(img_resp.content)

# 5. 保存 Markdown
with open("output.md", "w", encoding="utf-8") as f:
    f.write(md_content)

print("处理完成,图片和Markdown已保存。")