miner-auto-convert.py

import requests
import os
import base64
import json

# 1. 准备请求
url = "http://127.0.0.1:8000/parse/pdf" # 你的API地址
files = {'file': open('test.pdf', 'rb')}
data = {'output_format': 'json'} # 请求JSON格式以便获取图片详情

# 2. 发送请求
response = requests.post(url, files=files, data=data)
result = response.json()

# 3. 处理结果 (根据实际API返回结构调整)
# 假设返回结构中包含 markdown 内容和图片列表
md_content = result.get('markdown', '')
images = result.get('images', []) # 假设这里有图片信息

# 4. 保存图片
os.makedirs("output_images", exist_ok=True)
for img in images:
    img_name = img.get('name')
    img_data = img.get('data') # 可能是 base64 或 url
    
    # 如果是 base64
    if img_data.startswith('data:image'):
        img_bytes = base64.b64decode(img_data.split(',')[1])
        with open(f"output_images/{img_name}", 'wb') as f:
            f.write(img_bytes)
    
    # 如果是 URL (需要二次下载)
    elif img_data.startswith('http'):
        img_resp = requests.get(img_data)
        with open(f"output_images/{img_name}", 'wb') as f:
            f.write(img_resp.content)

# 5. 保存 Markdown
with open("output.md", "w", encoding="utf-8") as f:
    f.write(md_content)

print("处理完成，图片和Markdown已保存。")