Commit 26ec27bb authored by zzg_666's avatar zzg_666
Browse files

修改

parent 7ea2cfd2
......@@ -6,11 +6,11 @@
Qianfan-OCR是由百度千帆团队研发的一款参数量为40亿(4B)的端到端文档智能模型。该模型在统一的视觉-语言架构下,实现了文档解析、版面分析与文档理解的深度融合。
相较于传统多阶段OCR流水线将版面检测、文本识别与语言理解模块串联执行的范式,Qianfan-OCR采用直接图像到Markdown的端到端转换机制,并支持广泛的提示驱动(prompt-driven)任务。其能力涵盖结构化文档解析、表格抽取、图表理解、文档问答以及关键信息提取等多元场景,所有功能均在单一模型内实现闭环处理。
核心亮点:
🏆 OmniDocBench v1.5 端到端模型榜首:综合得分高达93.12,超越DeepSeek-OCR-v2(91.09)、Gemini-3 Pro(90.33)及所有其他端到端模型。
🏆 OlmOCR Bench 端到端模型榜首:得分79.8。
🏆 关键信息提取(KIE)性能第一:在五个公开 KIE 基准测试中取得87.9的平均分,优于Gemini-3.1-Pro、Gemini-3-Pro、Seed-2.0 及 Qwen3-VL-235B-A22B。
🧠 Layout-as-Thought(版面即思维):一种创新的可选思维链(Chain-of-Thought)机制,通过引入 标记,在端到端范式内显式重构版面分析过程,增强模型推理能力。
🌍 支持192种语言:具备广泛的多语言OCR能力,覆盖多种文字脚本。
🏆 OmniDocBench v1.5 端到端模型榜首:综合得分高达93.12,超越DeepSeek-OCR-v2(91.09)、Gemini-3 Pro(90.33)及所有其他端到端模型。
🏆 OlmOCR Bench 端到端模型榜首:得分79.8。
🏆 关键信息提取(KIE)性能第一:在五个公开 KIE 基准测试中取得87.9的平均分,优于Gemini-3.1-Pro、Gemini-3-Pro、Seed-2.0 及 Qwen3-VL-235B-A22B。
🧠 Layout-as-Thought(版面即思维):一种创新的可选思维链(Chain-of-Thought)机制,通过引入 标记,在端到端范式内显式重构版面分析过程,增强模型推理能力。
🌍 支持192种语言:具备广泛的多语言OCR能力,覆盖多种文字脚本。
⚡ 高效部署:在单张A100 GPU上采用W8A8量化(权重与激活值均为8比特)技术,推理吞吐量高达1.024 PPS(页/秒)。
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment