Commit e96b1c06 authored by shihm's avatar shihm
Browse files

updata readme.md and model.properties

parent 4971aea9
......@@ -11,14 +11,23 @@
<img src="https://cdn-uploads.huggingface.co/production/uploads/658a8a837959448ef5500ce5/IPsQk8gTTMD-ipTye3WED.png" width="100%" />
</div>
### 核心特性
MoE 架构:卓越性能,低推理成本<br>
核心特性:
- MoE 架构:卓越性能,低推理成本:
LLM 主干网络已升级为 混合专家(Mixture-of-Experts, MoE) 架构。这使得 Ovis2.6 能够扩展至 总计 300 亿参数,从而捕获海量知识与细微差异。关键在于,其推理过程中仅激活约 30 亿参数,确保了较低的推理成本和高吞吐量。<br>
增强的长序列与高分辨率处理能力<br>
- 增强的长序列与高分辨率处理能力:
Ovis2.6 将上下文窗口扩展至 64K tokens,并支持最高 2880×2880 的图像分辨率,显著提升了处理高分辨率及信息密集型视觉输入的能力。这些改进在 长文档问答 场景中尤为有效,此时模型需从多页内容中收集并整合线索以得出正确答案。<br>
“以图思考”(Think with Image)<br>
- “以图思考”(Think with Image):
我们引入了 “以图思考” 能力,将视觉从被动输入转变为主动的认知工作区。在推理过程中,模型可主动调用视觉工具(如裁剪和旋转),在其思维链(Chain-of-Thought)中重新审视和分析图像区域,从而实现对视觉输入的多轮、自省式推理,提升复杂任务的准确性。<br>
强化的 OCR、文档与图表理解能力<br>
- 强化的 OCR、文档与图表理解能力:
延续我们在信息密集型视觉任务上的专注,我们进一步增强了模型在 光学字符识别(OCR)、文档理解 和 图表/示意图分析 方面的能力。Ovis2.6 不仅能精准地从视觉数据中提取结构化信息,还能对提取内容进行 推理。<br>
<div align="center">
......
# 模型唯一标识
modelCode=2207
# 模型名称
modelName=Ovis2.6_transformers
modelName=Ovis2.6_pytorch
# 模型描述
modelDescription=我们推出Ovis2.6-30B-A3B,这是Ovis列多模态大语言模型(MLLM)的最新进展。在Ovis2.5的坚实基础上,Ovis2.6将LLM主干网络升级为混合专家(Mixture-of-Experts, MoE)架构,在显著降低推理成本的同时实现了卓越的多模态性能。此外,该模型还在长上下文与高分辨率理解、结合主动图像分析的视觉推理,以及信息密集型文档理解方面带来了重大改进。
# 运行过程
......@@ -9,6 +9,6 @@ processType=推理
# 算法类别
appCategory=多模态
# 框架类型
frameType=transformers
frameType=pytorch
# 加速卡类型
accelerateType=BW1000
\ No newline at end of file
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment