Explore GitLab
Discover projects, groups and snippets. Share your projects with others
-
HunyuanOCR是一款基于腾讯混元原生多模态架构的端到端OCR专家模型,该模型精通复杂多语种文档解析,同时在文字检测识别、开放字段信息抽取、视频字幕识别、拍照翻译等全场景实用技能中表现出色。
-
-
-
-
-
Kimi-VL-A3B-Thinking 由月之暗面开源发布的多模态模型,在多模态推理和智能体能力方面表现突出。
-
MiniCPM-V 2.6是是 MiniCPM-V 系列中最新、性能最佳的模型。仅 8B 参数,但却取得 20B 以下单图、多图、视频理解 3 SOTA 成绩,一举将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。
-
Kimi-VL-A3B-Instruct 是由月之暗面发布的多模态视觉语言模型,在多模态推理和智能体能力方面表现突出。
-
-
-
-
-
Light Video Generation Inference Framework
-
Ovis2.5专为原生分辨率视觉感知和增强的多模态推理而设计,在图像推理、视频理解和接地基准测试中表现出领先的性能,展现了强大的通用多模态能力。
-
-
T1 模型是 TeleChat 系列专注于复杂推理的模型,由中国电信人工智能研究院基于国产算力研发训练。
-
基于 Ovis-U1,Ovis-Image 是一个 7B 的文本到图像模型,专门针对高质量文本渲染进行了优化,设计用于在严格的计算约束下高效运行。
-
-
-