Explore GitLab
Discover projects, groups and snippets. Share your projects with others
-
Ovis2.5专为原生分辨率视觉感知和增强的多模态推理而设计,在图像推理、视频理解和接地基准测试中表现出领先的性能,展现了强大的通用多模态能力。
-
-
CRNN 基于卷积神经网络和循环神经网络的结合,适用于文本识别任务。
-
A fast parallel implementation of CTC, on both CPU and GPU.
-
-
YOLO(You Only Look Once)是一种流行的对象检测和图像分割模型,由华盛顿大学的Joseph Redmon和Ali Farhadi开发。YOLO 于 2015 年推出,因其高速和准确性而迅速普及。
-
-
-
MiniMax M1拥有超长的上下文能力,100万token输入,8万token输出,足以媲美Gemini 2.5 Pro的开源模型。
-
-
-
深度探索研发的文生图多模态模型
-
Qwen1.5_14B推理及微调
-
-
wav2vec由facebook AI Research团队提出,效仿nlp上的word2vec,是语音的一种通用特征提取器。
-
-
InternVL 2.5,这是一个高级多模态大型语言模型(MLLM)系列,它建立在InternVL 2.0的基础上,保持了其核心模型架构,同时引入了训练和测试策略以及数据质量的显著增强。
-
LongCat-Video模型,一个13.6B的适配生成模型,在多个方向都有不俗的表现,包括文生视频,图生视频等等
-