Explore GitLab
Discover projects, groups and snippets. Share your projects with others
-
用DeepStream进行视频推理的应用示例。
-
MinerU 的 2.5 版本,用全新的 VLM 模型实现了文档解析的 SOTA 性能。
-
-
YOLO11在CPU上提速明显,支持目标检测、实例分割、图像分类、姿态估计。
-
rust与ssh相关代码
-
微软发布的强大的轻量级多模态基础模型Phi-4-MultiModal-Instruct!该模型目前具有英文的图像理解能力,同时有超过Whisper V3的视频理解能力!
-
-
InternVL 2.5,这是一个高级多模态大型语言模型(MLLM)系列,它建立在InternVL 2.0的基础上,保持了其核心模型架构,同时引入了训练和测试策略以及数据质量的显著增强。
-
DeepSeek-V3.2 是deepseek推出的首个将思考融入工具使用的模型,并且同时支持思考模式与非思考模式的工具调用。
-
-
Stable Diffusion 3 Medium is a Multimodal Diffusion Transformer (MMDiT) text-to-image model.
-
S3Diff 是一种基于扩散先验的退化引导一步图像超分辨率方法
-
[ICCV 2025] STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution
-
-
-
Segment Anything Model 2 (SAM 2)是一个用于解决图像和视频中可提示视觉分割问题的基础模型。
-
HunyuanOCR是一款基于腾讯混元原生多模态架构的端到端OCR专家模型,该模型精通复杂多语种文档解析,同时在文字检测识别、开放字段信息抽取、视频字幕识别、拍照翻译等全场景实用技能中表现出色。
-
-
-