标签: 视觉语言模型

共 3 篇文章

IBM Research发布的轻量级视觉语言模型SmolDocling，仅256M参数，支持全文档OCR和多模态处理，每页处理速度0.35秒，能在消费级显卡上运行，支持文字、公式、代码、图表等多种元素的识别和处理。

详细介绍InternLM-XComposer-2.5-OmniLive(浦语·灵笔2.5)多模态大模型的安装部署、实践教程和性能评测。支持图像、视频、音频等多模态输入，提供完整的中文API使用示例，包含环境配置、模型训练、推理部署等全流程指南。

Ivy-VL轻量级视觉语言模型重磅发布：3B参数超越7B性能，支持AI眼镜实时部署，OpenCompass榜单4B以下第一，开源免费可商用。AI Safeguard联合CMU斯坦福打造端侧视觉AI新标杆。