IBM Research发布的轻量级视觉语言模型SmolDocling,仅256M参数,支持全文档OCR和多模态处理,每页处理速度0.35秒,能在消费级显卡上运行,支持文字、公式、代码、图表等多种元素的识别和处理。
详细介绍InternLM-XComposer-2.5-OmniLive(浦语·灵笔2.5)多模态大模型的安装部署、实践教程和性能评测。支持图像、视频、音频等多模态输入,提供完整的中文API使用示例,包含环境配置、模型训练、推理部署等全流程指南。
Ivy-VL轻量级视觉语言模型重磅发布:3B参数超越7B性能,支持AI眼镜实时部署,OpenCompass榜单4B以下第一,开源免费可商用。AI Safeguard联合CMU斯坦福打造端侧视觉AI新标杆。