IBM Research发布的轻量级视觉语言模型SmolDocling,仅256M参数,支持全文档OCR和多模态处理,每页处理速度0.35秒,能在消费级显卡上运行,支持文字、公式、代码、图表等多种元素的识别和处理。
详细的MinerU使用教程,从基础概念到高级应用,包含在线体验和本地部署方法。支持从PDF文档中智能提取文本、图片、表格和数学公式,具备多语言OCR和结构化转换能力。适用于学术研究、数据分析等场景的开源工具,让文档数据提取变得简单高效。