
SmolDocling:256M参数的全能文档OCR处理利神器,每页仅需0.35秒,GTX1060即可运行
IBM Research发布的轻量级视觉语言模型SmolDocling,仅256M参数,支持全文档OCR和多模态处理,每页处理速度0.35秒,能在消费级显卡上运行,支持文字、公式、代码、图表等多种元素的识别和处理。
IBM Research发布的轻量级视觉语言模型SmolDocling,仅256M参数,支持全文档OCR和多模态处理,每页处理速度0.35秒,能在消费级显卡上运行,支持文字、公式、代码、图表等多种元素的识别和处理。
Manus与OpenManus的对决掀起AI Agent领域的热潮:一边是Monica.im团队推出的商业闭源产品席卷全网,邀请码被炒至5万;另一边是MetaGPT团队3小时极速开源复刻,引发技术与商业模式的深度思考。这场AI Agent赛道的双雄争霸,不仅是技术实力的较量,更是商业模式与开源理念的碰撞
阿里云通义千问团队发布QwQ-32B模型,采用纯强化学习方法,以32B参数量挑战DeepSeek R1的671B参数。QwQ-32B在数学推理、代码生成等任务上展现出惊人性能,开创了AI小模型新纪元。本文深入分析两大模型优劣势,探讨开源AI发展新趋势。
最受欢迎的 VS Code 主题插件 Material Theme 被发现包含恶意代码,影响390万用户。本文详细分析事件始末、安全影响及应对措施。
微软 OmniParser V2.0 是新一代 AI 视觉解析工具,可将 GUI 界面转换为结构化数据,具有更快的处理速度和更高的检测准确率,支持多平台输入并可与主流 LLM 无缝集成。
字节跳动联合港大推出的Goku视频生成模型在VBench基准测试中取得84.85的优异成绩,展现出强大的视频生成能力和商业应用潜力。该模型支持文本到视频、图像到视频等多种生成任务,在画面质量、采样、人物动作等多个维度均表现出色。
DeepSeek R1 是 DeepSeek 公司推出的一款基于强化学习的大语言模型,它在推理能力上取得了重大突破,甚至能与 OpenAI 的 o1-1217 相媲美。
Let's Encrypt 宣布将在2025年推出6天有效期证书选项和IP地址证书支持。这一重大更新将进一步提升Web PKI的安全性,同时为基于IP地址的服务提供更灵活的SSL/TLS证书解决方案。
字节跳动开源基于 Golang 的大模型应用开发框架 Eino,提供稳定、可扩展的开发体验。Eino 基于明确的组件定义和强大的流程编排能力,覆盖开发全流程,帮助开发者快速构建高质量的大模型应用。框架具有内核稳定、敏捷扩展、高可靠易维护等特点,并提供丰富的工具生态支持。
VLC在CES 2025展会上发布重大更新,基于本地离线开源AI模型实现自动字幕生成和翻译功能,无需联网即可完成视频字幕提取和多语言翻译。该功能完全基于设备本地运算,采用开源AI模型,支持多语言互译,针对不同性能设备进行了优化,确保用户隐私安全的同时提供强大的AI辅助能力,开创了媒体播放器与AI技术结合的新纪元