Tech Explorer Logo

搜索内容

微软 OmniParser V2.0 重磅发布:AI 视觉解析迎来重大升级,自动化与可访问性迈向新高度

5 min read
Cover image for 微软 OmniParser V2.0 重磅发布:AI 视觉解析迎来重大升级,自动化与可访问性迈向新高度

微软近日正式发布 OmniParser V2.0,这款强大的工具能够将图形用户界面 (GUI) 的屏幕截图转化为结构化数据。作为人工智能 (AI) 领域的一项重大突破,OmniParser V2.0 通过增强大型语言模型 (LLM) 与屏幕上视觉元素的交互能力,为自动化和可访问性开辟了新的可能性。

OmniParser V2.0 旨在提高 AI 在理解和操作用户界面方面的效率。通过将屏幕截图转化为结构化数据,该工具让 AI 模型能够识别、理解并与界面上的元素进行交互,从而实现更智能、更高效的应用自动化和用户辅助功能。

主要特性与改进:

  • 速度大幅提升: OmniParser V2.0 的延迟相比上一代产品降低了 60%,在高配置 GPU(如 A100 和 4090 型号)上的平均处理时间分别仅为 0.6 秒和 0.8 秒,极大地提升了处理效率。

  • 精度显著提高: 在 ScreenSpot Pro 基准测试中,OmniParser V2.0 在检测交互元素方面的平均准确率达到了 39.6%,相较以往版本有了质的飞跃。

  • 强大的输入与输出能力:

    • 输入: 支持来自 Windows、移动设备和 Web 应用等多个平台的屏幕截图。
    • 输出: 生成交互元素的结构化表示,包括可点击区域的位置数据和 UI 组件的功能描述。
  • 与 LLM 的无缝集成: 通过统一的 OmniTool 接口,OmniParser V2.0 可与 OpenAI 的 GPT-4o、DeepSeek R1、Qwen 2.5VL 和 Anthropic Sonnet 等多种 AI 模型集成,为开发者创建自动化测试工具、辅助功能解决方案等提供了便利。

技术升级:

OmniParser V2.0 采用了微调的 YOLOv8 模型以及 Florence-2 基础模型,从而增强了其对界面元素的理解能力。训练数据集也得到了扩展,包含了关于图标及其功能的更全面信息,这显著提高了模型检测小型 UI 组件的性能。

快速开始

按照下面安装conda虚拟环境并安装对应依赖即可

  1. 环境准备
   conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
  1. 下载模型
   rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence 
huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights
mv weights/icon_caption weights/icon_caption_florence
  1. 运行演示
  • 使用 Jupyter Notebook: 打开 demo.ipynb 查看示例代码
  • 使用 Web 界面:
       python gradio_demo.py

广泛的应用场景:

OmniParser V2.0 在以下领域具有广泛的应用前景:

  • UI 自动化: 通过使 AI 代理能够与 GUI 交互,从而实现重复性任务的自动化。

  • 辅助功能解决方案: 通过提供可由辅助技术解读的结构化数据,帮助残障用户更便捷地使用各种应用。

  • 用户界面分析: 基于从屏幕截图中提取的结构化数据,对用户界面进行分析和改进。

微软表示,OmniParser V2.0 的发布是 AI 视觉解析领域的重要里程碑。凭借其卓越的速度、精度和集成能力,OmniParser V2.0 将成为开发者和企业在 AI 驱动的技术解决方案领域中的重要工具,为用户带来更智能、更便捷的体验。随着技术的不断发展,OmniParser V2.0 有望在未来推动更多创新应用,为各行各业带来深远影响。

相关链接

Share

更多文章