纯视觉方案精准操控电脑和手机!港大Aria-UI登顶,超越Claude3.5

Magicflu小小汪 2025-02-06 11:50:47

纯视觉方案精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

在当今数字时代,智能助手已成为处理跨平台任务的不可或缺工具。

然而,如何将用户的自然语言指令精准映射(grounding)到界面元素一直是该领域的核心挑战。

传统解决方案主要依赖调用无障碍API、解析HTML源码或提取后台数据,这些方法普遍存在效率低下、信息不完整、兼容性差等显著痛点,严重制约了自动化技术的广泛应用。

港大联合Rhymes AI推出的Aria-UI,通过开创性的「纯视觉理解」方案彻底改变了这一现状,无需任何后台数据支持,仅通过直接观察用户界面就能完成自然语言理解、界面元素定位、语义对齐和任务执行等全流程操作。这种新的设计不仅简化了部署流程,更为跨平台自动化开辟了全新范式。

项目主页:http://t.cn/A63lJSBl

Hugging Face在线demo:http://t.cn/A6uVjKsq

GitHub仓库:http://t.cn/A6uVirRr

Aria-UI是一款专门面向GUI智能交互的创新型大规模多模态模型(LMM),颠覆性地实现了「看到即会操作」的自然交互范式 - 就像人类用户一样,AI只需「观察」界面,即可理解并自主完成复杂的操作流程,从网页浏览、文件处理到系统设置等任务都能轻松应对。

在评估AI自动化操作能力的权威基准测试中,Aria-UI配合GPT-4o展现出卓越表现:AndroidWorld榜单排名第一,OSWorld榜单排名第三!

这一成绩不仅超越了业界领先的Claude 3.5 Sonnet computer-use接口,更展示了其在模拟人类操作电脑方面的强大能力。

Aria-UI采用创新的MoE (Mixture of Experts)架构,通过智能动态激活机制,将模型参数需求压缩至仅3.9B,同时保持较好的性能。这一突破性的轻量级设计带来多重优势:

技术亮点:

极致压缩:仅激活3.9B参数,大幅降低计算资源需求

高效推理:优化的MoE架构确保快速响应和稳定性能

广泛适配:支持在资源受限场景下的灵活部署

开放生态:全面开源模型权重与训练数据

部署便利:提供即用型vLLM推理脚本、支持主流huggingface transformers框架、完整的部署文档与示例

这种开放共享的策略,配合便捷的部署方案,让Aria-UI真正做到「开箱即用」。

Aria-UI的突破性创新

智能指令适配引擎:Aria-UI设计了数据生成pipeline,通过自动合成海量高质量训练样本,为模型注入强大的指令理解能力。这套智能指令适配引擎使模型获得了卓越的泛化性能,能从容应对各类复杂任务场景,展现出非凡的环境适应能力,为实现真正的通用型AI助手奠定了坚实基础。

动态上下文感知:为实现高精度的任务执行,Aria-UI创新性地融合了多模态上下文理解机制。通过整合文本记录和图文操作历史,模型获得了强大的场景理解能力,能准确把握动态变化的操作环境,将复杂指令精准转化为具体行动。

全面性能测评:Aria-UI在严格的性能评测中展现出令人瞩目的技术优势,成功刷新了多个领域基准的记录。在纯视觉人机交互基准测试中,其表现远超现有最佳视觉模型;在与需要调用AXTree等额外信息的传统方案对比中,Aria-UI仅依靠视觉理解就取得了显著的性能提升。实验测评不仅验证了纯视觉方法的可行性,更展示了其在界面自动化领域(GUI Grounding)的应用潜力。

随着图形用户界面(GUI)在各大平台的深度普及,它已然成为数字世界的核心交互方式。从日常生活场景到专业工作领域,GUI智能体正在重塑人机交互的方式,为任务自动化开辟新天地。如图2所示,一个完整的GUI智能体运作可分为两大核心阶段:决策规划(Planning)和视觉定位(Grounding)

在决策规划阶段,智能体通过分析当前界面状态,制定执行任务的具体策略;而在视觉定位阶段,则需要将规划好的指令精准映射到实际界面元素上,确保操作的准确执行。

尽管大规模多模态模型(LMMs)在决策规划方面取得显著进展,特别是在链式推理(CoT)和模型扩展等技术的加持下,但如何实现语言指令到GUI元素的精准定位仍然面临重大挑战。这些挑战主要体现在三个层面:

跨设备兼容性:不同设备间界面布局存在巨大差异,要求模型具备强大的适应能力

指令多样性:规划指令在形式和内容上变化多端,考验模型的理解能力

场景复杂性:任务执行过程充满动态变化,对模型的实时响应能力提出更高要求

这些挑战不仅推动着GUI智能体技术的持续创新,也为打造更智能、更实用的自动化解决方案指明了方向。

多样化指令适配:从数据到模型的全方位提升

在开发Aria-UI的过程中,研究人员深入剖析了当前GUI Grounding领域的数据困境。传统数据集普遍存在规模受限、封闭私有、平台单一等问题,尤其是缺乏对动态任务执行过程中关键上下文信息的采集。这些局限性严重制约了多模态大模型(LMM)在跨平台场景下的表现和通用性。

针对这些挑战,Aria-UI开创性地提出了一套 数据驱动解决方案。通过构建高度自动化的数据生成pipeline,实现了对网页、桌面和移动端三大核心平台的全面覆盖。这套创新机制不仅显著扩充了训练数据的规模和多样性,更为模型在复杂指令适配方面的能力提升开辟了新途径。

多平台数据扩展:打造Web、PC与移动端全场景覆盖

0 阅读:1

Magicflu小小汪

简介:强大的无代码零代码数字中台魔方网表的学习资料汇总