麻豆在线

美女中出你的位置:麻豆在线 > 美女中出 > 少妇空姐 纯视觉决议精确操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

少妇空姐 纯视觉决议精确操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

发布日期:2025-01-10 18:06    点击次数:181

少妇空姐 纯视觉决议精确操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

裁剪:LRST少妇空姐

Aria-UI通过纯视觉知道,完了了GUI教导的精确定位,无需依赖后台数据,简化了部署进程;在AndroidWorld和OSWorld等泰斗基准测试中显露出色,永别获取第别称和第三名,展示了顽强的跨平台自动化能力。

在现在数字期间,智能助手已成为处理跨平台任务的不行或缺器具。

然而,何如将用户的当然谈话教导精确映射(grounding)到界面元素一直是该畛域的中枢挑战。

传统惩处决议主要依赖调用无防碍API、解析HTML源码或索要后台数据,这些步调普遍存在效用低下、信息不齐备、兼容性差等显贵痛点,严重制约了自动化时间的深广应用。

港大聚合Rhymes AI推出的Aria-UI,通过始创性的「纯视觉知道」决议绝对改革了这一近况,无需任何后台数据支持,仅通过径直不雅察用户界面就能完成当然谈话知道、界面元素定位、语义对皆和任务扩张等全进程操作。这种新的想象不仅简化了部署进程,更为跨平台自动化开辟了全新范式。

Aria-UI是一款成心面向GUI智能交互的翻新式大范畴多模态模子(LMM),颠覆性地完了了「看到即会操作」的当然交互范式 - 就像东谈主类用户相同,AI只需「不雅察」界面,即可知道并自主完成复杂的操作进程,从网页浏览、文献处理到系统设立等任务都能任意应酬。

在评估AI自动化操作能力的泰斗基准测试中,Aria-UI合作GPT-4o展现出超过显露:AndroidWorld榜单排行第一,OSWorld榜单排行第三!

这一成绩不仅超越了业界跨越的Claude 3.5 Sonnet computer-use接口,更展示了其在模拟东谈主类操作电脑方面的顽强能力。

Aria-UI遴选翻新的MoE (Mixture of Experts)架构,通过智能动态激活机制,将模子参数需求压缩至仅3.9B,同期保持较好的性能。这一打破性的轻量级想象带来多重上风:

时间亮点:

极致压缩:仅激活3.9B参数,大幅镌汰策动资源需求

高效推理:优化的MoE架构确保快速反应和踏实性能

深广适配:支持在资源受限场景下的纯真部署

灵通生态:全面开源模子权重与西宾数据

部署便利:提供即用型vLLM推理剧本、支持主流huggingface transformers框架、齐备的部署文档与示例

这种灵通分享的战术,合作通俗的部署决议,让Aria-UI信得过作念到「开箱即用」。

Aria-UI的打破性翻新

智能教导适配引擎:Aria-UI想象了数据生成pipeline,通过自动合成海量高质地西宾样本,为模子注入顽强的教导知道能力。这套智能教导适配引擎使模子获取了超过的泛化性能,能平缓应酬种种复杂任务场景,展现出超卓的环境稳当能力,为完了信得过的通用型AI助手奠定了坚实基础。

动态险阻文感知:为完了高精度的任务扩张,Aria-UI翻新性地交融了多模态险阻文知道机制。通过整合文本记载和图文操作历史,模子获取了顽强的场景知道能力,能准确主办动态变化的操作环境,将复杂教导精确滚动为具体行径。

全面性能测评:Aria-UI在严格的性能评测中展现出令东谈主明慧的时间上风,凯旋刷新了多个畛域基准的记载。在纯视觉东谈主机交互基准测试中,其显露远超现存最好视觉模子;在与需要调用AXTree等特地信息的传统决议对比中,Aria-UI仅依靠视觉知道就取得了显贵的性能擢升。实验测评不仅考证了纯视觉步调的可行性,更展示了其在界面自动化畛域(GUI Grounding)的应用后劲。

跟着图形用户界面(GUI)在各大平台的深度普及,它断然成为数字世界的中枢交互方式。从日常生涯场景到专科职责畛域,GUI智能体正在重塑东谈主机交互的方式,为任务自动化开辟新宇宙。如图2所示,一个齐备的GUI智能体运作可分为两大中枢阶段:决策策动(Planning)和视觉定位(Grounding)

在决策策动阶段,智能体通过分析刻下界面现象,制定扩张任务的具体战术;而在视觉定位阶段,则需要将策动好的教导精确映射到实质界面元素上,确保操作的准确扩张。

尽管大范畴多模态模子(LMMs)在决策策动方面取得显贵进展,相称是在链式推理(CoT)和模子扩展等时间的加持下,但何如完了谈话教导到GUI元素的精确定位仍然面对紧要挑战。这些挑战主要体现在三个层面:

跨开导兼容性:不同开导间界面布局存在弘大相反,要求模子具备顽强的稳当能力

教导种种性:策动教导在形式和内容上鬼出电入,锻真金不怕火模子的知道能力

场景复杂性:任务扩张过程充满动态变化,对模子的及时反应能力淡薄更高要求

这些挑战不仅鼓励着GUI智能体时间的不竭翻新,也为打造更智能、更实用的自动化惩处决议指明了场所。

种种化教导适配:从数据到模子的全场所擢升

在开发Aria-UI的过程中,商榷东谈主员深远剖析了刻下GUI Grounding畛域的数据窘境。传统数据集普遍存在范畴受限、闭塞特有、平台单一等问题,尤其是空泛对动态任务扩张过程中关键险阻文信息的收罗。这些局限性严重制约了多模态大模子(LMM)在跨平台场景下的显露和通用性。

针对这些挑战,Aria-UI始创性地淡薄了一套 数据开动惩处决议。通过构建高度自动化的数据生成pipeline,完了了对网页、桌面和迁徙端三大中枢平台的全面隐匿。这套翻新机制不仅显贵履行了西宾数据的范畴和种种性,更为模子在复杂教导适配方面的能力擢升开辟了新路子。

多平台数据扩展:打造Web、PC与迁徙端全场景隐匿

Aria-UI 想象的数据生成pipeline包含两个关键阶段:

第一阶段:精确元素描画生成

遴选顶尖多模态谈话模子(如GPT-4o或Qwen2-VL-72B)进行元素描画生成。输入数据包含:元素截图、HTML文本信息、屏幕位置坐标。

为确保描画质地,商榷东谈主员优化了视觉输入方式:

• 孤独截图:捕捉概念元素局部画面

• 放大视图:用红框标详确标元素在举座界面中的位置

这种步调能获取元素特征,包括视觉属性、功能特色和位置斟酌等。举例,一个红色的“订阅”按钮描画为:位于ChefMaria烹调频谈头部右上角的'订阅'按钮,鲜红色配景,白色翰墨搭配铃铛图标,下方暴露2.3M订阅者

第二阶段:种种化教导生成

基于第一阶段的精确描画,利用LLM生成当然、种种的操作教导。以上述订阅按钮为例:「订阅ChefMaria的频谈。」

为增强数据种种性,每个元素均生成3种不同抒发的教导。通过这套尽心想象的pipeline,凯旋构建了隐匿三大平台的海量高质地教导数据集,为模子西宾提供了坚实基础。

网页数据(Web)

网页平台以其丰富的交互形式和动态特色,为构建GUI Grounding数据集提供了理念念环境。基于最新的Common Crawl数据库,想象了以下淡雅化处理进程:

• 网页筛选:遴选fastText时间进行内容质地评估,有用过滤低质地和失当网页,要点保留交互元素丰富的高价值页面;

• 元素索要:基于HTML属性进行精确识别,索要按钮、图标等高交互性元素,优先收罗复杂度高且贴近实质应用场景的界面内容;

• 跨开导数据收罗:愚弄Playwright自动化器具,同步收罗1920×1080(圭臬分辨率)和2440×1600(高清分辨率)两种规格的界面数据,确保模子的深广适用性。

通过这套系统化的处理进程,凯旋从173K个网页中索要了2M个高质地交互元素,并最终身成了 6M条圭臬化教导样本。这些隐匿多种分辨率和界面复杂度的数据,不仅齐备展现了当代网页的特色,更为GUI任务提供了丰富而实用的西宾资源。

桌面数据(Desktop)

桌面环境数据的高质地收罗一直是商榷中的关键难点。现存数据集普遍存在范畴受限、收罗资本高级问题,如OmniACT数据集仅包含7.3K条东谈主工标注样本。

针对这一挑战,商榷东谈主员翻新开发了基于大谈话模子(LLM)的自动化遍历Agent,完了了桌面环境数据的高效收罗:

• 智能遍历战术: Agent通过及时解析操作系统的可拜谒性树(A11y),遴选深度优先搜索算法,系统性地探索和遴选界面中的交互元素,确保收罗的全面性;

• 现象跟踪机制:集成轻量级缅念念模块,及时记载已拜谒元素的现象信息,有用幸免肖似收罗,擢升收罗效用;

• 多模态数据拿获:对每个交互元素进行多维度信息收罗,包括高清截图、精确坐标位置以及齐备的A11y属性描画,保证数据的齐备性。

通过这套翻新的收罗系统,凯旋获取了50K个高质地桌面交互元素,并借助数据处理进程最终身成了 150K条丰富种种的教导样本。这一后果显贵履行了桌面环境GUI Grounding数据的范畴,为关联商榷提供了坚实的数据基础。

迁徙数据(Mobile)

重庆高校在线开放课程平台

迁徙端是GUI自动化商榷的要点畛域,已累积了丰富的公开数据资源。尽管咫尺最大的AMEX数据集包含了104K张屏幕截图和1.6M个交互元素,但其元素描画过于粗陋,空泛与实质任务相匹配的当然谈话教导。针对这一问题,Aria-UI 对AMEX数据进行了系统性重构,通过高质地的描画和教导荣达成,在保持原有范畴的同期显贵擢升了数据质地,为迁徙端任务提供了更有用的西宾基础。

动态险阻文感知机制

比拟于静态任务,动态任务的凯旋扩张高度依赖于对险阻文信息的准确知道。Aria-UI 翻新性地引入了 文本-图像搀和的操作历史记载,显贵增强了模子的险阻文感知能力。在处理多步调任务时,模子不仅推敲刻下元素的特征,还详细分析先前操作的齐备记载,从而生成更精确的操作教导。这种深度险阻文感知机制使 Aria-UI 在复杂任务场景中展现出优异的准确性和踏实性。

跨平台斡旋惩处决议

通过上述翻新想象,Aria-UI 不仅有用克服了现存数据集的局限性,还在种种化教导适配方面取得了打破性进展。无论是网页、桌面应用还是迁徙端界面,Aria-UI 都显露出超过的性能,为跨平台GUI自动化提供了一站式惩处决议。这些进展为异日更深广的任务自动化应用奠定了坚实基础。

模子框架:高效与精确的结合

Aria-UI 基于先进的MoE多模态大模子Aria构建,充分秉承和优化了其中枢上风,完了了效用与精确度的最好均衡:

深度多模态知道:Aria的原生多模态架组成心想象用于处理复杂的跨模态信息,使GUI智能体粗略准确知道和反应种种化的交互场景;

高效策动架构:收获于小巧的模子想象,Aria以仅3.9B的激活参数完了了超越7B范畴密集模子的推理速率,确保了实质应用中的快速反应能力。

打破分辨率限度, 精确适配复杂界面

面对暴露时间从1080p向2K及更高分辨率演进的趋势,高分辨率图像处理能力已成为GUI Grounding模子的中枢需求。

商榷东谈主员对Aria的基础架构进行了翻新性矫正:通过智能分块战术,将正本980×980的处理能力擢升至 3920×2940,完了了超高分辨率支持。

为确保高分辨率场景下的精慑服位,遴选了基于NaViT的优化决议,通过保持原始宽高比的智能填充时间,有用镌汰了图像变形带来的精度赔本。这些时间翻新使Aria-UI粗略在各式分辨率环境下保持踏实的性能显露。

西宾与推理战术:构建动态环境稳当能力

Aria-UI遴选双阶段西宾决议,系统性地诞生基础能力并强化动态稳当性:

基础能力构建阶段

在第一阶段,商榷东谈主员专注于培养模子的中枢GUI Grounding能力。模子接管圭臬花式的教导输入(如「给定GUI图像,定位以下描画对应元素的像素坐标」),通过普遍单步教导-坐标对的西宾,学习准确输出归一化坐标值(0-1000范围内)的基础能力,为后续的动态任务处理奠定坚实基础。

动态能力增强阶段

第二阶段细心增强模子的动态任务处理能力,引入了包含纯文本历史和文本-图像搀和历史的险阻文感知西宾。

为了看护模子的普适性并古老过度拟合,在西宾逼近保留了20%的单步数据,确保模子在保持动态处理能力的同期不会丢失基础定位准确度。

智能推理机制

在实质推理阶段,Aria-UI将输出斡旋的圭臬化坐标([0, 1000]范围),并粗略将历史操作记载手脚险阻文输入处理。这种想象使模子粗略像进行对话相同处理结合的交互任务,将过往的元素定位与交互记载纳入决策考量,从而在复杂的动态环境中展现出优异的稳当能力和踏实性。

凭借这套翻新的时间架构,Aria-UI在多个关键畛域完了了打破:精确支持从1080p到4K的超高分辨率界面、纯真适配种种化布局想象,同期在复杂动态环境中展现出较强的任务处理能力和环境稳当性。

Agent任务显露

商榷东谈主员在ScreenSpot基准数据集上对Aria-UI的基础GUI Grounding能力进行了系统评估。该测试集包含六个细分场景,隐匿两类界面元素和三大主流平台(迁徙端、网页、桌面端)。

每个测试样本由一张GUI截图和对应的定位教导组成,其中迁徙端和网页场景遴选2K分辨率,桌面端场景则使用540p分辨率,全面考证模子在不同应用环境下的定位准确性。

在详细性能测试中,Aria-UI展现出超过的定位能力,在一起测试子集上取得了82.4%的最优平均准确率。相称是在文本元素定位任务中,模子显露尤为杰出,超越现存决议。这些结果充分讲授了Aria-UI在跨平台场景和多元素类型中具备顽强的稳当性与泛化能力。

迁徙端离线Agent测试

商榷东谈主员对Aria-UI在迁徙端离线动态场景中的性能进行了深远评估,要点考证其为代理任务轨迹提供精确定位坐标的能力。评估遴选了三个专科测试集:AndroidControl-Low、GUI-Odyssey和AndroidControl-High。

其中,前两个测试集包含了齐备的逐步操作教导(东谈主工标注或自动生成),而AndroidControl-High则仅提供任务概念,需要借助GPT-4o手脚策动器来明白和生成具体操作步调。这种评估框架使咱们粗略全面磨练模子在职务精度和完成率两个关键目的上的显露。

在实验中,商榷东谈主员想象并评估了Aria-UI的两个关键变体:

Aria-UI_TH(文本动作历史):该变体在推理过程中集成了Agent的历史动作文本描画,通过险阻文信息增强来优化刻下元素的定位准确性。这种想象在策动效用和性能显露间完了了理念念均衡。

Aria-UI_IH(文本-图像瓜代历史):该变体在文本动作历史的基础上,特地引入了前序步调的图像信息手脚辅助输入。这种多模态交融战术为任务提供了更丰富的险阻文感知,尤其恰当需要精确视觉知道的复杂场景。

实验结果暴露,两个变体都在AndroidControl和GUI-Odyssey测试集上取得了打破性进展,显贵超越现存基准模子。历史信息的引入(无论是纯文本还是文本-图像结合)都有用擢升了元素定位精度和任务完成质地。其中,Aria-UI_TH凭借其出色的性能与效用衡量,展现出相称优异的应用价值。

网页端离线Agent测试

商榷东谈主员遴选Multimodal-Mind2Web基准对Aria-UI在网页代理任务中的性能进行了全面评估。该基准包含三个具有挑战性的测试场景:跨任务、跨网站和跨畛域,旨在系统考证模子在零样本环境下的泛化能力。

实验结果令东谈主明慧:Aria-UI系列模子在总共测试场景中均显贵跨越于现存基准决议,举座平均准确率达到57.5%。

其中,融入历史信息的变体显露更为出色,Aria-UI_TH和Aria-UI_IH的准确率进一步擢升至58.9%。相称值得一提的是,Aria-UI_IH在跨网站和跨畛域测试中展现出超过显露,充分讲授了其在处理复杂多模态险阻文方面的上风。

在线Agent评估

迁徙端与网页端性能

遴选AndroidWorld基准测试框架,在Android模拟器环境中对迁徙端代理进行了严格的在线评估。评估遴选系统现象检测机制,通过监测捏造开导的及时现象来判定任务完成情况。

同期,还引入了AndroidWorld提供的MobileMiniWob++任务集,这是一个基于经典Web代理环境MiniWob++构建的专科测试集。

AndroidWorld测试:Aria-UI展现出打破性后果,其中Aria-UI_TH变体完了了44.8%的任务凯旋率,创造了新的性能基准。这一成绩不仅超越了现存最优决议,还优于依赖AXTree输入的非纯视觉步调(如SoM和Choice)。这充分讲授了Aria-UI手脚纯视觉GUI代理的超过能力,展示了其在复杂确实场景中的踏实性和稳当性。

MobileMiniWob++测试:在纯视觉输入要求下,Aria-UI的显露显贵优于其他视觉步和洽基于遴选的决议。诚然在这个结构相对粗陋的测试环境中,基于GPT-4-Turbo的SoM步调取得了最好成绩,但Aria-UI仍然在纯视觉处理畛域展现出跨越上风。

OSWorld评估:复杂操作系统环境测试

在最具挑战性的操作系统模拟环境OSWorld中,商榷东谈主员对Aria-UI进行了深远评估。通过将Aria-UI手脚中枢定位模子,并与GPT-4o协同运作,咱们完成了涵盖369个实质应用场景的详细测试。

实验结果暴露,Aria-UI创造了15.15%的平均任务凯旋率,显贵跨越于总共现存决议。相称值得温柔的是,在多个高难度应用场景中,Aria-UI展现出超过性能:

VLC播放器任务:30.06%

Chrome浏览器操作:23.80%

Impress演示制作:15.32%

这些讲授了Aria-UI在处理复杂GUI交互时的优厚能力。

详细性能回归

通过一系列严格的在线评估,Aria-UI在多个关键场景中均展现出全面的时间上风:

迁徙端环境:优异的定位精度

网页端应用:出色的交互能力

操作系统环境:顽强的任务完成能力

这些测试结果有劲地讲授了Aria-UI手脚纯视觉GUI代理的时间先进性,展示了其在复杂多变的实质应用环境中的超过稳当能力和操作精确度。

回归

Aria-UI通过一系列严格的在线测试,在迁徙端、网页端及复杂的操作系统模拟环境中均展现出显贵的时间上风,全面超越现存起始进惩处决议。

这些测试后果不仅考证了Aria-UI手脚纯视觉GUI代理的超过性能少妇空姐,更突显了其超强的环境稳当能力、精确的元素定位能力和可靠的任务完成能力。如斯全场所的优异显露,有劲地证据了Aria-UI在处理复杂东谈主机交互任务时的时间熟识度和实用价值。



Powered by 麻豆在线 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024

top