蚂蚁开源UI-Venus-1.5:GUI智能体从“看懂”到“干好”的破局之路

· 0 次浏览 ·来源: AI导航站
GUI智能体正从实验室走向真实世界,但普遍面临三大瓶颈:对界面元素理解不足、离线训练与在线执行脱节、多模型协作成本高昂。蚂蚁集团最新开源的UI-Venus-1.5,以“端到端、实战派”为核心理念,通过中期训练补足GUI原生认知、在线强化学习对齐任务目标、模型融合实现多场景统一,成功在40余款中文App中稳定执行复杂操作。该模型不仅在多个基准测试中登顶SOTA,更首次实现了定位、移动端与网页端三大场景的统一建模,标志着GUI智能体从“能看”迈向“会干”的关键跃迁。

当大模型开始尝试在手机屏幕和网页界面上“动手”,一个更真实的数字助手时代似乎触手可及。然而,理想与现实之间仍横亘着一道技术鸿沟:AI能描述界面,却未必懂得如何操作;离线表现优异,上线却频频失误;单项能力突出,协同部署却成本高昂。这些痛点,正是当前GUI智能体落地难的症结所在。

GUI智能体的“三重困境”

尽管Claude、OpenAI Agent及众多开源项目在视觉理解与任务规划上取得进展,但真正要让AI成为能在真实设备上稳定执行任务的助手,仍面临三大现实挑战。其一,基础大模型对GUI领域缺乏“原生理解”——它们能识别图标,却未必知道其功能;能描述布局,却难以推理操作逻辑。其二,离线训练数据与真实交互环境存在显著偏差,模型在模拟环境中看似合理的动作,在真实设备上可能完全失效。其三,当前多数方案依赖多个专家模型协同工作,视觉定位、任务分解、动作执行各司其职,虽提升单项性能,却带来复杂的系统架构与高昂的维护成本。

UI-Venus-1.5的“三步走”战略

蚂蚁集团推出的UI-Venus-1.5,正是针对上述困境的系统性解决方案。该模型采用“中期训练—专家强化—模型融合”的三阶段路径,构建了一个真正端到端的GUI智能体。

第一阶段,中期训练(Mid-Training)聚焦于填补大模型在GUI领域的知识空白。通用视觉语言模型(VLM)虽具备强大的图像理解能力,却缺乏对用户界面结构化逻辑的深层认知。UI-Venus-1.5整合了超过30个公开与内部数据源,涵盖Mind2Web、ShowUI、AITW等主流基准,构建起总量达10B tokens的专用语料库。通过精心设计的任务平衡策略,模型在导航定位、顺序推理、控件语义理解与精细视觉感知四个方面实现系统性提升。这一阶段的目标不是“看起来会操作”,而是让模型真正“懂”界面。

第二阶段,通过离线强化学习(Offline RL)打造领域专家模型。UI-Venus-1.0已在定位与移动端导航上达到SOTA水平,但其定位模型在目标元素不存在时仍会“猜测”坐标,存在幻觉风险。UI-Venus-1.5引入“拒答”机制,当模型判断目标不存在时,明确返回[-1, -1],显著提升可靠性。同时,为统一移动端与网页端操作,模型扩展动作空间,新增鼠标悬停、双击与快捷键支持,并优化跨语言Prompt模板,实现中英文场景的高效适配。

第三阶段,引入在线强化学习(Online RL)解决“动作对、任务错”的精度错配问题。此前训练主要优化单步动作准确率,但任务成功率并未同步提升。根本原因在于,动作正确并不等于任务完成。UI-Venus-1.5借鉴T-GRPO等算法,在真实环境中执行完整任务轨迹,以“任务是否成功”作为核心优化目标,直接对齐端到端性能。

从“多模型协同”到“单模型统一”

当前多数GUI Agent采用多模型架构,不同功能由独立专家模型负责。这种设计虽能短期提升性能,却在落地时带来复杂性与成本问题。UI-Venus-1.5采用“先分后合”策略:先分别训练定位、移动端与网页端三个专家模型,再通过TIES-Merging技术进行模型融合。该方法通过“先筛选、再合并”的机制,有效克服线性合并的局限性,成功整合出统一的端到端模型。在ScreenSpot-Pro、AndroidWorld与WebVoyager三大跨领域基准上,该模型展现出均衡且高效的多场景适应能力。

基础设施的隐形突破:DaaS层支撑大规模在线训练

在线强化学习的实现,离不开底层设备管理能力的支撑。蚂蚁集团构建了统一的设备即服务(DaaS)层,将Android ADB、浏览器CDP、容器SSH等异构协议封装为可扩展插件,实现统一调用。基于二次哈希路由与协程并发模型,系统可支撑大规模设备长连接与高频请求,为在线训练提供稳定环境。配套的多语言SDK进一步降低接入门槛,使算法迭代得以在真实设备上高效进行。

GUI智能体的未来:从“辅助”到“代理”

UI-Venus-1.5的意义不仅在于技术指标的突破,更在于它展示了一条可行的端到端落地路径。当AI能够稳定地在40余款中文App中执行复杂任务,我们距离“一个入口管理所有设备”的愿景又近了一步。未来,GUI智能体将不再局限于简单的点击与输入,而是成为能理解用户意图、自主规划路径、跨应用协同工作的数字代理。而这一切的前提,是模型真正“理解”界面,并在真实环境中“干得好”。UI-Venus-1.5的发布,正是这一进程中的重要里程碑。