蚂蚁开源UI-Venus-1.5：GUI智能体从“看懂”到“干好”的破局之路

2026-02-18 · 0 次浏览 ·来源: AI导航站

GUI智能体正从实验室走向真实世界，但普遍面临三大瓶颈：对界面元素理解不足、离线训练与在线执行脱节、多模型协作成本高昂。蚂蚁集团最新开源的UI-Venus-1.5，以“端到端、实战派”为核心理念，通过中期训练补足GUI原生认知、在线强化学习对齐任务目标、模型融合实现多场景统一，成功在40余款中文App中稳定执行复杂操作。该模型不仅在多个基准测试中登顶SOTA，更首次实现了定位、移动端与网页端三大场景的统一建模，标志着GUI智能体从“能看”迈向“会干”的关键跃迁。

当大模型开始尝试在手机屏幕和网页界面上“动手”，一个更真实的数字助手时代似乎触手可及。然而，理想与现实之间仍横亘着一道技术鸿沟：AI能描述界面，却未必懂得如何操作；离线表现优异，上线却频频失误；单项能力突出，协同部署却成本高昂。这些痛点，正是当前GUI智能体落地难的症结所在。

GUI智能体的“三重困境”

尽管Claude、OpenAI Agent及众多开源项目在视觉理解与任务规划上取得进展，但真正要让AI成为能在真实设备上稳定执行任务的助手，仍面临三大现实挑战。其一，基础大模型对GUI领域缺乏“原生理解”——它们能识别图标，却未必知道其功能；能描述布局，却难以推理操作逻辑。其二，离线训练数据与真实交互环境存在显著偏差，模型在模拟环境中看似合理的动作，在真实设备上可能完全失效。其三，当前多数方案依赖多个专家模型协同工作，视觉定位、任务分解、动作执行各司其职，虽提升单项性能，却带来复杂的系统架构与高昂的维护成本。

UI-Venus-1.5的“三步走”战略

蚂蚁集团推出的UI-Venus-1.5，正是针对上述困境的系统性解决方案。该模型采用“中期训练—专家强化—模型融合”的三阶段路径，构建了一个真正端到端的GUI智能体。

第一阶段，中期训练（Mid-Training）聚焦于填补大模型在GUI领域的知识空白。通用视觉语言模型（VLM）虽具备强大的图像理解能力，却缺乏对用户界面结构化逻辑的深层认知。UI-Venus-1.5整合了超过30个公开与内部数据源，涵盖Mind2Web、ShowUI、AITW等主流基准，构建起总量达10B tokens的专用语料库。通过精心设计的任务平衡策略，模型在导航定位、顺序推理、控件语义理解与精细视觉感知四个方面实现系统性提升。这一阶段的目标不是“看起来会操作”，而是让模型真正“懂”界面。

第二阶段，通过离线强化学习（Offline RL）打造领域专家模型。UI-Venus-1.0已在定位与移动端导航上达到SOTA水平，但其定位模型在目标元素不存在时仍会“猜测”坐标，存在幻觉风险。UI-Venus-1.5引入“拒答”机制，当模型判断目标不存在时，明确返回[-1, -1]，显著提升可靠性。同时，为统一移动端与网页端操作，模型扩展动作空间，新增鼠标悬停、双击与快捷键支持，并优化跨语言Prompt模板，实现中英文场景的高效适配。

第三阶段，引入在线强化学习（Online RL）解决“动作对、任务错”的精度错配问题。此前训练主要优化单步动作准确率，但任务成功率并未同步提升。根本原因在于，动作正确并不等于任务完成。UI-Venus-1.5借鉴T-GRPO等算法，在真实环境中执行完整任务轨迹，以“任务是否成功”作为核心优化目标，直接对齐端到端性能。

从“多模型协同”到“单模型统一”

当前多数GUI Agent采用多模型架构，不同功能由独立专家模型负责。这种设计虽能短期提升性能，却在落地时带来复杂性与成本问题。UI-Venus-1.5采用“先分后合”策略：先分别训练定位、移动端与网页端三个专家模型，再通过TIES-Merging技术进行模型融合。该方法通过“先筛选、再合并”的机制，有效克服线性合并的局限性，成功整合出统一的端到端模型。在ScreenSpot-Pro、AndroidWorld与WebVoyager三大跨领域基准上，该模型展现出均衡且高效的多场景适应能力。

基础设施的隐形突破：DaaS层支撑大规模在线训练

在线强化学习的实现，离不开底层设备管理能力的支撑。蚂蚁集团构建了统一的设备即服务（DaaS）层，将Android ADB、浏览器CDP、容器SSH等异构协议封装为可扩展插件，实现统一调用。基于二次哈希路由与协程并发模型，系统可支撑大规模设备长连接与高频请求，为在线训练提供稳定环境。配套的多语言SDK进一步降低接入门槛，使算法迭代得以在真实设备上高效进行。

GUI智能体的未来：从“辅助”到“代理”

UI-Venus-1.5的意义不仅在于技术指标的突破，更在于它展示了一条可行的端到端落地路径。当AI能够稳定地在40余款中文App中执行复杂任务，我们距离“一个入口管理所有设备”的愿景又近了一步。未来，GUI智能体将不再局限于简单的点击与输入，而是成为能理解用户意图、自主规划路径、跨应用协同工作的数字代理。而这一切的前提，是模型真正“理解”界面，并在真实环境中“干得好”。UI-Venus-1.5的发布，正是这一进程中的重要里程碑。