从“各自为战”到“统一底座”:高德ABot如何开启具身智能的范式革命

· 2 次浏览 ·来源: AI导航站
具身智能长期受制于数据碎片化、动作表示不统一与空间建模能力薄弱,导致机器人能力难以泛化,始终停留在“场景表演”阶段。高德近日发布的ABot-M0与ABot-N0两款具身基座模型,分别攻克操作与导航两大核心链路,通过统一动作语言、构建跨形态训练集与引入动作流形学习,首次在操作与导航领域实现全面SOTA。这不仅标志着具身智能正经历类似NLP领域的“GPT时刻”,更意味着行业将从定制化孤岛迈向可复用、可迁移的通用底座时代。

机器人行业正站在一个关键的转折点上。过去几年,尽管各类机器人形态层出不穷,从机械臂到机器狗再到人形机器人,但它们的智能始终像被锁在各自的地牢里——每一个新任务、新环境、新硬件,几乎都要从零开始训练模型。这种“一人一套系统”的模式,让具身智能的发展步履维艰。直到高德发布ABot-M0与ABot-N0,行业才真正看到一条通往通用智能的路径。

困在“碎片化”里的具身智能

具身智能的困境,本质上是工程逻辑的断裂。语言模型之所以能演化出GPT这样的通用底座,是因为文本数据天然具备统一表示(token)、统一架构(Transformer)和可规模化训练的特性。而机器人面对的是物理世界——动作是连续的,传感器是异构的,环境是动态的。不同厂商的机械臂用关节角控制,人形机器人依赖末端位姿,机器狗则基于全身动力学建模。这些差异看似只是技术细节,实则构成了数据无法互通、模型无法迁移的根本障碍。

更深层的问题在于空间理解的缺失。机器人不仅要“看见”物体,还要理解“可操作区域”“通行路径”和“任务上下文”。当前多数系统依赖离散的导航模块与独立的视觉识别模型,缺乏对三维语义的连续建模能力。结果就是,机器人在简单任务中表现尚可,一旦面对长程、多步骤、动态干扰的场景,便迅速失效。

ABot-M0:用“动作语言”打破硬件壁垒

ABot-M0的突破,始于对“动作表示”的系统性重构。它没有试图强行统一所有硬件的控制接口,而是创造性地提出“动作语言统一”的理念——将不同机器人的动作转换为统一的增量式末端执行器动作(delta actions),并采用旋转向量编码避免奇异性问题。这一设计使得来自机械臂、双臂机器人甚至仿生手的操作数据,可以在同一坐标系下被建模和训练。

高德构建了一个包含超过9500小时、600多万条轨迹的混合训练集,覆盖20多种具身形态。更关键的是,这些数据完全基于公开来源,意味着其方法论具备可复制性。在此基础上,ABot-M0引入动作流形学习(AML),假设有效动作集中在低维流形上,从而避免在全动作空间中盲目搜索。这一思路极大提升了动作生成的物理合理性与稳定性。

在Libero-Plus基准测试中,ABot-M0以80.5%的任务成功率刷新纪录,较此前最优方案提升近30%。这一跃迁不是参数调优的结果,而是架构级创新的体现。更重要的是,它证明了:一旦动作表示统一,数据就能持续积累,模型就能持续进化,部署成本将系统性下降。

ABot-N0:让机器人真正“走进”开放世界

如果说ABot-M0解决的是“手”的问题,ABot-N0则直面“腿”的挑战——具身导航。传统导航系统往往将定位、路径规划与语义理解割裂处理,导致机器人在跨楼层、动态人流或复杂室内环境中频繁迷失。ABot-N0的突破在于,它将高德长期积累的大规模真实3D场景与空间语义资产,转化为具身导航的“常识库”。

模型首次实现了对长程复杂任务的端到端理解与执行。例如,在商场中从A点取物并送至B点,系统不仅能规划路径,还能识别“电梯位置”“人流密度”“临时障碍物”等动态因素,并实时调整策略。这种能力依赖于对三维空间的连续语义建模,而非离散的地图标记。

在多个权威评测中,ABot-N0在跨场景导航、动态避障与任务成功率上均达到SOTA。更重要的是,它首次让机器人具备了在真实开放环境中“自主决策”的能力,而不仅仅是执行预设指令。

范式跃迁:从定制到底座

ABot系列的发布,标志着具身智能正在经历一场深刻的范式变革。过去,行业信奉“场景决定模型”,每个项目都是一次从零开始的工程。如今,高德通过统一动作表示与空间建模,构建出可复用的具身基座。开发者不再需要为每个机器人重写系统,而是基于ABot-M0与ABot-N0进行任务微调与能力扩展。

这一转变的意义,不亚于GPT对NLP的重塑。它意味着具身智能将从“表演型机器人”走向“实用型助手”。一个能在实验室跳舞的机器狗,与一个能在真实办公室帮你取咖啡的机器人,其价值差距不言而喻。

未来的路:底座之上,生态之下

ABot的发布只是起点。真正的挑战在于生态的构建——如何让更多开发者、硬件厂商与应用场景接入这一底座?高德的位置服务基因,使其在真实环境理解上具备天然优势,但具身智能的终极目标,是覆盖家庭、工厂、城市等多元场景。这需要更开放的数据接口、更灵活的部署方案,以及更广泛的行业协作。

可以预见,随着ABot系列持续迭代,具身智能将逐步摆脱“场景定制”的枷锁,迈向“能力泛化”的新纪元。而这场变革的终点,或许是一个真正能走进生活、理解世界、服务人类的通用机器人。