从“各自为战”到“统一底座”：高德ABot如何开启具身智能的范式革命

2026-02-12 · 2 次浏览 ·来源: AI导航站

具身智能长期受制于数据碎片化、动作表示不统一与空间建模能力薄弱，导致机器人能力难以泛化，始终停留在“场景表演”阶段。高德近日发布的ABot-M0与ABot-N0两款具身基座模型，分别攻克操作与导航两大核心链路，通过统一动作语言、构建跨形态训练集与引入动作流形学习，首次在操作与导航领域实现全面SOTA。这不仅标志着具身智能正经历类似NLP领域的“GPT时刻”，更意味着行业将从定制化孤岛迈向可复用、可迁移的通用底座时代。

机器人行业正站在一个关键的转折点上。过去几年，尽管各类机器人形态层出不穷，从机械臂到机器狗再到人形机器人，但它们的智能始终像被锁在各自的地牢里——每一个新任务、新环境、新硬件，几乎都要从零开始训练模型。这种“一人一套系统”的模式，让具身智能的发展步履维艰。直到高德发布ABot-M0与ABot-N0，行业才真正看到一条通往通用智能的路径。

困在“碎片化”里的具身智能

具身智能的困境，本质上是工程逻辑的断裂。语言模型之所以能演化出GPT这样的通用底座，是因为文本数据天然具备统一表示（token）、统一架构（Transformer）和可规模化训练的特性。而机器人面对的是物理世界——动作是连续的，传感器是异构的，环境是动态的。不同厂商的机械臂用关节角控制，人形机器人依赖末端位姿，机器狗则基于全身动力学建模。这些差异看似只是技术细节，实则构成了数据无法互通、模型无法迁移的根本障碍。

更深层的问题在于空间理解的缺失。机器人不仅要“看见”物体，还要理解“可操作区域”“通行路径”和“任务上下文”。当前多数系统依赖离散的导航模块与独立的视觉识别模型，缺乏对三维语义的连续建模能力。结果就是，机器人在简单任务中表现尚可，一旦面对长程、多步骤、动态干扰的场景，便迅速失效。

ABot-M0：用“动作语言”打破硬件壁垒

ABot-M0的突破，始于对“动作表示”的系统性重构。它没有试图强行统一所有硬件的控制接口，而是创造性地提出“动作语言统一”的理念——将不同机器人的动作转换为统一的增量式末端执行器动作（delta actions），并采用旋转向量编码避免奇异性问题。这一设计使得来自机械臂、双臂机器人甚至仿生手的操作数据，可以在同一坐标系下被建模和训练。

高德构建了一个包含超过9500小时、600多万条轨迹的混合训练集，覆盖20多种具身形态。更关键的是，这些数据完全基于公开来源，意味着其方法论具备可复制性。在此基础上，ABot-M0引入动作流形学习（AML），假设有效动作集中在低维流形上，从而避免在全动作空间中盲目搜索。这一思路极大提升了动作生成的物理合理性与稳定性。

在Libero-Plus基准测试中，ABot-M0以80.5%的任务成功率刷新纪录，较此前最优方案提升近30%。这一跃迁不是参数调优的结果，而是架构级创新的体现。更重要的是，它证明了：一旦动作表示统一，数据就能持续积累，模型就能持续进化，部署成本将系统性下降。

ABot-N0：让机器人真正“走进”开放世界

如果说ABot-M0解决的是“手”的问题，ABot-N0则直面“腿”的挑战——具身导航。传统导航系统往往将定位、路径规划与语义理解割裂处理，导致机器人在跨楼层、动态人流或复杂室内环境中频繁迷失。ABot-N0的突破在于，它将高德长期积累的大规模真实3D场景与空间语义资产，转化为具身导航的“常识库”。

模型首次实现了对长程复杂任务的端到端理解与执行。例如，在商场中从A点取物并送至B点，系统不仅能规划路径，还能识别“电梯位置”“人流密度”“临时障碍物”等动态因素，并实时调整策略。这种能力依赖于对三维空间的连续语义建模，而非离散的地图标记。

在多个权威评测中，ABot-N0在跨场景导航、动态避障与任务成功率上均达到SOTA。更重要的是，它首次让机器人具备了在真实开放环境中“自主决策”的能力，而不仅仅是执行预设指令。

范式跃迁：从定制到底座

ABot系列的发布，标志着具身智能正在经历一场深刻的范式变革。过去，行业信奉“场景决定模型”，每个项目都是一次从零开始的工程。如今，高德通过统一动作表示与空间建模，构建出可复用的具身基座。开发者不再需要为每个机器人重写系统，而是基于ABot-M0与ABot-N0进行任务微调与能力扩展。

这一转变的意义，不亚于GPT对NLP的重塑。它意味着具身智能将从“表演型机器人”走向“实用型助手”。一个能在实验室跳舞的机器狗，与一个能在真实办公室帮你取咖啡的机器人，其价值差距不言而喻。

未来的路：底座之上，生态之下

ABot的发布只是起点。真正的挑战在于生态的构建——如何让更多开发者、硬件厂商与应用场景接入这一底座？高德的位置服务基因，使其在真实环境理解上具备天然优势，但具身智能的终极目标，是覆盖家庭、工厂、城市等多元场景。这需要更开放的数据接口、更灵活的部署方案，以及更广泛的行业协作。

可以预见，随着ABot系列持续迭代，具身智能将逐步摆脱“场景定制”的枷锁，迈向“能力泛化”的新纪元。而这场变革的终点，或许是一个真正能走进生活、理解世界、服务人类的通用机器人。