机器人想当家务能手?先得给AI装上“物理直觉”大脑
厨房里,机器人正试图包饺子。它拿起饺子皮,舀起一勺馅料,却在捏合前碰倒了酱油瓶。眼前没有抹布,它愣在原地——不是因为它笨,而是因为它“记不住”抹布在哪儿,也“想不通”该去哪找。这一幕,正是当前具身智能系统面临的真实困境:它们能看懂视频、识别物体,却难以在动态、混乱的物理环境中持续规划与执行任务。
从“看见”到“理解”:机器人为何卡在厨房门口?
人们常调侃,把大模型装进机器人身体就能实现通用智能。但现实远比这复杂。现有的视觉语言模型(VLM)在二维图像理解上表现出色,能准确描述包饺子的步骤,却无法应对真实厨房中的突发状况。比如,当任务被快递敲门打断,机器人能否记得自己刚刷到一半的碗?当它需要挖馅勺却发现桌上没有,是否会意识到工具缺失并主动寻找?
这些问题暴露了当前AI系统的根本缺陷:缺乏对三维空间的持续建模能力,以及对物理交互逻辑的深层理解。它们像“纸上谈兵”的将军,能背诵兵法,却不懂地形与补给。
RynnBrain:给机器人装上“物理直觉”
阿里达摩院的RynnBrain项目,正是为解决这一难题而生。它并非简单地将大模型与机器人绑定,而是从底层重构了具身智能的认知架构。其核心突破在于两项能力:时空记忆与物理空间推理。
传统模型依赖当前视野内的图像进行决策,一旦目标物体离开画面,便彻底“失忆”。RynnBrain则通过构建统一的三维世界表征,将历史动作、物体位置、事件轨迹等信息融合为连续的记忆流。这意味着,机器人不仅能“记得”抹布上次出现在水槽边,还能推理出它可能被收进了抽屉。
在物理空间推理方面,RynnBrain实现了语义与空间的深度耦合。它不再生成脱离现实的计划,而是会先验证工具是否存在、路径是否可达。例如,在“将平板电脑放到书架上”的任务中,模型会先判断设备尺寸与书架间隙的匹配度,避免盲目执行导致掉落。
从RynnEC到RynnBrain:认知能力的进化路径
RynnBrain并非凭空诞生。其前身RynnEC已初步解决了“细粒度环境感知”问题,赋予模型对物体属性、空间关系的精确理解。而RynnBrain在此基础上,进一步引入了动态记忆与全局推理机制。
这种演进路径揭示了一个关键趋势:具身智能的突破,不在于模型参数量的堆砌,而在于认知架构的重新设计。RynnBrain-30B-A3B作为业界首个MoE架构的具身基础模型,仅激活30亿参数便全面超越720亿参数的Palican-VL-72B,证明了“高效架构”比“庞大体量”更能适应物理世界的复杂性。
更值得关注的是,达摩院选择将全系列模型、评测基准与训练代码完全开源。这一举措不仅降低了研究门槛,更推动了整个行业从“封闭竞赛”向“协同进化”转变。
具身智能的未来:不是表演,而是共存
春晚上的机器人或许暂时还包不了饺子,但RynnBrain所代表的进步,正在让机器人在家庭、工厂、医院等真实场景中变得可靠。未来的机器人不需要完美复刻人类动作,而是要学会在混乱中保持记忆,在干扰中继续任务,在未知中主动推理。
这不仅是技术的跃迁,更是人机关系的重塑。当机器人真正拥有“物理直觉”,它们将不再是冰冷的工具,而是能与我们共同生活的智能伙伴。而这一切,始于对“大脑”的重新定义。