当机器人学会“预判”:南洋理工如何用流式推理打破动态操控僵局
机器人正在变得越来越聪明,但它们依然不够快。
在实验室的整洁桌面上,一个机械臂可以精准地抓取静止的杯子、按照语音指令摆放积木,甚至完成复杂的装配任务。然而一旦场景中出现滚动的球体、滑落的书本或被意外撞飞的物体,这套看似智能的系统往往会陷入混乱——它仍在执行几百毫秒前的决策,而现实早已向前推进。
静态模型的动态困境
近年来,Vision-Language-Action(VLA)模型成为机器人学的重要突破方向。这类系统融合了视觉感知、语言理解与动作生成能力,实现了端到端的任务执行。但在绝大多数现有架构中,推理与执行是严格串行的:机器人必须先完成一轮完整的感知-思考-动作生成流程,才能开始下一轮操作。这种“想完再做”的模式在静态环境中尚可接受,却在动态世界中暴露出致命缺陷。
两个核心问题尤为突出:一是感知与执行之间的时间错位。由于模型推理本身存在延迟,当动作最终被执行时,其所依据的环境状态可能已经过时;二是动作分块等待机制。多数系统必须等待当前动作完全执行完毕,才能启动下一次推理,导致机器人在高速变化的环境中始终处于被动追赶状态。
从“预测未来”到“对齐当下”
面对这一难题,南洋理工S-Lab团队并未选择通过扩大模型规模来“预测更远的未来”,而是转向一个更根本的问题:如何在无法消除延迟的前提下,让机器人的动作始终与当前世界状态保持时间对齐?
DynamicVLA的解决方案围绕三个层面展开。首先是连续推理机制(Continuous Inference),打破传统串行流程,允许模型在前一段动作尚未执行完毕时,就启动下一轮推理。这使得推理与执行形成流水线,消除了动作执行期间的“思考空窗期”,机器人得以持续输出更新的动作预测流。
其次是潜状态感知动作流(Latent-aware Action Streaming, LAAS)。该机制显式识别并丢弃因推理延迟而失效的过时动作,只保留那些在时间上仍与当前环境状态对齐的预测。当新预测到达时,系统会优先采用更接近现实状态的动作,从而有效缓解感知-执行错位问题。
最后是专为动态场景设计的轻量化架构。团队采用卷积式视觉编码器避免多帧输入带来的token爆炸,同时截断语言模型层数以平衡速度与理解能力。整个模型控制在0.4B参数量级,确保推理延迟足够低,为上述机制提供可行性基础。
数据鸿沟的跨越
技术架构的创新离不开数据支撑。当前主流VLA数据集几乎全部聚焦于静态操作,对动态物体交互的系统性覆盖严重缺失。这种结构性偏差直接限制了模型在真实动态环境中的泛化能力。
在仿真端,团队基于Isaac Sim构建了涵盖2800多个场景、206种物体的大规模动态操控数据集,通过多样化的物体运动与交互模式,为模型提供了系统性的训练基础。而在真实世界数据采集方面,传统遥操作因人类反应时间限制难以胜任。DynamicVLA另辟蹊径,将真实环境转化为“仿真接口”:通过多视角RGB感知实时追踪物体运动,在线估计6D位姿与速度,并将真实环境抽象为与仿真一致的状态输入,从而复用同一套控制逻辑。
重新定义动态操控的评估标准
在此基础上,团队构建了Dynamic Object Manipulation(DOM)Benchmark——首个专为动态物体操控设计的系统性评测基准。与以往仅关注“是否完成任务”的静态评测不同,DOM从动态操控的本质出发,将能力拆解为交互能力、感知与理解、泛化与鲁棒性三个核心维度,涵盖9个子维度。
例如,在交互能力中,Closed-loop Reactivity评估机器人对不同运动速度的即时响应能力;Dynamic Adaptation衡量其在碰撞、变向等突发事件后的快速调整能力;Long-horizon Sequencing则考察在长时间动态交互中保持策略一致性的能力。这些指标更贴近真实应用场景,为未来研究提供了清晰的评估框架。
从“看懂”到“跟上”的范式转变
DynamicVLA的意义不仅在于技术突破,更在于它代表了一种范式的转变:机器人智能不再仅仅是“理解世界”,而是“跟上世界”。在自动驾驶、仓储物流、家庭服务等实际场景中,动态物体无处不在。一个能实时响应滚动物体、避让突然出现的障碍物、或在移动平台上稳定操作的机器人,才真正具备实用价值。
尽管当前系统仍受限于硬件执行速度与感知精度,但DynamicVLA所展示的“流式推理”理念,为未来机器人系统的实时性设计提供了新思路。当机器学会在行动中思考,在变化中调整,它们才真正迈出了走向动态世界的关键一步。