当机器人开始“听话”:中国电信如何用一句话唤醒人形智能的“小脑”

· 2 次浏览 ·来源: AI导航站
人形机器人的表演看似炫酷,实则多依赖预设动作和远程操控,缺乏真正的实时交互能力。中国电信人工智能研究院(TeleAI)推出的TextOp框架,首次实现了通过流式文本指令实时控制机器人全身动作,无需预编程或遥控器干预。该系统采用类人双层架构,将高层意图生成与底层运动控制解耦,结合专为机器人设计的运动表示方法和仿真到现实的分布对齐策略,在真实环境中实现了舞蹈、武术、社交手势等复杂技能的无缝切换与强抗干扰能力。TextOp不仅大幅降低了人机交互门槛,更标志着人形机器人从“播放模式”迈向“对话式智能”的关键跃迁。

舞台上的人形机器人翻腾跳跃、舞姿曼妙,观众惊叹于其灵活与精准。然而鲜有人知,这些动作背后往往是数百小时的动捕数据与精心编排的程序脚本。一旦指令变更,整套系统便陷入停滞——这不是智能,而是精密的机械复现。真正的挑战不在于“能做”,而在于“能懂”:如何让机器人像人类一样,在对话中即时理解意图、动态调整行为?

从“播放”到“对话”:一场控制范式的革命

长期以来,人形机器人的控制逻辑陷入两难:要么依赖预设轨迹,动作僵硬且无法应变;要么依靠人类遥操作,丧失自主性。这种“非此即彼”的模式,使得机器人难以走出实验室,更遑论融入日常生活。问题的核心在于,现有系统缺乏对自然语言指令的实时解析与动态执行能力。

TeleAI团队提出的TextOp框架,正是对这一困境的破局。其核心突破在于引入“流式文本驱动”机制——用户无需等待动作完成,可在机器人执行过程中随时发出新指令,系统即刻响应并平滑过渡。这意味着,人机交互不再是“命令-执行-结束”的线性流程,而是一场持续进行的对话。

双层架构:赋予机器人“想”与“做”的双重能力

TextOp的巧妙之处在于借鉴了人类神经系统的分工逻辑。系统采用双层架构:上层“大脑”负责意图生成,下层“小脑”专注动作执行。

上层生成器基于自回归文本条件运动扩散模型,结合变分自编码器(VAE)与潜在扩散模型(LDM),持续预测未来8帧的运动轨迹。它不追求一次性生成完整动作,而是像人类思考一样,边执行边规划,确保意图可随时更新。

下层跟踪策略则通过PPO强化学习训练而成,将上层生成的轨迹转化为50Hz的高频关节指令。这一层不关心“为什么做”,只专注“如何稳当地做”,即使在指令突变时也能维持身体平衡与步态连贯。正是这种“高层灵活、底层稳定”的设计,让机器人在切换舞蹈风格或应对突发指令时,依然步履稳健。

为机器人“量身定制”的运动语言

传统运动生成常直接套用人类骨架模型(如SMPL),但人形机器人的关节结构多为单自由度旋转,与人类球形关节存在本质差异。若强行迁移,极易产生物理不可行的动作。

TextOp创新性地采用基于自由度(DoF)的增量表示法。每一帧数据包含根姿态旋转、局部平移增量、关节角度变化及足部接触状态。这种表示方式天然契合机器人运动学约束,从源头杜绝了“看似合理、实则跌倒”的生成结果。更重要的是,它使系统能够精确控制每个关节的微调,实现细腻的情感表达,如点头、挥手等社交手势。

打通仿真与现实的“最后一公里”

仿真训练与真实部署之间的性能落差,是机器人领域长期存在的难题。TextOp的解决方案极具巧思:直接用生成器输出的轨迹数据训练底层跟踪策略。这种“自产自销”的数据闭环,极大缩小了训练分布与推理分布的差异,显著提升了系统在真实环境中的鲁棒性。

在Unitree G1机器人上的测试表明,TextOp不仅能流畅切换街舞、民族舞、武术等复杂技能,还能在受到外力推搡时快速恢复平衡,保持任务连续性。定量评估显示,用户交互延迟仅0.73秒,动作成功率与轨迹质量均达领先水平。

不止于表演:重新定义人机协作的边界

TextOp的意义远不止于舞台展示。在影视制作中,导演可通过文本实时调整机器人动作,实现即兴编排的“数字演员”;在体育教学中,教练一句“展示标准深蹲”,机器人即刻演示并具备抗干扰能力;在危险环境巡检中,它可作为遥操作的智能中间层,将高层指令转化为稳定执行。

更重要的是,TextOp将人形机器人的控制门槛从专业程序员降低至普通用户。当你说“来段街舞”,它便随之律动;你说“挥挥手”,它便优雅致意——这种自然、即时、连续的交互体验,正是人们对智能机器人最深切的期待。

未来已来:从“听懂话”到“会思考”

TextOp的发布,标志着人形机器人正从“预编程执行”迈向“对话式智能”。尽管当前系统仍聚焦于动作控制,但其架构设计已为更高层次的认知能力预留空间。未来,结合多模态感知与任务规划,机器人或将真正实现“听懂指令—理解场景—自主决策—稳定执行”的完整闭环。

当机器人不再只是冰冷的机械,而是能与你对话、随你心动的伙伴,那个曾被科幻描绘的未来,正在一步步成为现实。