视觉语言模型落地难:基础能力缺失正在拖慢具身智能进化
在人工智能迈向通用智能的征途上,具身智能被视为关键一步。视觉语言模型(VLMs)作为连接感知与行动的桥梁,被寄予厚望。它们能“看懂”图像、理解指令,甚至规划行动路径,仿佛具备了初级的人类智能。然而,当这些模型真正进入物理世界——无论是机器人手臂抓取物体,还是家庭助手完成家务——其表现却常常令人失望。问题不在于模型不够聪明,而在于我们衡量“聪明”的方式从一开始就走偏了。
被高估的智能:当评估脱离现实
当前大多数针对VLM驱动具身智能体的评测,都建立在一种理想化的假设之上:环境可以被清晰分割,动作可以离散编码,任务指令足够明确。例如,系统可能被要求“把红色杯子放到桌子上”,而评测标准仅关注最终是否完成,却忽略过程中模型如何识别杯子、判断距离、调整抓取力度等细节。这种高层抽象的评估方式,本质上是在用“结果正确”掩盖“过程脆弱”。
更严重的是,许多基准测试依赖模拟器或高度结构化的环境,智能体只需在有限的动作选项中选择,而非在连续空间中做出精细控制。这就像教一个孩子骑自行车,却只允许他在固定的轨道上滑行——看似学会了,实则从未掌握平衡与转向的真谛。当模型被部署到真实世界,面对光照变化、物体遮挡、非刚性变形等复杂情况时,其表现迅速崩塌。
基础技能的断层:从“知道”到“做到”的鸿沟
真正的具身智能,必须建立在扎实的基础能力之上。这包括对三维空间的精确理解、对物理规律的直觉把握、对动态环境的实时响应。然而,现有VLMs大多在海量图文数据上训练,擅长语义关联,却缺乏对物理世界的“身体经验”。它们能描述“水会流动”,但无法预判倒水时液体的飞溅轨迹;能识别“门是开的”,却不知道推门需要施加多大的力。
这种能力断层,源于训练范式的根本局限。语言模型擅长处理符号与概念,而具身智能需要的是感知-行动闭环中的连续反馈。一个智能体必须通过反复试错,才能学会如何在不打翻杯子的情况下倒水,如何在狭窄空间中灵活转向。而这些经验,无法仅靠文本描述或静态图像获得。
重构评估体系:回归原生的智能标准
要突破当前瓶颈,必须重新定义“智能”的衡量标准。评估不应只关注任务完成率,而应深入考察模型在基础技能上的表现。例如,能否在杂乱背景中稳定追踪移动物体?能否根据触觉反馈调整抓取力度?能否在突发障碍出现时重新规划路径?这些能力虽“基础”,却是复杂行为的地基。
此外,评测环境应尽可能贴近真实世界的连续性与不确定性。动作空间不应被过度离散化,而应允许模型在连续参数空间中做出决策。任务指令也应从高层抽象转向具体情境,例如“在厨房中找到一把刀,小心地切开番茄,避免汁液溅到白色台面上”——这样的指令才真正考验模型的综合能力。
未来路径:从模拟到现实的渐进演化
推动VLM具身智能的发展,不能急于求成。短期内,可通过混合训练策略,将大规模语言-视觉预训练与具身交互微调相结合。利用仿真环境生成大量基础技能数据,再通过迁移学习迁移到真实机器人平台。长期来看,必须构建能够持续学习的具身系统,使其在真实环境中不断积累经验,形成对物理世界的内在模型。
更重要的是,行业需要建立一套公认的、聚焦基础能力的评估基准。这不仅有助于横向比较不同模型的性能,更能引导研究方向从“炫技式”的高层任务,转向真正解决现实问题的底层突破。具身智能的终极目标,不是让机器“看起来像人”,而是让它们“像人一样思考并行动”——而这,必须从最基础的能力开始。