空间认知的盲区：大模型在主动探索中的信念崩塌

2026-02-10 · 0 次浏览 ·来源: AI导航站

当前多模态基础模型在被动感知任务中表现优异，但在需要主动探索以构建空间信念的任务中暴露出系统性缺陷。一项新研究提出“空间理论”框架，通过好奇心驱动的认知地图构建实验，揭示模型在自主信息获取、信念更新与全局一致性维护方面存在显著短板。研究发现，模型在主动与被动任务间存在性能鸿沟，探索效率低下，且内部空间表征随时间退化。更严重的是，模型表现出“信念惯性”，难以根据新证据修正过时认知，尤其在视觉模态中更为突出。这些发现挑战了我们对智能体空间推理能力的现有预期。

当人类走进一间陌生房间，我们会自然地走动、观察角落、打开抽屉，通过一系列主动行为拼凑出对空间的完整理解。这种基于行动的信息获取与信念更新机制，正是空间具身智能的核心。然而，尽管当前多模态基础模型在图像识别、场景描述等被动任务中接近甚至超越人类水平，它们在主动探索中的表现却远未达标。最新研究揭示，这些模型在构建和维持空间信念方面存在深层结构性问题，暴露出从感知到认知链条上的关键断裂。

从被动感知到主动探索：一道难以逾越的鸿沟

多模态基础模型擅长“看”和“说”，但“动”与“思”的结合却成为其软肋。研究引入“空间理论”这一概念，定义为智能体通过自主探索主动获取信息，并基于序列化、部分观测构建、修正和利用空间信念的能力。为评估这一能力，研究者设计了一个好奇心驱动的探索基准任务：模型需在未知环境中自主移动，逐步构建一张准确的认知地图。实验结果显示，当模型被迫从被动接收信息转向主动决策时，性能出现断崖式下跌。这种“主动-被动鸿沟”并非源于感知能力的不足，而是决策机制的缺失。模型缺乏对“哪些信息缺失”和“如何获取该信息”的系统性判断，导致探索行为随机且低效。相比之下，基于规则的代理程序虽缺乏语义理解，却能通过系统化路径规划实现更优覆盖。

信念的崩塌：空间表征的内在不稳定性

更深层的问题出现在模型内部信念的维护机制上。通过一种称为“空间信念探测”的技术，研究者在每一步探索后提示模型输出其对当前空间结构的内部表征。结果令人震惊：尽管初始感知准确，但随着探索推进，模型构建的全局空间信念逐渐失真，甚至出现自相矛盾。这种不稳定性并非偶然误差，而是一种系统性退化。模型在整合新观测时，未能有效协调局部信息与全局结构，导致信念网络出现“漂移”。例如，一个房间的门可能被错误地关联到不存在的走廊，或家具的相对位置随时间推移而扭曲。这种退化在长时程任务中尤为明显，暗示当前架构缺乏对空间一致性的内在约束机制。

信念惯性：当旧知识拒绝退场

最引人深思的发现是“信念惯性”现象——模型在面对与先验知识冲突的新证据时，表现出强烈的认知惰性。研究采用“错误信念范式”：先让模型建立某个空间布局的错误认知（如某扇门通向厨房），随后提供明确的反证（实际通向浴室）。结果发现，多数模型难以修正原有信念，尤其在视觉模态中，新图像证据常被旧有文本或语义先验覆盖。这种现象在文本型代理中已存在，但在视觉主导的模型中更为严重。视觉输入本应提供最直接的现实反馈，却因模型对高层语义的过度依赖而被“解释”为符合旧信念的例外。这揭示了一个根本矛盾：模型越擅长生成连贯叙述，反而越难接受颠覆性证据。其空间信念系统更像是一套自我强化的叙事，而非可证伪的认知地图。

重构空间智能：从感知代理到行动主体

这些发现并非否定基础模型的潜力，而是划定了当前技术路线的边界。真正的空间智能不仅需要高精度感知，更需具备目标导向的探索策略、动态信念更新机制和对不确定性的量化管理。现有架构在训练范式上偏重静态数据拟合，缺乏对“行动-反馈-修正”闭环的建模。未来突破可能来自三方面：一是引入显式的空间记忆模块，支持信念的版本化管理与回溯；二是将探索策略建模为信息增益最大化问题，而非简单动作序列；三是构建支持信念冲突检测与消解的内部推理机制。更重要的是，需重新思考智能体的“主体性”——它不应只是环境的解释者，更应成为主动塑造认知的探索者。

结语：空间不是被看见的，而是被走出来的

人类的空间认知从来不是静态快照，而是一系列行动累积的动态建构。当前基础模型在空间理解上的瓶颈，本质上是其被动学习范式与主动智能需求之间的错配。要跨越这一鸿沟，我们需要的不仅是更大的模型或更多数据，而是一种全新的智能哲学：将空间视为需要通过行动去揭示的谜题，而非等待被解码的图像。唯有如此，机器才能真正“走进”世界，而非仅仅“看见”它。