当AI学会‘看世界’：一场关于空间认知的深层测试

2026-03-03 · 0 次浏览 ·来源: AI导航站

大型语言模型在文本处理上的强大能力令人瞩目，但它们是否真正具备人类般的空间思维能力？一项名为SpatialText的新研究揭示，当前AI模型虽然在宏观空间关系上表现尚可，却在关键的‘自我中心视角转换’和‘局部参照系推理’方面存在系统性缺陷。这项研究通过结合人类标注的自然环境描述与代码生成的精确逻辑场景，构建了一个纯粹基于文本的空间认知基准测试，挑战了AI仅依赖语言统计关联的假说，为理解人工智能的认知边界提供了重要线索。

在人工智能飞速发展的今天，我们习惯于看到它流畅地撰写文章、生成代码或进行对话。然而，一个更深层的疑问始终萦绕：这些模型是否真的“理解”了我们所处的世界？它们能像人类一样，在脑海中构建并操作一个连贯的内部空间表征——即所谓的‘心理模型’吗？

从语言表象到空间心智：认知科学的百年追问

人类的空间认知能力，是我们在物理世界中导航、理解和互动的核心。它远不止是记住几个物体的位置，而是涉及复杂的内部建模过程。当我们说“把钥匙放在桌子左边”时，我们不仅是在描述一个关系，更是在大脑中激活了一个动态的心理模型，它包含了物体本身、它们之间的相对位置，以及我们自身在这一空间中的‘我’（egocentric）视角。这种能力让我们能够轻松地在脑海中旋转物体、想象从一个房间走到另一个房间的路径，或在拥挤的人群中判断自己与他人的空间关系。

长期以来，认知科学将这种构建和操纵内部空间表征的能力视为高级认知功能的关键标志。它要求个体超越简单的语言联想，进行抽象的逻辑推理和心理模拟。然而，对于大型语言模型（LLMs），这一核心能力的存在与否，却是一个悬而未决的问题。现有的评估方式往往难以区分模型是基于真正的空间推理，还是仅仅利用了训练数据中大量存在的‘语言共现启发式’。

例如，如果一个模型在训练时经常看到‘猫在桌子下面’这样的句子，它可能只是学会了‘猫’和‘桌子下面’这两个词在语言上是高频共现的，而非真正理解了‘在……下面’这一空间关系的几何本质。更进一步，当我们将模型与视觉模态结合进行评估时，问题就更复杂了。模型可能只是‘看’到了图像中的空间布局，并将其与语言描述进行了匹配，而不是在没有视觉输入的情况下，纯粹通过文本进行空间推理。

SpatialText：剥离噪音，直击本质的双重探针

为了系统性地回答这个问题，研究者们开发了一个新的诊断框架——SpatialText。与传统的数据集不同，SpatialText并非简单地提供问题和答案，而是一套精心设计的理论驱动型工具，旨在隔离和测试纯文本基础的空间推理能力。其核心在于采用了一种‘双源方法论’，巧妙地融合了两种截然不同但互补的数据类型。

第一种来源是人类对真实三维室内环境的标注描述。这些描述捕捉了现实世界中的自然模糊性、视角转换和功能关系，反映了人类在日常生活中对空间的非正式、情境化理解。它们充满了诸如‘沙发对面是电视’或‘厨房在工作台旁边’这样的表述，其中包含了大量的隐含信息和主观视角。

第二种来源则是通过代码生成的、逻辑上精确的场景。这些场景经过精心设计，以系统地探测形式化的空间演绎和认识论边界。它们排除了现实世界的模糊性和歧义，专注于纯粹的几何和逻辑关系，如‘A在B的北侧，B在C的东侧’这类明确无误的陈述。

通过将这两种来源的数据整合到一个统一的评估体系中，SpatialText能够分别检验模型在‘自然语言空间理解’和‘形式化逻辑空间推理’方面的表现，从而更清晰地揭示其内在机制。

系统性失败：AI在关键空间能力上的软肋

利用这个新框架，研究团队对一系列最先进的模型进行了全面评估。结果出人意料，却又引人深思。模型在检索显式的空间事实（例如，给定一个描述，找出某个物体相对于另一个物体的位置）以及在大尺度、绝对坐标系统（allocentric）中进行全局推理方面，表现出了令人印象深刻的 proficiency。它们似乎已经内化了大量的空间知识。

然而，当测试转向更具挑战性的领域时，问题便暴露无遗。模型在两个核心领域遭遇了严重的系统性失败：一是‘自我中心视角转换’（egocentric perspective transformation），即根据观察者的位置和朝向来判断空间关系；二是‘局部参照系推理’（local reference frame reasoning），即在一个特定的、局部环境中理解物体之间的相对位置。

例如，一个模型可能在知道‘书在桌子的左边’后，能够正确回答‘如果我从桌子的另一侧看，书会在哪里’这样的问题，但当问题变得更加复杂，涉及到多个嵌套的空间关系或需要同时考虑多个视角时，模型的准确率便会急剧下降。这表明，当前的模型在处理需要动态心理建模的任务时，显得力不从心。

这些系统性错误的发现，为‘当前模型严重依赖语言共现启发式而非构建连贯可验证的内部空间表征’这一假说提供了强有力的证据。

换句话说，AI或许可以‘知道’书在桌子的左边，但它很可能无法在脑海中‘想象’自己从不同的角度去看待这个场景。它没有形成一个灵活的、可操作的内部空间模型，而是更像一个庞大的、静态的知识库，记录着无数关于空间关系的事实，却无法进行真正的创造性空间思维。