从语言到物理:AI预训练范式的第二次跃迁
当大语言模型(LLM)在过去几年席卷全球时,人们曾相信,只要模型足够大、数据足够多,AI就能理解世界。然而,现实很快给出了反例:这些擅长生成流畅文本的系统,在物理空间中却频频失灵——它们能描述一只猫跳上桌子,却难以预测它落地时的姿态、速度,甚至是否会打翻水杯。这种割裂暴露了当前AI范式的根本局限:它擅长语言序列的预测,却对物理世界的动态演化一知半解。
语言模型的“物理盲区”
现有AI的预训练逻辑建立在“下一个词预测”之上。这种范式在文本、代码、对话等符号化任务中表现出色,因为它本质上是在学习人类语言的统计规律。但物理世界并非由词语构成,而是由力、运动、材质、空间关系等连续变量驱动。当AI试图操控机器人抓取物体、规划路径或应对突发状况时,仅靠语言推理远远不够。它需要一种能模拟现实世界如何随时间演化的能力——而这,正是当前模型所缺失的。
英伟达高级研究科学家Jim Fan将这一困境归结为“第一代预训练范式”的边界。他指出,尽管LLM在认知层面取得了惊人进展,但在与真实环境交互时,它们缺乏对物理因果关系的建模能力。例如,一个模型可以描述“球从斜坡滚下”,但若没有对重力、摩擦力和动量传递的内在理解,它就无法准确预测球何时停下,或是否会撞击障碍物。这种“知其然不知其所以然”的状态,严重制约了AI在机器人、自动驾驶、工业控制等关键领域的应用。
世界建模:AI的第二次范式革命
Jim Fan提出的解决方案是“世界建模”——即让AI学会预测下一个物理状态,而非下一个词。这意味着模型不再仅仅处理离散的符号序列,而是构建一个能够模拟现实世界动态变化的内部表征系统。这种系统可以接收多模态输入(如视觉、触觉、声音),并通过学习物理规律,预测系统在下一时刻的状态。
世界模型的核心优势在于其泛化能力。一旦模型掌握了物体如何运动、材料如何变形、能量如何传递等基础原理,它就能在未见过的场景中做出合理推断。例如,在机器人抓取任务中,模型不仅能识别物体,还能预判其重心、滑动趋势和抓取后的形变,从而选择最优动作。这种能力不依赖于海量标注数据,而是通过自监督学习从物理交互中自动提取规律。
尽管目前世界模型最广泛的应用仍集中在AI视频生成和游戏内容创作,但这些只是冰山一角。真正的潜力在于将其作为机器人感知与决策的底层引擎。想象一个家用机器人,它不需要为每种家具单独编程,而是通过世界模型理解“沙发是软的”“玻璃易碎”“地板打滑”等物理属性,从而自主规划安全路径。
技术挑战与行业共识
实现这一愿景并非易事。构建高精度世界模型需要融合计算机视觉、物理仿真、强化学习等多个领域的技术。模型必须处理高维连续状态空间,同时保持计算效率。此外,真实世界的复杂性远超实验室环境——光照变化、材质多样性、非刚性物体变形等因素都会影响预测准确性。
尽管如此,行业正形成共识。纽约大学助理教授、谷歌DeepMind研究科学家谢赛宁等学者也指出,当前AI在物理推理上的短板,必须通过更本质的世界建模来弥补。一些前沿研究已开始探索将物理引擎嵌入神经网络,或利用神经微分方程模拟连续动态系统。这些尝试虽处于早期阶段,但方向明确。
2026:大世界模型的元年?
Jim Fan预测,2026年将成为“大世界模型”(Large World Models, LWMs)真正落地的转折点。这一判断并非空穴来风。近年来,多模态大模型的发展为世界建模提供了数据基础,而机器人硬件的进步则创造了更多真实交互场景。更重要的是,产业界对AI实用化的需求正在倒逼技术范式升级——企业不再满足于“会聊天的AI”,而是需要“能做事的AI”。
未来几年,我们或将看到更多专注于物理世界理解的AI系统涌现。它们可能不会像ChatGPT那样频繁登上热搜,但会在工厂、医院、家庭等场景中悄然改变人机协作的方式。当AI真正学会“看世界、懂物理、做决策”,我们才可以说,它迈出了通向通用人工智能的关键一步。
这场从语言到物理的范式跃迁,不仅是技术的演进,更是AI认知边界的拓展。它提醒我们:真正的智能,必须能与世界共舞。