当大模型撞上物理世界：中国团队为何抢先押注具身智能

2026-02-05 · 0 次浏览 ·来源: AI导航站

大语言模型的浪潮正逐渐退去，一场关于智能本质的争论悄然升温。图灵奖得主杨立昆（Yann LeCun）近期指出，仅靠语言预测无法实现真正智能，真正的突破在于构建能理解物理世界因果关系的“世界模型”。令人意外的是，率先在这一前沿方向迈出实质性步伐的，并非硅谷巨头，而是一家中国科技企业。蚂蚁集团旗下的蚂蚁灵波科技在2026年初连续发布四款开源具身智能模型，从空间感知到世界建模，系统性地推进AI与物理世界的融合。这一系列动作不仅标志着技术路线的分野，更折射出全球AI竞争格局的深层变迁。

人工智能的演进正站在一个关键的十字路口。过去几年，大语言模型以惊人的速度重塑了人机交互的边界，从文本生成到代码编写，其能力边界不断拓展。然而，当热潮渐退，一个根本性问题浮出水面：语言真的等于智能吗？

智能的边界：从语言到物理

杨立昆（Yann LeCun）的质疑并非空穴来风。他指出，当前主流的大模型本质上仍是“概率预测机器”——它们擅长根据已有文本生成连贯语句，却缺乏对现实世界的因果理解。一个模型可以流畅描述“玻璃杯从桌上掉落”的场景，却未必真正理解重力、材质、碰撞等物理规律。这种“知其然不知其所以然”的局限，使得现有AI难以在复杂、动态的真实环境中自主行动。

真正的智能，应当具备在脑海中模拟现实的能力。就像人类在伸手拿杯子前，会预判它的位置、重量、稳定性，甚至考虑是否会被障碍物阻挡。这种“心理模拟”依赖于对物理世界的内在建模，而不仅仅是语言模式的匹配。杨立昆所倡导的“世界模型”（World Model），正是试图让AI建立起对环境的动态、可预测的内在表征，从而支持长期规划和因果推理。

中国力量的意外突破

尽管这一理论框架的讨论多集中于欧美学术界，但技术落地的节奏却出现了意想不到的转折。2026年初，蚂蚁集团旗下的蚂蚁灵波科技以密集的节奏，连续开源发布四款具身智能模型，覆盖了从感知到决策的完整链条。

LingBot-Depth：专注于高精度空间感知，能够从多模态输入中重建三维环境，为机器人提供厘米级的空间理解能力。LingBot-VLA：具身大模型，将视觉、语言与动作控制深度融合，使智能体能在复杂场景中执行多步骤任务。LingBot-World：核心世界模型，通过自监督学习构建环境的动态演化规律，支持对未来状态的预测。LingBot-VA：具身世界模型，将世界模型与具身行动结合，实现“预测-规划-执行”的闭环。
这一系列模型的发布并非孤立的技术展示，而是一套系统性的战略布局。它们共同指向一个核心目标：让AI不再只是“语言复读机”，而是能真正“活在”物理世界中的智能体。

开源背后的战略深意

更值得玩味的是，蚂蚁灵波选择将全部模型开源。在AI军备竞赛白热化的当下，这种“饱和式开源”显得尤为激进。它既是一种技术自信的体现，也是一种生态构建的博弈。通过降低门槛，吸引更多开发者参与模型迭代，蚂蚁灵波正在试图在具身智能这一新兴赛道上建立事实标准。

从产业角度看，具身智能的落地场景极为广阔：从家庭服务机器人到工业质检，从自动驾驶到灾难救援，任何需要与环境实时交互的领域，都是其用武之地。而蚂蚁集团本身在金融、物流、城市服务等场景中的深厚积累，为其提供了丰富的训练数据和验证环境。这种“技术+场景”的双重优势，使得蚂蚁灵波的探索更具落地潜力。

技术路线的分野与未来格局

蚂蚁灵波的突破，折射出全球AI发展路径的深层分化。以美国为代表的科技巨头仍在大模型规模竞赛中投入巨资，追求参数量的指数级增长；而中国团队则更早地将目光投向“智能的实用性”，在具身智能、多模态融合、物理推理等方向进行系统性布局。

这种差异并非偶然。中国制造业的庞大基数、智慧城市建设的快速推进，以及对自动化解决方案的迫切需求，共同催生了更具工程导向的AI创新生态。蚂蚁灵波的开源策略，正是这一生态的典型产物——它不追求“最炫”的参数规模，而是致力于解决真实世界中的具体问题。

未来，AI的竞争将不再局限于“谁的语言更流畅”，而是“谁更懂世界”。当大模型逐渐沦为基础设施，真正的护城河将来自对物理规律的建模能力、对复杂环境的适应能力，以及对长期目标的规划能力。蚂蚁灵波的尝试，或许正是通向下一代智能的关键一步。

这场变革不会一蹴而就。世界模型的构建需要海量高质量的多模态数据，需要更高效的训练架构，也需要跨学科的理论突破。但无论如何，当一家中国公司率先在具身智能的深水区投下重注，全球AI的版图，正在悄然改写。

当大模型撞上物理世界：中国团队为何抢先押注具身智能

智能的边界：从语言到物理

中国力量的意外突破

开源背后的战略深意

技术路线的分野与未来格局