当AI开始“犹豫”:小模型靠“反复推演”逼近人类思维
在人工智能领域,一个长期存在的悖论正在浮现:模型越大,性能越强,但智能的本质是否真的被触及?当主流研究竞相追逐千亿参数的大模型时,一组来自亚洲与北美高校的科研团队却用不到400万参数的小模型,在衡量AI抽象推理能力的权威测试中,跑出了接近人类的表现。他们的秘密武器,不是更大的网络,而是让AI学会“犹豫”——反复审视、逐步推演,像人类一样在脑海中多走几步。
ARC-AGI:AI的“智商测试”为何难倒所有大模型?
要理解这场突破的意义,必须先认识ARC-AGI基准。这个由深度学习先驱提出的测试,不考察模型能否认出猫或狗,而是测试其从极简示例中归纳抽象规则的能力。每个任务仅提供2到4个输入-输出网格对,模型必须从中提炼出潜在逻辑——可能是几何变换、颜色映射,或是模拟物理规律——再应用到全新输入上。
人类面对这类问题时,通常会经历“观察—假设—验证—修正”的循环过程。但传统视觉模型如Vision Transformer(ViT)采用前馈架构,数据一次性穿过固定层数的网络,输出即答案。这种“一步到位”的模式在感知任务中高效,却在需要多步推理的抽象任务中暴露出根本缺陷:计算深度被锁定在模型结构内,无法根据问题复杂度灵活调整。
循环Transformer:让同一组权重反复“咀嚼”信息
Loop-ViT的核心创新在于打破“层数即深度”的桎梏。它采用权重共享的循环架构:同一个Transformer块被重复执行多次,每次迭代都基于前一次的结果进行更新。这意味着模型的“思考时间”可以动态延长,而参数量保持不变。
这种设计带来两大优势:一是参数效率显著提升,3.8M参数的模型即可超越参数量五倍于它的传统模型;二是迫使模型学习通用的“推理步骤”,而非记忆特定任务的捷径。更重要的是,它模拟了人类工作记忆的运作方式——信息在脑海中反复刷新、逐步清晰。
研究团队进一步设计了混合编码块,融合自注意力机制与深度可分离卷积。前者负责捕捉全局规则,如“所有蓝色变为红色”;后者处理局部操作,如“填充封闭区域”。这种分工让模型既能把握整体逻辑,又能执行精细操作,实现了从“理解”到“执行”的无缝衔接。
动态退出:AI学会“知止”的智慧
真正的智能不仅在于思考,更在于知道何时停止思考。Loop-ViT引入了基于熵的动态退出机制:每次迭代后,模型评估自身预测的不确定性。当置信度足够高时,立即终止计算;反之则继续迭代。实验显示,能“早退”的样本准确率高达83.33%,而需要完整迭代的困难样本准确率虽低,但模型并未盲目坚持,而是合理分配认知资源。
这种“按需思考”的策略,与人类面对简单题快速作答、难题反复推敲的行为高度一致。它揭示了一个被忽视的事实:在推理任务中,计算效率的关键不在于总参数量,而在于如何智能地分配计算资源。
小模型逆袭:重新定义“智能”的度量标准
Loop-ViT的成功动摇了当前AI发展的主流叙事。当业界普遍认为“更大即更强”时,这项研究证明:通过优化推理过程,小模型同样可以逼近甚至超越大模型的表现。18M参数的Loop-ViT在ARC-AGI-1上达到65.8%准确率,超越73M参数的集成模型;而3.8M的小型版本更是以60.1%的成绩,几乎追平人类平均水平。
更令人深思的是模型内部的“涌现”行为。可视化分析显示,随着迭代进行,预测从模糊波动逐渐“结晶”为确定答案;注意力机制也从全局扫描转向局部聚焦。这种从探索到执行的动态演化,正是人类思维过程的数字映射。
这场小模型的逆袭,或许预示着AI发展的新方向:从追求参数规模的“蛮力路线”,转向优化推理机制的“巧劲策略”。未来的智能系统,可能不再依赖天文数字般的参数,而是通过赋予模型“反复思考”的能力,实现更高效、更类人的认知表现。当AI学会像人类一样“犹豫”,真正的智能或许才刚刚起步。