当AI开始“犹豫”：小模型靠“反复推演”逼近人类思维

2026-02-12 · 1 次浏览 ·来源: AI导航站

传统AI模型依赖庞大的参数规模完成图像识别等任务，但在需要多步推理的抽象问题面前却力不从心。最新研究提出的Loop-ViT模型，通过引入循环Transformer机制，让仅有380万参数的轻量级模型在ARC-AGI抽象推理基准测试中准确率达到60.1%，几乎与人类平均水平持平。这一突破并非来自参数量的堆砌，而是模仿人类“反复思考”的认知过程——模型可在不同迭代次数中动态调整计算深度，实现“早退早答”与“深思慢解”的灵活策略。这不仅挑战了“越大越好”的AI发展范式，更揭示了提升推理效率的关键或许在于赋予模型“思考时间”而非“网络体积”。

在人工智能领域，一个长期存在的悖论正在浮现：模型越大，性能越强，但智能的本质是否真的被触及？当主流研究竞相追逐千亿参数的大模型时，一组来自亚洲与北美高校的科研团队却用不到400万参数的小模型，在衡量AI抽象推理能力的权威测试中，跑出了接近人类的表现。他们的秘密武器，不是更大的网络，而是让AI学会“犹豫”——反复审视、逐步推演，像人类一样在脑海中多走几步。

ARC-AGI：AI的“智商测试”为何难倒所有大模型？

要理解这场突破的意义，必须先认识ARC-AGI基准。这个由深度学习先驱提出的测试，不考察模型能否认出猫或狗，而是测试其从极简示例中归纳抽象规则的能力。每个任务仅提供2到4个输入-输出网格对，模型必须从中提炼出潜在逻辑——可能是几何变换、颜色映射，或是模拟物理规律——再应用到全新输入上。

人类面对这类问题时，通常会经历“观察—假设—验证—修正”的循环过程。但传统视觉模型如Vision Transformer（ViT）采用前馈架构，数据一次性穿过固定层数的网络，输出即答案。这种“一步到位”的模式在感知任务中高效，却在需要多步推理的抽象任务中暴露出根本缺陷：计算深度被锁定在模型结构内，无法根据问题复杂度灵活调整。

循环Transformer：让同一组权重反复“咀嚼”信息

Loop-ViT的核心创新在于打破“层数即深度”的桎梏。它采用权重共享的循环架构：同一个Transformer块被重复执行多次，每次迭代都基于前一次的结果进行更新。这意味着模型的“思考时间”可以动态延长，而参数量保持不变。

这种设计带来两大优势：一是参数效率显著提升，3.8M参数的模型即可超越参数量五倍于它的传统模型；二是迫使模型学习通用的“推理步骤”，而非记忆特定任务的捷径。更重要的是，它模拟了人类工作记忆的运作方式——信息在脑海中反复刷新、逐步清晰。

研究团队进一步设计了混合编码块，融合自注意力机制与深度可分离卷积。前者负责捕捉全局规则，如“所有蓝色变为红色”；后者处理局部操作，如“填充封闭区域”。这种分工让模型既能把握整体逻辑，又能执行精细操作，实现了从“理解”到“执行”的无缝衔接。

动态退出：AI学会“知止”的智慧

真正的智能不仅在于思考，更在于知道何时停止思考。Loop-ViT引入了基于熵的动态退出机制：每次迭代后，模型评估自身预测的不确定性。当置信度足够高时，立即终止计算；反之则继续迭代。实验显示，能“早退”的样本准确率高达83.33%，而需要完整迭代的困难样本准确率虽低，但模型并未盲目坚持，而是合理分配认知资源。

这种“按需思考”的策略，与人类面对简单题快速作答、难题反复推敲的行为高度一致。它揭示了一个被忽视的事实：在推理任务中，计算效率的关键不在于总参数量，而在于如何智能地分配计算资源。

小模型逆袭：重新定义“智能”的度量标准

Loop-ViT的成功动摇了当前AI发展的主流叙事。当业界普遍认为“更大即更强”时，这项研究证明：通过优化推理过程，小模型同样可以逼近甚至超越大模型的表现。18M参数的Loop-ViT在ARC-AGI-1上达到65.8%准确率，超越73M参数的集成模型；而3.8M的小型版本更是以60.1%的成绩，几乎追平人类平均水平。

更令人深思的是模型内部的“涌现”行为。可视化分析显示，随着迭代进行，预测从模糊波动逐渐“结晶”为确定答案；注意力机制也从全局扫描转向局部聚焦。这种从探索到执行的动态演化，正是人类思维过程的数字映射。

这场小模型的逆袭，或许预示着AI发展的新方向：从追求参数规模的“蛮力路线”，转向优化推理机制的“巧劲策略”。未来的智能系统，可能不再依赖天文数字般的参数，而是通过赋予模型“反复思考”的能力，实现更高效、更类人的认知表现。当AI学会像人类一样“犹豫”，真正的智能或许才刚刚起步。