当Transformer开始“螺旋上升”：递归架构的下一站

2026-02-12 · 1 次浏览 ·来源: AI导航站

传统循环Transformer虽通过共享层实现深度推理，却受限于固定分辨率计算，难以兼顾效率与性能。新提出的SpiralFormer引入多分辨率递归机制，在不同尺度上动态调整序列分辨率，使模型在迭代过程中实现功能分层与层级依赖学习。实验表明，该架构在160M至1.4B参数范围内均优于同类递归与非递归模型，不仅提升参数与计算效率，更揭示序列分辨率可作为递归模型扩展的新维度。这一突破或将重塑高效推理架构的设计范式。

人工智能领域对高效推理的追求从未停歇。Transformer作为当前主流架构，其堆叠式结构虽强大，却面临计算成本随深度线性增长的问题。为突破这一瓶颈，研究者开始探索递归机制——通过重复使用同一组参数层，实现“深度推理”而不增加参数量。然而，早期循环Transformer往往在性能上落后于同等计算量的非递归模型，暴露出机制设计上的深层缺陷。

递归的困境：效率与表达的失衡

循环Transformer的核心理念颇具吸引力：将计算深度与参数深度解耦，让模型通过多次迭代逐步优化内部表征，模拟人类逐步推理的过程。这种架构天然适合需要多步思考的任务，如数学推导、代码生成或复杂问答。但现实是，多数早期实现未能兑现这一潜力。问题根源之一在于，这些模型在整个递归过程中始终以全分辨率处理所有token，忽略了信息在不同推理阶段可能具备的层次性。

想象一个语言模型在理解一段长文本时，初期可能只需捕捉整体语义轮廓，后期才需聚焦细节。固定分辨率的递归如同始终用显微镜观察整幅画，既浪费算力，又可能因噪声干扰而影响高层语义的构建。这种“一刀切”的计算方式，使得递归的优势被低效的计算所抵消。

SpiralFormer：让递归“分层思考”

SpiralFormer的提出，正是对这一问题的精准回应。其核心创新在于引入“多分辨率递归调度”——在递归的不同阶段，动态调整序列的分辨率。早期迭代使用压缩后的低分辨率表征，专注于捕捉宏观结构；随着迭代深入，逐步恢复高分辨率，处理细粒度信息。这种螺旋式上升的处理路径，使模型在不同尺度上实现功能 specialization。

通过探针实验，研究者发现，SpiralFormer在不同递归轮次中确实展现出明确的功能分化：早期层更擅长建模长距离依赖与主题一致性，后期层则聚焦于局部语法与词汇选择。这种层级化的表征演化，正是传统固定分辨率模型所缺失的。它不仅提升了效率，更增强了模型对复杂结构的理解能力。

效率跃迁：从参数到计算的全面优化

在160M至1.4B参数的多个模型规模上，SpiralFormer均展现出显著优势。相较于同等计算预算的循环与非循环基线，其在语言建模、文本生成等任务上实现了更低的困惑度与更高的生成质量。更重要的是，这种优势并非来自参数量的堆砌，而是源于计算资源的更优分配。

传统Transformer在扩展时往往依赖增加层数或宽度，而SpiralFormer证明，序列分辨率本身可成为新的扩展维度。通过在不同递归阶段灵活调整分辨率，模型能够在保持高表达能力的同时，大幅降低冗余计算。这一发现为未来大模型的设计提供了新思路：效率提升未必来自更复杂的结构，而可能源于对计算过程的精细化调度。

架构哲学的演进：从堆叠到循环，再到螺旋

SpiralFormer的出现，标志着Transformer架构演进进入新阶段。从最初的堆叠式结构，到强调参数复用的循环设计，再到如今引入多尺度动态调整的螺旋机制，每一次跃迁都伴随着对“深度”本质的重新理解。递归不再是简单的层重复，而是一种具备时间维度的计算过程；分辨率也不再是固定不变的输入属性，而是可随推理进程动态调节的控制变量。

这种转变背后，是对模型认知过程的更深层模拟。人类在理解复杂信息时，往往先建立粗略框架，再逐步填充细节。SpiralFormer正是将这一认知策略编码进架构之中，使机器推理更贴近人类思维的节奏。

未来展望：递归架构的新疆域

SpiralFormer的成功，为递归Transformer开辟了广阔的应用前景。在长文本处理、多轮对话、程序合成等需要持续推理的场景中，多分辨率递归有望显著提升效率与效果。更重要的是，它提示我们：模型效率的瓶颈或许不在硬件，而在架构设计本身。

未来研究或将进一步探索分辨率调度的自适应机制，甚至引入外部反馈来动态控制递归路径。此外，如何将这种思想迁移至视觉、语音等多模态任务，也将是极具潜力的方向。当Transformer开始“螺旋上升”，我们或许正站在新一轮架构革命的起点。