从粗粒度到细粒度：Sub-Token路由如何重塑Transformer效率边界

2026-04-23 · 2 次浏览 ·来源: AI导航站

本文深入探讨了一种突破性的注意力机制优化技术——子令牌（sub-token）路由，该技术通过在LoRA适配的Transformer模型内部实现细粒度的键值（KV）缓存压缩，为语言模型的推理效率和下游任务表现提供了新的解决方案。研究提出了两种互补的设计范式：一种查询无关的压缩感知方法，显著优化了质量与压缩率之间的权衡；另一种基于预测器的查询感知方法，则能在大幅降低KV预算的情况下，保持模型在下游任务上的性能。研究表明，传统的基于完整令牌的压缩与现代的子令牌级路由并非替代关系，而是形成了全局‘生’与内部‘存’的双重互补压缩轴。这项工作的核心贡献在于，它首次将路由的决策单位从宏观的token、head或layer推进到了微观的token内部结构层面，为未来高效大模型的部署开辟了新路径。

当大型语言模型（LLM）在现实世界中被部署时，一个核心挑战始终如影随形：如何在有限的计算资源和内存带宽下，维持甚至提升其卓越的语言理解和生成能力。其中，注意力机制是性能瓶颈的关键所在，其庞大的键（Key）和值（Value）缓存（KV Cache）在长序列场景下会迅速膨胀。因此，业界普遍采用基于完整令牌（token-level）的KV压缩策略，但这往往是一个‘非此即彼’的全有或全无决策。

背景分析：从粗粒度到细粒度的效率探索

为了应对这一挑战，研究者们已经尝试了多种压缩策略。这些方法大致可分为几类：首先是按层或头进行剪枝，即移除整个注意力层或注意力头的计算；其次是按页进行量化，将注意力矩阵划分为若干块并统一量化精度；最后则是对完整令牌进行选择性丢弃。然而，这些方法都存在一个共同的局限性，即其决策粒度过于粗糙。它们无法感知一个令牌内部不同部分的语义重要性和信息密度是否存在差异。例如，一个包含多个子词的复合词，其前缀和后缀可能在当前上下文中的相关性截然不同。

正是在这样的背景下，Sub-Token Routing作为一种全新的范式应运而生。它不再将整个令牌视为一个统一的处理单元，而是将其分解为更小的、语义上更连贯的子令牌（sub-tokens）。这种细粒度的视角，为模型提供了前所未有的控制精度，使其能够根据当前的查询（query）和保留预算，动态地决定哪些子令牌应该被保留，哪些可以被压缩或舍弃。这从根本上改变了我们思考模型资源分配的方式。

核心内容：双轨并行的路由架构

该研究提出的核心思想是将Sub-Token路由集成到LoRA（Low-Rank Adaptation）适配的Transformer框架中，并设计了两种截然不同的应用场景。

第一，查询无关的压缩感知语言建模。 在这种模式下，模型的目标是在不依赖具体查询的前提下，实现最佳的压缩效果。研究为此引入了一个创新的设计，它将路由子空间LoRA与KV路径上的价值组（value-group）路由相结合。简单来说，模型首先通过LoRA适配来学习如何将输入投影到一个更紧凑的、低维的子空间中。然后，在该子空间内，模型再根据每个子令牌的价值组信息，独立地决定是否保留该组信息。这种双重压缩机制使得模型能够在宏观层面进行初步筛选，并在微观层面进行精细调整，从而在语言建模任务上取得了更优的质量-压缩权衡。

第二，下游任务保持的查询感知KV压缩。 与第一种模式相反，这种设计旨在服务于特定的下游任务，其核心目标是确保在大幅削减KV缓存的同时，模型在该特定任务上的行为（即输出结果）保持高度一致。为此，研究引入了一个基于预测器（predictor-based selector）的查询条件选择器。这个选择器扮演着智能调度员的角色，它接收当前查询作为输入，并据此评估每一个上下文令牌及其内部子令牌价值组的综合相关度。然后，它会将一个全局的保留预算，智能地分配给那些最相关的令牌和价值组。这种机制确保了宝贵的计算资源被精准地投向了最能提升任务性能的区域。

深度点评：互补而非替代，开启新维度

这项研究的价值不仅在于其提出的两种具体方案，更在于它所揭示的深刻洞见。作者明确指出，传统的基于完整令牌的压缩方法和新兴的子令牌级路由并非简单的竞争或替代关系，而是一种互补的协同效应。

具体而言，传统的令牌级方法可以被视为一个全局的‘生死簿’，它决定了哪些完整的令牌在整段上下文中是‘可存活’的。然而，一旦这些令牌被确定为‘生’，它们内部的表示信息仍然需要被压缩。这正是子令牌路由的用武之地——它扮演了‘内部存储优化师’的角色。它决定了这些幸存的令牌应当如何被进一步压缩，以在有限的资源内最大化其效用。

这种‘全局筛选’与‘局部精炼’的二元协作，构成了一个强大的压缩体系。它意味着未来的模型优化可以同时在两个独立的维度上进行，从而获得指数级的效率提升潜力。对于追求极致推理速度的通用语言模型，第一种查询无关的方法无疑是最优解。而对于需要在特定垂直领域（如金融、法律）提供稳定、高精度服务的模型，第二种查询感知的方法则是不可或缺的利器。这种清晰的分类和定位，为后续的研究者和工程实践者指明了明确的方向。

前瞻展望：迈向自适应与可编程的效率新时代

展望未来，Sub-Token Routing技术有望引发一场关于大模型效率范式的革命。首先，我们可以预见，将这两种互补的路由机制结合使用，可能会产生1+1>2的效果。一个模型可以首先使用令牌级路由进行全局筛选，然后再利用子令牌级路由对筛选后的令牌进行深度压缩，从而实现前所未有的高压缩比和高质量输出。

其次，随着硬件算力的不断提升，专门为这种细粒度路由设计的加速器也将会涌现。未来的芯片将可能具备并行处理成千上万个子令牌决策的能力，从而将理论上的效率优势完全转化为实际的性能增益。

最后，从更长远的角度看，Sub-Token Routing所代表的‘可编程’和‘自适应’的思想，或许正是通向真正类人智能的关键一步。它让我们看到，一个聪明的系统不仅能被动地适应环境，更能主动地、精细地管理自身资源，将每一份能量都用在刀刃上。这无疑是迈向下一代高效、灵活、强大的人工智能系统的重要基石。