破解智能体LLM缓存困境:Irminsul如何实现位置无关的内容寻址加速

· 4 次浏览 ·来源: AI导航站
在智能体大语言模型(Agentic LLM)服务中,由于每次推理时相同token的相对位置发生偏移,传统的基于位置的前缀缓存机制失效,导致首字节延迟(TTFT)飙升。为解决这一难题,研究者提出了一种名为Irminsul的新型缓存架构。该方案基于多头部潜在注意力(MLA)的特性,将KV向量分解为与位置无关的部分和可通过闭式公式修正的位置相关部分,并在此基础上引入内容寻址而非传统的键值寻址。通过扩展SGLang的基数缓存,Irminsul结合CDC分块和δ-旋转规则,实现了对智能体工作负载的高度优化。实验表明,在DeepSeek-V2-Lite、Kimi Moonlight-16B-A3B和JoyAI-Flash等多模型上,Irminsul能有效恢复高达83%的提示词缓存命中,并为每个缓存命中节省63%的预填充能耗。文章深入剖析了MLA架构如何重塑缓存设计范式,论证了内容寻址缓存应作为服务栈中的原生原语,而非对前缀匹配的临时补救措施。

当大语言模型(LLM)被应用于需要多轮交互的智能体(agent)场景时,一个隐藏的性能杀手逐渐浮出水面——位置敏感的缓存机制正在拖慢整个系统的响应速度。

在传统LLM服务中,前缀缓存(prefix caching)是提升推理效率的核心技术。它通过存储前一次请求生成的KV(Key-Value)状态,使得后续请求若包含完全相同的初始文本,就能跳过耗时的计算,直接复用这部分信息。然而,在智能体的工作流中,情况变得复杂。每一次推理,即使输入的语义内容完全相同,其上下文中的绝对位置都会发生变化,导致相同语义的token在序列中出现的位置发生了“位移”。这种比特级别的差异,使得原本可以复用的KV状态不再匹配,前缀缓存的命中率急剧下降。用户报告称,这种退化从轻微的性能下降演变为灾难性的首字节延迟(Time To First Token, TTFT)激增,有时甚至达到惊人的10至16秒,严重破坏了用户体验。

从位置到内容的范式转移

面对这一挑战,业界曾尝试过位置无关的缓存系统。但现有方案通常需要对完整的$d_K$维键向量进行RoPE(Rotary Position Embedding)校正,这种开销并非由缓存逻辑本身引起,而是源于分组查询注意力(GQA)架构的设计。这被视为一种妥协方案,而非根本性解决。

真正带来突破的是Multi-Head Latent Attention(MLA)架构的广泛应用。MLA,已在DeepSeek-V2/V3/R1、Kimi-K2/Moonlight、GLM-5以及Mistral Large 3等前沿模型中大规模部署,其核心思想是将每个KV行分解为两个独立的部分:一个与位置无关的$c_{KV}$向量和一个仅与位置相关的$k_r$向量。关键创新在于,这个$k_r$向量仅有64维,且其变化可以通过一个闭式公式(closed-form formula)精确计算。这意味着,在缓存时,我们无需存储整个KV状态,而只需存储那个与位置无关的$c_{KV}$部分。

这一结构特性为内容寻址缓存(content-addressed caching)铺平了道路。它不再是GQA架构下的权宜之计,而是MLA内在特性的自然延伸。内容寻址意味着我们根据内容的“哈希”来索引缓存,而非依赖于其出现的位置或顺序。这使得缓存能够识别出语义上相同但位置上发生偏移的片段,从而从根本上解决了智能体场景下的缓存失效问题。

基于此洞察,本文提出了一种名为Irminsul的解决方案。Irminsul并非从零开始构建新的缓存框架,而是选择性地扩展了流行的SGLang运行时中的基数缓存(radix cache)机制。其核心贡献在于引入了基于内容哈希的键控(content-hash keying),并辅以两个关键技术:CDC(Content-Defined Chunking)分块技术和一个针对$k_r$的$δ$-旋转规则。CDC分块确保了缓存粒度足够细,能捕捉到微小的语义重复;而$δ$-旋转规则则负责在查询时,根据当前序列的位置动态地调整$k_r$向量,使其与缓存中的版本对齐,从而完成最终的融合计算。

性能评估与行业影响

为了验证Irminsul的有效性,研究团队在三个采用原生MLA-MoE架构的大型模型上进行了详尽的实验:DeepSeek-V2-Lite(16B/2.4B参数)、Kimi Moonlight-16B-A3B以及JoyAI-Flash(48B/3B参数)。实验结果显示,Irminsul在所有三个模型上都保持了输出的严格一致性,并在两个端点模型上测量到了显著的恢复效果。具体而言,在面对典型的智能体流量时,Irminsul能够精确恢复前缀缓存之外的大量提示词内容,其命中率可高达约83%。同时,对于每一个成功命中的事件,它能为用户节省高达63%的预填充(prefill)阶段的能量消耗。这两个指标的结合,意味着Irminsul不仅能大幅降低用户的等待时间,还能显著降低数据中心的运营成本。

这项工作的意义远不止于提供一个性能优化工具。它提出了一个更深刻的观点:内容寻址缓存不应被视为一个附加的、临时的功能模块,而应被看作是服务栈中的一个原生(native)、第一级的原语(primitive)。这意味着,未来的LLM服务架构在设计之初就应该将内容感知能力纳入考量,而不是在现有以位置为中心的架构上进行修补。这标志着我们从“位置敏感”向“内容敏感”的范式转变,是构建高效、可扩展且适用于未来复杂应用(如智能体)的LLM服务基础设施的关键一步。