重塑数据中心能效:PALS如何用动态功耗控制革新大模型推理

· 0 次浏览 ·来源: AI导航站
随着大语言模型(LLM)推理成为现代数据中心的主导负载,GPU的高能耗与性能需求之间的矛盾日益突出。现有系统虽通过批处理、调度和并行优化吞吐量,却普遍将GPU功耗视为不可控的静态限制。本文介绍了一种名为PALS的功耗感知运行时系统,它将GPU功耗上限作为首要控制参数,并与批量大小等软件参数协同优化。该系统结合轻量级离线功耗-性能模型和反馈驱动控制器,在保证服务质量的同时最大化能效。PALS集成在vLLM框架中,无需重新训练模型或修改API接口。实验表明,在多GPU系统和密集及专家混合(MoE)模型上,PALS可将能效提升高达26.3%,并将功率约束下的服务质量(QoS)违规减少4至7倍。这项研究揭示了将功耗控制直接融入LLM推理运行时的巨大潜力,为实现能源成比例和电网交互的智能系统提供了可行路径。

当ChatGPT引爆全球AI热潮时,一场静默而深刻的数据中心革命已然开启。大语言模型推理不再是简单的计算任务,而是吞噬海量电力、占据宝贵机柜空间、并持续推高运营成本的'电老虎'。据行业估计,LLM服务已成为现代云数据中心中最大的GPU负载之一,其功耗问题已从技术挑战演变为关乎商业可持续性的核心议题。

在这一背景下,学术界和工业界纷纷提出各种优化方案,从模型量化到架构改进,再到更精细的调度策略。然而,大多数现有系统仍停留在对计算资源的优化层面——如何更高效地利用GPU的计算单元,如何在有限的内存带宽内传输更多数据。它们往往将GPU的功耗视为一个固定不变的上限,一种必须遵守的物理定律,而非可以主动调节的动态资源。

突破传统思维:将功耗变为可控参数

PALS(Power-Aware LLM Serving)系统的出现,正是对这一传统范式的有力挑战。它首次将GPU功耗上限(power cap)提升为LLM推理系统中的第一类控制旋钮,与传统的软件参数如批量大小(batch size)进行联合优化。这种思路的转变,类似于在操作系统中将CPU频率从被动响应转变为主动调控一样具有划时代意义。

为了实现这一目标,PALS采用了创新的'离线建模+在线反馈'双轮驱动机制。首先,它构建了一个轻量级的离线功耗-性能模型库,预先测量和分析不同配置下模型的表现。然后,系统部署了一个智能控制器,根据实时的服务质量(QoS)反馈,动态调整功耗上限,寻找最优的能效平衡点。这种方法既保证了系统响应的敏捷性,又避免了频繁测量的开销。

无缝集成实践:无需改变模型或接口

PALS最令人印象深刻的一点在于其卓越的工程实现能力。研究人员将其无缝集成到现有的vLLM推理框架中,整个过程完全不需要对模型本身进行任何再训练,也无需修改用户端的API接口。这意味着,企业可以直接在生产环境中部署PALS,立即享受到其带来的能效红利,而无需承担额外的迁移成本和技术风险。这种即插即用的特性,极大地提高了研究成果向实际应用的转化效率。

在测试阶段,PALS在多GPU集群和两种主流模型架构(密集模型和专家混合MoE模型)上都展现了出色的性能。在能效方面,PALS实现了最高达26.3%的提升;而在严苛的功率预算环境下,它更是能将QoS违规情况减少4到7倍。这些数据充分证明了PALS在复杂现实场景中的强大适应性和实用价值。