重塑数据中心能效：PALS如何用动态功耗控制革新大模型推理

2026-05-20 · 0 次浏览 ·来源: AI导航站

随着大语言模型(LLM)推理成为现代数据中心的主导负载，GPU的高能耗与性能需求之间的矛盾日益突出。现有系统虽通过批处理、调度和并行优化吞吐量，却普遍将GPU功耗视为不可控的静态限制。本文介绍了一种名为PALS的功耗感知运行时系统，它将GPU功耗上限作为首要控制参数，并与批量大小等软件参数协同优化。该系统结合轻量级离线功耗-性能模型和反馈驱动控制器，在保证服务质量的同时最大化能效。PALS集成在vLLM框架中，无需重新训练模型或修改API接口。实验表明，在多GPU系统和密集及专家混合(MoE)模型上，PALS可将能效提升高达26.3%，并将功率约束下的服务质量(QoS)违规减少4至7倍。这项研究揭示了将功耗控制直接融入LLM推理运行时的巨大潜力，为实现能源成比例和电网交互的智能系统提供了可行路径。

当ChatGPT引爆全球AI热潮时，一场静默而深刻的数据中心革命已然开启。大语言模型推理不再是简单的计算任务，而是吞噬海量电力、占据宝贵机柜空间、并持续推高运营成本的'电老虎'。据行业估计，LLM服务已成为现代云数据中心中最大的GPU负载之一，其功耗问题已从技术挑战演变为关乎商业可持续性的核心议题。

在这一背景下，学术界和工业界纷纷提出各种优化方案，从模型量化到架构改进，再到更精细的调度策略。然而，大多数现有系统仍停留在对计算资源的优化层面——如何更高效地利用GPU的计算单元，如何在有限的内存带宽内传输更多数据。它们往往将GPU的功耗视为一个固定不变的上限，一种必须遵守的物理定律，而非可以主动调节的动态资源。

突破传统思维：将功耗变为可控参数

PALS（Power-Aware LLM Serving）系统的出现，正是对这一传统范式的有力挑战。它首次将GPU功耗上限（power cap）提升为LLM推理系统中的第一类控制旋钮，与传统的软件参数如批量大小（batch size）进行联合优化。这种思路的转变，类似于在操作系统中将CPU频率从被动响应转变为主动调控一样具有划时代意义。

为了实现这一目标，PALS采用了创新的'离线建模+在线反馈'双轮驱动机制。首先，它构建了一个轻量级的离线功耗-性能模型库，预先测量和分析不同配置下模型的表现。然后，系统部署了一个智能控制器，根据实时的服务质量(QoS)反馈，动态调整功耗上限，寻找最优的能效平衡点。这种方法既保证了系统响应的敏捷性，又避免了频繁测量的开销。

无缝集成实践：无需改变模型或接口

PALS最令人印象深刻的一点在于其卓越的工程实现能力。研究人员将其无缝集成到现有的vLLM推理框架中，整个过程完全不需要对模型本身进行任何再训练，也无需修改用户端的API接口。这意味着，企业可以直接在生产环境中部署PALS，立即享受到其带来的能效红利，而无需承担额外的迁移成本和技术风险。这种即插即用的特性，极大地提高了研究成果向实际应用的转化效率。

在测试阶段，PALS在多GPU集群和两种主流模型架构（密集模型和专家混合MoE模型）上都展现了出色的性能。在能效方面，PALS实现了最高达26.3%的提升；而在严苛的功率预算环境下，它更是能将QoS违规情况减少4到7倍。这些数据充分证明了PALS在复杂现实场景中的强大适应性和实用价值。