当AI学会自我进化：CODE-SHARP如何打破奖励设计的边界

2026-02-10 · 0 次浏览 ·来源: AI导航站

传统强化学习依赖人工设计的奖励函数，极大限制了AI在无预设目标环境中的探索能力。CODE-SHARP框架通过引入基础模型（FM）自动生成并优化分层奖励程序，构建可执行代码构成的技能图谱，实现技能的开放式发现与持续演化。实验表明，基于该框架训练的代理在复杂环境中解决长程任务的能力显著超越现有方法，平均性能提升超134%。这一突破不仅重新定义了奖励机制的生成逻辑，更预示着自主智能体向真正开放式学习迈出了关键一步。

在人工智能的发展图谱中，如何让机器像人类一样在没有明确指导的情况下持续学习新技能，始终是一道悬而未决的难题。传统强化学习虽然擅长在规则清晰的任务中优化行为策略，但其核心依赖人工精心设计的奖励函数——这一前提在现实世界的复杂、开放场景中几乎无法成立。当目标未知、路径模糊，甚至“什么是值得学习的技能”都尚未定义时，AI该如何自主前行？

从“被动执行”到“主动发现”：奖励机制的范式转移

过去十年，强化学习在围棋、机器人控制等领域取得了瞩目成就，但这些成功背后都有一个共同点：任务边界清晰，奖励信号明确。AlphaGo知道赢棋是目标，机械臂知道抓取物体是任务。然而，在更广阔的开放世界——比如一个虚拟的建造与生存环境——哪些行为构成“有用技能”？如何判断“搭建庇护所”比“原地跳跃”更有价值？这些问题无法通过预设规则回答。

CODE-SHARP的出现，正是对这一困境的回应。它不再将奖励函数视为静态输入，而是将其转化为一个动态演化的程序系统。框架的核心创新在于引入“分层奖励程序”（Hierarchical Reward Programs, SHARP）的概念：每一个技能不再对应一个简单的数值奖励，而是一段可执行的代码，能够根据环境状态动态计算奖励值。这些代码片段被组织成一个有向图结构，形成技能之间的依赖与组合关系，比如“采集木材”可能是“建造房屋”的前置技能。

基础模型驱动：让AI自己“写”奖励逻辑

真正让CODE-SHARP突破性的，是它将基础模型（Foundation Models）深度整合进技能发现流程。传统方法尝试用算法自动生成奖励，但往往局限于微调已有任务。而CODE-SHARP让FM扮演“技能架构师”的角色：它不仅能提出新的技能构想，还能将其转化为可运行的奖励代码，并评估其在当前技能图谱中的位置与价值。

这一过程类似于人类学习中的“元认知”——不仅学习具体知识，还学习如何学习。FM通过分析已有技能的执行轨迹、环境反馈和目标达成情况，识别出技能图谱中的“空白区域”，进而生成填补这些空白的候选技能。例如，在Craftax这类复杂环境中，系统可能发现“制作工具”这一高阶技能长期缺失，于是自动生成“冶炼金属”“打磨石斧”等子技能，并为其编写相应的奖励逻辑。

更关键的是，这些生成的技能不是孤立存在。它们被嵌入一个层级结构中，低层技能为高层目标提供支持，而高层目标又反过来指导低层技能的优化方向。这种双向反馈机制使得整个技能体系具备自我扩展与自我完善的能力。

长程任务的突破：从“会做”到“会规划”

实验结果揭示了CODE-SHARP的深远影响。在Craftax环境中，一个仅通过SHARP技能奖励训练的代理，能够解决越来越复杂的长程任务——从简单的资源采集，到多步骤的建造与生存挑战。尤其令人惊讶的是，当引入一个基于FM的高层规划器后，该代理展现出惊人的任务分解与策略组合能力。

它不再只是被动响应环境变化，而是主动制定多阶段计划。例如，面对“在夜间建造防火庇护所”这一目标，系统会自主调用“采集石材”“搭建地基”“安装照明”等一系列技能，并根据实时反馈动态调整执行顺序。这种能力使得其在复杂任务上的平均表现超越了预训练模型和任务专用专家策略超过134%。

这一成绩的意义远超数字本身。它表明，AI不再需要为每个新任务重新训练，而是可以通过已有技能的组合与演化，适应前所未有的挑战。这正是通用人工智能（AGI）路径上的核心特征：灵活、可扩展、自我驱动的学习能力。

行业启示：重新定义AI系统的“成长性”

CODE-SHARP的提出，标志着AI研发范式的一次重要跃迁。过去，我们关注的是如何让AI“更准确”“更快”“更鲁棒”；而现在，焦点转向如何让AI“更自主”“更适应”“更进化”。这种转变对产业应用具有深远影响。

在机器人领域，这意味着工厂中的机械臂不再需要为每条新产线重新编程，而是能通过观察与试错，自主掌握新操作；在游戏AI中，NPC可以发展出超出设计者预设的行为模式，创造更真实的交互体验；在科学研究中，AI助手可能自主发现新的实验流程或理论假设。

更重要的是，CODE-SHARP为“可解释性”提供了新思路。由于每个技能都以代码形式存在，其决策逻辑可被追溯、审查甚至修改。这为构建可信、可控的自主系统奠定了基础。

未来图景：通往开放式智能的阶梯

尽管CODE-SHARP仍处于研究阶段，但其架构已展现出强大的可扩展性。未来，随着基础模型能力的进一步提升，我们或许能看到AI系统不仅发现技能，还能发明新的“元技能”——比如“如何更高效地探索未知环境”或“如何向其他代理传授知识”。

当技能图谱足够庞大，层级足够丰富，AI或将具备真正的“好奇心驱动”学习机制：不是被动等待任务，而是主动提出问题、设定目标、验证假设。这不仅是技术的进步，更是对智能本质的一次深刻探索。

CODE-SHARP或许不是终极答案，但它无疑为我们指明了一条通往开放式智能的可行路径：让机器学会像生命一样，在环境中不断演化、适应、成长。