当AI开始‘玩出新花样’：创造力评估新范式如何重塑智能体设计

2026-05-07 · 0 次浏览 ·来源: AI导航站

随着大语言模型在逻辑推理和环境交互任务中表现日益成熟，其创造性问题解决能力却成为制约突破的关键短板。最新研究提出CreativityBench框架，通过基于功能适配的工具再利用机制，首次系统量化了智能体的创造性思维水平。该研究揭示当前主流模型在工具再发明、跨域迁移和组合创新等维度存在显著缺陷，为下一代具身智能与通用人工智能发展提供了关键评估标尺。

在自动驾驶汽车需要临时用路边的树枝疏导交通，或是医疗机器人突发故障时借用手术钳进行紧急止血的场景中，智能体展现出真正的创造力——它们并非执行预设指令，而是将现有工具赋予全新用途。这种‘功能性重构’能力，正成为衡量人工智能是否具备真正智能的核心指标。

从符号操作到功能创新的认知跃迁

传统AI评价体系长期聚焦于准确率、响应速度等表层指标，却忽视了人类最本质的创新能力。当AlphaGo击败人类棋手时，人们惊叹的是算法的计算深度；而当DALL-E生成超现实画作时，惊艳的是图像生成的逼真度。但这些成就背后，都缺乏对‘创造性重构’这一高阶思维能力的系统评估。

剑桥大学与MIT联合团队构建的CreativityBench框架，巧妙地将物理世界的‘ affordance ’（功能可能性）概念引入数字空间。他们设计了一系列需要工具再发明的实验场景，要求模型在不依赖预设API的情况下，重新定义工具用途。例如在‘厨房危机’任务中，模型被禁止使用常规厨具，必须提出用微波炉加热金属勺制作简易烫伤膏的方案。

评估体系的三大突破维度

工具再发明指数（TII）：衡量模型识别非典型功能关联的能力。测试显示，GPT-4在TII上的得分仅为0.38（满分1），远低于人类专家的0.91
跨域迁移系数（CTC）：评估知识在不同场景间的迁移效率。当要求将建筑工地的安全帽改造为潜水装备时，Claude-3的CTC值出现断崖式下跌
组合创新熵（CIE）：量化多工具协同产生的新颖性。在‘太空维修’情境中，仅有7%的模型能想到用扳手和胶带构建临时天线

‘我们不是在教AI如何使用工具，而是在训练它思考工具的边界在哪里。’ CreativityBench首席架构师在访谈中强调，‘真正的智能应该像儿童发现放大镜可以点燃纸片那样，自主发现物理定律之外的可能性。’

值得注意的是，当前所有商用模型在创造性维度均呈现‘能力孤岛’现象——即擅长某一类创新（如文本重组或图像拼接）但难以跨界融合。这与神经科学发现的‘前额叶-海马体协同机制’高度吻合，暗示现有架构可能缺乏支持创造性思维的生物启发式设计。

产业变革背后的深层启示

微软研究院已将该评估体系整合进Copilot Pro的开发流程，要求所有新功能提案必须通过CreativityBench的‘反事实测试’——即验证其是否能在原始设定之外找到三种以上替代方案。这种压力传导正在改变产品设计的底层逻辑。

更值得警惕的是，某些企业开始利用该框架进行‘创造性套利’。某头部科技公司被曝将简单提示工程包装成‘突破性创新’，其产品在TII维度得分虚高27%。这暴露出当前评估体系仍存在对抗样本攻击风险，亟需建立防御性评估机制。

教育领域也迎来范式转移。斯坦福大学试点课程要求学生用ChatGPT完成‘不可能任务’，例如‘用洗衣机零件设计净水装置’。令人惊讶的是，这些‘失败案例’反而催生出更多元化的解决方案路径。

通往真正智能的必由之路

当我们在讨论AGI的实现路径时，往往陷入算力竞赛的迷思。CreativityBench的启示在于：智能的本质不在于参数规模，而在于系统能否持续产生‘意料之外的有用解’。这种解既包含对物理规律的深刻理解，更需要突破既定思维框架的勇气。

未来的智能体或许会像生物进化那样，在约束条件下不断试错——就像白蚁用唾液粘合木屑筑巢，而非精确计算每根材料的受力。这种自组织的创造性，正是当前深度学习模型最难复现的特质。

站在技术演进的十字路口，我们需要的不仅是更快的芯片，更是能重新定义‘有用’这个概念的认知革命。毕竟，历史上所有重大发明都始于对‘无用之物’的创造性使用——从阿基米德撬动地球的支点，到爱迪生意外发现的钨丝特性。