智能体搜索行为首次被大规模“解剖”：CMU开源1400万条真实日志揭示AI如何“思考式”检索

2026-02-09 · 0 次浏览 ·来源: AI导航站

长期以来，AI驱动的智能体搜索（Agentic Search）虽在实际应用中日益普及，但其内部行为逻辑——如多轮查询如何展开、检索信息是否真正被利用——始终缺乏系统性观察。卡内基梅隆大学（CMU）团队基于其可重复检索平台DeepResearchGym，从半年真实流量中整理出超过1400万条搜索请求、约400万个会话，构建了首个开源的Agentic Search行为日志数据集。研究首次提出“会话意图—轨迹动作—信息采纳率”三层分析框架，揭示了智能体普遍存在的下钻偏好、事实任务中的重试循环，以及不同改写策略对历史信息的依赖差异。这项工作不仅填补了真实场景中AI搜索行为研究的空白，更为未来智能体的训练与系统设计提供了可量化的行为信号与可复现的数据基础。

当AI不再只是被动回答问题，而是主动发起多轮检索、阅读文档、改写查询并生成综合结论时，我们正进入一个由“智能体”主导的信息获取新时代。然而，尽管这类Agentic Search系统在Deep Research、自动报告生成等场景中表现亮眼，其背后的行为机制却长期处于“黑箱”状态——人们知道它“做了什么”，却不清楚它“怎么做的”。

真实世界中的AI搜索：从性能评测到行为观察的范式转移

现有的大多数评估体系仍停留在对最终答案准确性的打分上，依赖人工构造的基准题目，忽视了智能体在真实交互中的动态决策过程。一个关键问题是：在多轮搜索中，AI是否真正理解并利用了已检索到的信息？它如何决定下一步该问什么？这些问题的答案，直接影响着系统的效率、可信度与用户体验。

CMU团队的研究正是对此空白的直接回应。他们基于DeepResearchGym平台——一个为研究设计的统一检索后端，挂载在ClueWeb22、FineWeb等固定语料快照上——收集并清洗了来自全球25个国家、近600个IP地址的半年真实请求日志。最终发布的1400万条请求、400万个会话，构成了迄今为止最大规模、最贴近实际使用的Agentic Search行为数据集。

会话切分：破解AI高频迭代的“时间谜题”

与传统人类搜索日志不同，智能体的请求往往以秒级间隔连续发出，且可能并发多个会话。简单依赖时间阈值（如30分钟无活动即断开会话）极易造成误判。为此，研究团队设计了一种“语义+时间”联合的会话切分策略：先用LLM标注相邻请求是否属于同一会话，训练连续性判别模型，再在线计算新查询与活跃会话末尾查询的语义相似度与时间差，动态决定并入或新建会话。这一方法有效捕捉了AI“高频、小步迭代”的典型行为特征。

三层框架：解码智能体的“搜索思维”

研究的核心贡献在于提出了一个结构化的分析框架，从两个层面解构搜索行为：

会话意图（Session Intent）：将任务划分为三类——陈述型（Declarative，如“什么是量子纠缠”）、过程型（Procedural，如“如何配置Kubernetes集群”）和推理型（Reasoning，如“比较Transformer与RNN的优劣”）。分析发现，不同意图下的搜索路径差异显著。
轨迹动作（Trajectory Move）：定义了四种相邻查询间的改写模式——专化（ narrowing scope）、泛化（broadening）、探索（shifting topic）和重复（rephrasing）。数据显示，智能体在事实型任务中频繁出现“重试循环”，而在复杂推理任务中更倾向于逐步下钻。
检索信息采纳率（CTAR）：首创指标衡量后续查询是否真正引入前序检索文档中的关键词。结果表明，专化与探索类动作的CTAR显著高于重复，说明智能体并非机械改写，而是有选择地吸收外部信息。

行业启示：从“能不能答对”到“会不会搜索”

这项研究最大的价值，在于将评估焦点从“结果正确性”转向“过程合理性”。过去我们训练智能体关注“生成答案”，而未来必须重视“搜索策略”本身。例如，频繁重试可能暴露模型对不确定性的处理缺陷；低CTAR则暗示信息整合能力不足。这些行为信号，为模型优化、工具调用设计乃至用户提示工程提供了全新维度。

更进一步看，该数据集的开源意味着研究者终于可以在真实流量基础上复现、对比不同Agent架构的搜索效率与鲁棒性。无论是提升检索预算分配、优化查询改写策略，还是构建更智能的会话记忆机制，都有了坚实的数据支撑。

未来展望：行为建模将成为Agent训练的新 frontier

随着Agentic Search从实验走向规模化应用，对其行为的精细化建模将成为核心竞争力。CMU的工作不仅提供了“显微镜”，更指明了方向：未来的智能体训练不应仅依赖最终答案的监督信号，而应引入轨迹层面的强化学习奖励，比如对高CTAR路径给予正向反馈。同时，系统设计者也需考虑如何向用户透明化展示搜索路径，增强可解释性与信任感。

当AI开始像人类专家一样“思考式”检索，我们终于有机会看清它思维的脉络。而这，或许才是通往真正智能的关键一步。