圆锥分离网络：破解图像检索中的噪音记忆难题

2026-04-22 · 0 次浏览 ·来源: AI导航站

本文针对组合图像检索任务中因昂贵且易出错的三元组标注引入的噪音对应问题，深入分析了现有噪声学习方法的局限性。研究发现'硬噪音'——即参考图像与目标图像高度相似但修改文本错误的情况，会打破传统的小损失假设，构成独特挑战。为此，作者提出ConeSep网络，通过几何保真度量化定位噪音边界，采用负边界学习构建显式语义反锚点，并设计基于边界的目标遗忘机制，将噪音修正建模为最优传输问题以避免遗忘回弹。在FashionIQ和CIRR基准数据集上的实验表明，该方法显著优于当前最先进方法，充分证明了其有效性和鲁棒性。

在智能视觉搜索领域，组合图像检索（Composed Image Retrieval, CIR）正成为连接用户意图与海量图像数据库的关键桥梁。它允许用户通过一张参考图和一段自然语言描述来精准查找目标图像，极大提升了检索的灵活性与准确性。然而，这一前沿任务的训练数据依赖昂贵的‘参考-修改-目标’三元组标注，这些标注极易受到人为误差影响，从而在模型训练中引入了严重的噪声对应（Noisy Triplet Correspondence, NTC）问题。

从理论到实践的噪音困境

现有噪声对应学习（Noise Correspondence Learning, NCL）方法普遍基于一个核心假设——小损失假设，即模型对干净样本和噪声样本的预测损失差异很小。但在NTC任务中，这种假设往往被打破，尤其是当‘硬噪音’出现时，即参考图与目标图本就极为相似，仅因修改文本错误而被错误标注。这使得模型难以区分真正的语义变化与标注噪声，导致学习过程陷入混乱。

深入分析，作者揭示了该领域三个被忽视的关键挑战：首先，模态抑制（Modality Suppression）现象严重，即文本信息在跨模态融合过程中被过度压缩；其次，负样本不足（Negative Anchor Deficiency），模型缺乏有效的语义对立样本进行对比学习；最后，遗忘回弹（Unlearning Backlash）问题突出，即在试图‘忘记’噪声样本时，可能连带抹去模型已学到的正确知识。

ConeSep：三维空间中的噪音解构

为解决上述难题，研究团队提出了名为ConeSep的圆锥基鲁棒噪音遗忘组合网络。其创新思路在于将复杂的噪音修正过程，映射到一个清晰的几何空间中。

第一步是几何保真度量化（Geometric Fidelity Quantization），该方法从理论上建立了噪音边界，并实际估计出这个边界，从而实现对噪音对应样本的精准定位。这就像是在三维空间中画出一个清晰的‘噪音区域’，让模型能明确识别哪些数据是需要被处理的异常点。

第二步是负边界学习（Negative Boundary Learning），它为每个查询图像学习了一个‘对角线负组合’，作为其在嵌入空间中的显式语义反锚点。这相当于为每个概念提供了一个清晰的‘反面’参照物，极大地缓解了负样本不足的问题，使对比学习更加高效。

第三步是边界靶向遗忘（Boundary-based Targeted Unlearning），这是整个方法的核心亮点。它将噪音修正过程巧妙地建模为一个最优传输问题，通过计算样本间的最小代价路径来实现精准的‘删除’。这种方法不仅有效剔除了噪声，还通过数学上的优化避免了传统遗忘方法可能带来的‘遗忘回弹’副作用，确保了模型核心知识的稳定性。

超越极限的性能验证

通过在FashionIQ和CIRR两个主流基准数据集上的全面实验，ConeSep的表现令人瞩目。它不仅大幅超越了所有现有的先进方法，更重要的是，它在面对不同类型和强度的噪音时都表现出了卓越的鲁棒性。这表明，该方法所建立的几何化噪音处理框架，为组合图像检索任务提供了一种全新的、更具普适性的解决方案。

这项研究的价值不仅在于提出了一个新的高性能模型，更在于它系统地剖析了NTC问题的内在机理，并为解决跨模态学习中的噪音问题指明了新的方向。通过将复杂的语义修正转化为直观的几何操作，ConeSep为构建更可靠、更智能的视觉搜索系统奠定了坚实的基础。