当异常不再固定:中传团队用自然语言重新定义视频智能监控的未来

· 1 次浏览 ·来源: AI导航站
视频异常检测长期受限于静态标签体系,无法应对现实世界中异常定义随场景、时间、需求动态变化的本质。中国传媒大学吴晓雨教授团队在ICLR 2026提出LaGoVAD模型,首次将自然语言定义的异常标准引入训练过程,实现‘视频+定义→异常标签’的联合建模。通过构建超3.5万条高质量标注数据与多模态正则化策略,该模型在7个跨域数据集上实现零样本泛化突破,尤其在XD-Violence上性能提升达20%。这项研究不仅挑战了传统VAD范式,更指向一个由用户意图驱动的智能监控新时代。

在加油站吸烟是危险行为,但在指定吸烟区却被允许;流感季不戴口罩可能被视为异常,而平时却无人在意——这些看似矛盾的现象揭示了一个被长期忽视的真相:异常并非事件的固有属性,而是由上下文动态塑造的判断。视频异常检测(VAD)技术若继续沿用“训练集即真理”的封闭逻辑,终将在真实世界的复杂需求面前失效。

从静态标签到动态定义:一场范式转移的必然

传统VAD方法将异常视为视频内容的固定属性,训练阶段学习的是“视频→异常标签”的映射关系。这种范式隐含一个致命假设:异常类别在训练与测试阶段保持一致。然而现实世界中,用户在不同场景下对“何为异常”的判断标准截然不同。例如,奔跑在图书馆是扰乱秩序,在操场则是正常活动。现有模型一旦将奔跑标注为“正常”,便无法在测试时灵活调整,导致条件概率P(Y|V)与真实环境脱节。

中国传媒大学吴晓雨教授团队敏锐捕捉到这一根本矛盾,提出“异常性由视频本身与异常定义共同决定”的核心假设。他们不再将异常视为静态标签,而是将其重构为一种依赖于用户意图的动态判断。这一思路的突破在于,将自然语言定义Z作为模型输入的一部分,使系统能够根据用户指定的规则实时调整异常判定逻辑。

LaGoVAD:用语言引导的开放世界检测框架

为实现这一构想,团队提出LaGoVAD模型,引入文本支路接收用户通过自然语言定义的异常标准。训练过程中,模型不再只学习视频特征,而是同时建模视频V、定义Z与标签Y之间的联合分布P(V,Z,Y)。这意味着同一个视频片段,在不同语言定义下可能被判定为正常或异常——这正是开放世界智能监控所亟需的灵活性。

然而,新范式带来新挑战:多模态空间复杂度上升,而VAD领域本就面临数据稀缺与标签粗糙的问题。样本密度下降极易导致模型过拟合。为此,团队从模型与数据双管齐下。在模型层面,采用困难负样本挖掘技术,从弱标签数据中精准识别与异常片段高度相似的正常帧,强化边界判别能力;同时利用语义向量检索动态合成带有时序伪标签的长视频,缓解模型对异常持续时间的偏见。

在数据层面,团队构建了一个迄今规模最大的预训练视频异常数据集PreVAD,涵盖3.5万条视频,每条均配有细粒度类别标签与异常文本描述。这一数据集不仅支撑LaGoVAD的训练,也为后续研究提供了重要基础设施。

超越大模型的泛化能力:零样本测试下的全面领先

评估环节的设计充分体现了研究的严谨性。团队在7个涵盖暴力、交通、行人异常等多元场景的数据集上进行跨域测试,并设计两种协议:一是零样本泛化评估,二是针对动态定义适应性的专项测试。结果显示,LaGoVAD在所有数据集上均达到最优性能,尤其在XD-Violence上较此前最佳方法提升20%。更关键的是,在面对Qwen系列多模态大模型或LAVAD等免训练方法时,LaGoVAD依然展现出更强的动态适应能力。

一个典型例子是“狗打翻垃圾桶”事件。当用户明确要求将其视为异常时,传统模型因缺乏定义引导机制,仍给出低异常分数;而LaGoVAD能迅速响应语言指令,准确识别该行为为异常。这种对用户意图的即时响应,标志着VAD从“机器判断”向“人机协同决策”的演进。

从技术突破到产业启示:智能监控的下一站

LaGoVAD的意义远超模型性能提升。它首次将“异常定义”显式建模为可学习变量,打破了VAD领域长期存在的认知桎梏。在智慧交通、公共安全、内容审核等场景中,系统不再需要为每种异常行为重新训练模型,用户只需通过自然语言指定关注点,即可实现个性化监控。例如,商场安保可临时定义“聚集喧哗”为异常,而医院则可聚焦“跌倒”或“长时间滞留”。

这一范式也为多模态AI的发展提供了新思路:当视觉理解与语言指令深度融合,机器才能真正理解人类意图的上下文依赖性。未来,随着大语言模型与视觉表征的进一步对齐,我们或将看到更多“定义即控制”的智能系统涌现——它们不再固执于预设规则,而是像人类一样,在对话中不断校准对“异常”的理解。

目前,代码与数据集已全面开源,为学术界与工业界搭建起通往开放世界异常检测的桥梁。这场由语言驱动的智能革命,才刚刚开始。