当异常不再固定：中传团队用自然语言重新定义视频智能监控的未来

2026-02-13 · 1 次浏览 ·来源: AI导航站

视频异常检测长期受限于静态标签体系，无法应对现实世界中异常定义随场景、时间、需求动态变化的本质。中国传媒大学吴晓雨教授团队在ICLR 2026提出LaGoVAD模型，首次将自然语言定义的异常标准引入训练过程，实现‘视频+定义→异常标签’的联合建模。通过构建超3.5万条高质量标注数据与多模态正则化策略，该模型在7个跨域数据集上实现零样本泛化突破，尤其在XD-Violence上性能提升达20%。这项研究不仅挑战了传统VAD范式，更指向一个由用户意图驱动的智能监控新时代。

在加油站吸烟是危险行为，但在指定吸烟区却被允许；流感季不戴口罩可能被视为异常，而平时却无人在意——这些看似矛盾的现象揭示了一个被长期忽视的真相：异常并非事件的固有属性，而是由上下文动态塑造的判断。视频异常检测（VAD）技术若继续沿用“训练集即真理”的封闭逻辑，终将在真实世界的复杂需求面前失效。

从静态标签到动态定义：一场范式转移的必然

传统VAD方法将异常视为视频内容的固定属性，训练阶段学习的是“视频→异常标签”的映射关系。这种范式隐含一个致命假设：异常类别在训练与测试阶段保持一致。然而现实世界中，用户在不同场景下对“何为异常”的判断标准截然不同。例如，奔跑在图书馆是扰乱秩序，在操场则是正常活动。现有模型一旦将奔跑标注为“正常”，便无法在测试时灵活调整，导致条件概率P(Y|V)与真实环境脱节。

中国传媒大学吴晓雨教授团队敏锐捕捉到这一根本矛盾，提出“异常性由视频本身与异常定义共同决定”的核心假设。他们不再将异常视为静态标签，而是将其重构为一种依赖于用户意图的动态判断。这一思路的突破在于，将自然语言定义Z作为模型输入的一部分，使系统能够根据用户指定的规则实时调整异常判定逻辑。

LaGoVAD：用语言引导的开放世界检测框架

为实现这一构想，团队提出LaGoVAD模型，引入文本支路接收用户通过自然语言定义的异常标准。训练过程中，模型不再只学习视频特征，而是同时建模视频V、定义Z与标签Y之间的联合分布P(V,Z,Y)。这意味着同一个视频片段，在不同语言定义下可能被判定为正常或异常——这正是开放世界智能监控所亟需的灵活性。

然而，新范式带来新挑战：多模态空间复杂度上升，而VAD领域本就面临数据稀缺与标签粗糙的问题。样本密度下降极易导致模型过拟合。为此，团队从模型与数据双管齐下。在模型层面，采用困难负样本挖掘技术，从弱标签数据中精准识别与异常片段高度相似的正常帧，强化边界判别能力；同时利用语义向量检索动态合成带有时序伪标签的长视频，缓解模型对异常持续时间的偏见。

在数据层面，团队构建了一个迄今规模最大的预训练视频异常数据集PreVAD，涵盖3.5万条视频，每条均配有细粒度类别标签与异常文本描述。这一数据集不仅支撑LaGoVAD的训练，也为后续研究提供了重要基础设施。

超越大模型的泛化能力：零样本测试下的全面领先

评估环节的设计充分体现了研究的严谨性。团队在7个涵盖暴力、交通、行人异常等多元场景的数据集上进行跨域测试，并设计两种协议：一是零样本泛化评估，二是针对动态定义适应性的专项测试。结果显示，LaGoVAD在所有数据集上均达到最优性能，尤其在XD-Violence上较此前最佳方法提升20%。更关键的是，在面对Qwen系列多模态大模型或LAVAD等免训练方法时，LaGoVAD依然展现出更强的动态适应能力。

一个典型例子是“狗打翻垃圾桶”事件。当用户明确要求将其视为异常时，传统模型因缺乏定义引导机制，仍给出低异常分数；而LaGoVAD能迅速响应语言指令，准确识别该行为为异常。这种对用户意图的即时响应，标志着VAD从“机器判断”向“人机协同决策”的演进。

从技术突破到产业启示：智能监控的下一站

LaGoVAD的意义远超模型性能提升。它首次将“异常定义”显式建模为可学习变量，打破了VAD领域长期存在的认知桎梏。在智慧交通、公共安全、内容审核等场景中，系统不再需要为每种异常行为重新训练模型，用户只需通过自然语言指定关注点，即可实现个性化监控。例如，商场安保可临时定义“聚集喧哗”为异常，而医院则可聚焦“跌倒”或“长时间滞留”。

这一范式也为多模态AI的发展提供了新思路：当视觉理解与语言指令深度融合，机器才能真正理解人类意图的上下文依赖性。未来，随着大语言模型与视觉表征的进一步对齐，我们或将看到更多“定义即控制”的智能系统涌现——它们不再固执于预设规则，而是像人类一样，在对话中不断校准对“异常”的理解。

目前，代码与数据集已全面开源，为学术界与工业界搭建起通往开放世界异常检测的桥梁。这场由语言驱动的智能革命，才刚刚开始。