超越可见光：轻量适配器如何打通多光谱感知的‘任督二脉’

2026-05-04 · 0 次浏览 ·来源: AI导航站

视觉基础模型（VFMs）在RGB数据上的预训练已展现强大表征能力，但其在近红外（NIR）、短波红外（SWIR）和长波红外（LWIR）等多光谱成像领域的应用仍处探索阶段。这些波段提供互补感知能力，尤其在复杂环境中至关重要，却与以RGB为中心的预训练模型存在根本性领域鸿沟。为解决这一难题，研究者提出SpectraDINO——一个基于DINOv2架构的多光谱视觉基础模型，通过为每个光谱模态设计轻量级瓶颈适配器，在不破坏冻结RGB主干网络丰富表征的前提下，将模型能力拓展至可见光之外。该方法采用多阶段师生蒸馏协议，结合余弦蒸馏、对称对比损失、补丁级对齐及新颖的邻域结构保持损失，实现跨模态强对齐而不引发灾难性遗忘。实验表明，该模型在多种光谱基准测试中均达到最先进性能，验证其作为通用骨干网络在多光谱泛化方面的有效性。

当自动驾驶汽车在暴雨或浓雾中穿行，当无人机在夜间搜寻目标，人类凭借双眼依然能清晰辨识障碍物轮廓。然而，自然光中的可见光波段往往力有不逮，此时隐藏在光谱另一端的红外世界便成为关键补充——从穿透烟雾的近红外，到探测热源的短波与长波红外，不同波段如同多把钥匙，共同打开复杂环境下的感知之门。

从RGB到全光谱：VFMs面临的‘次元壁’挑战

近年来，大规模图像数据集上训练的视觉基础模型（Vision Foundation Models, VFMs）在语义理解、目标检测等任务中屡创佳绩。然而，这些模型几乎完全建立在可见光RGB数据之上。当我们将目光转向包含NIR、SWIR和LWIR的多光谱成像系统时，一个核心问题浮现：预训练好的RGB模型是否还能直接迁移？答案是否定的。

原因在于光谱间的本质差异。不同波段的光子能量、反射特性乃至物理传播规律各不相同，导致同一场景在不同光谱下呈现截然不同的纹理、亮度和语义线索。例如，植被在近红外具有高反射率，而在红光波段则吸收强烈；人体在LWIR中呈现显著热特征，但在可见光下可能完全融入背景。这种跨模态的‘表征错位’，使得直接在RGB预训练模型上微调多光谱输入，往往效果平平，甚至出现性能崩塌。

更棘手的是，多光谱数据集的规模和质量普遍远逊于RGB数据。构建高质量的大规模多光谱标注数据集成本高昂，且缺乏像ImageNet那样公认的基准，这进一步限制了传统端到端训练范式的发展空间。因此，如何高效利用现有RGB预训练知识，同时灵活适配新模态，成为推动多光谱AI应用落地的关键瓶颈。

SpectraDINO：冻结主干+轻量适配器的双轨策略

面对这一挑战，研究者提出了一种极具启发性的解决方案——SpectraDINO。其核心思想是：既然RGB主干网络已具备强大的语义抽象能力，我们为何要抛弃它？关键在于如何让这个‘老司机’学会驾驶‘新车’，即适应非可见光传感器。

具体而言，SpectraDINO基于DINOv2 ViT架构构建，但其创新点不在于修改主干网络，而是引入了一套精巧的轻量级适配器模块。这些适配器被设计成狭窄的瓶颈结构，并分别插入到ViT的各个Transformer层中。对于每个新增的光谱模态（如NIR或SWIR），都配备专属的适配器，确保模态间参数独立，避免相互干扰。更重要的是，原始RGB主干网络在整个训练过程中被严格冻结，这意味着其丰富的语义先验得以完整保留，不会被新任务冲淡或扭曲。

这种‘主干不动、分支进化’的设计哲学，既降低了计算开销，又有效防止了灾难性遗忘。新学到的多光谱知识不会覆盖原有的RGB理解能力，反而能在必要时协同工作。例如，在融合可见光与红外信息的场景中，RGB主干可提取颜色和纹理细节，而各模态专用适配器则可捕捉热辐射或材质特性，形成互补优势。

多阶段蒸馏：让‘老师’温柔引导‘学生’成长

为了教会这些轻量适配器如何正确处理多光谱信息，研究团队设计了一个分阶段的师生蒸馏框架。这里，DINOv2本身扮演‘老师’角色，其输出的高维表征被视为‘正确答案’。而由冻结主干+可调适配器构成的‘学生’模型则通过一系列精心设计的损失函数向其学习。

第一阶段采用余弦蒸馏，强制学生输出与学生自身输出的余弦相似度接近老师输出，确保整体表征方向一致。第二阶段引入对称对比损失，不仅要求正样本对（同一物体不同光谱）靠近，也强调负样本对（不同物体）远离，增强类内紧凑性和类间可分性。第三阶段实施补丁级对齐，关注局部区域的空间一致性，解决因光谱差异导致的几何形变问题。最后，一项新颖的‘邻域结构保持损失’被提出，旨在保护原始DINOv2中固有的拓扑关系——即使输入变了，学生也应维持老师所建立的内在数据结构，避免表征崩塌。

这种循序渐进的训练方式，类似于人类学习新语言时先模仿发音再理解语法，避免了粗暴的端到端优化可能带来的不稳定。实验证明，缺少任一阶段的组合，性能均有明显下降，凸显了各模块的协同价值。

超越RGB：在真实世界中检验多光谱潜力

为了验证SpectraDINO的通用性，研究者在多个公开多光谱数据集上进行了全面评估，涵盖目标检测和语义分割两大经典任务。测试覆盖了从城市街景到野外环境的多种应用场景，涉及NIR、SWIR、LWIR等不同光谱范围。

结果显示，SpectraDINO不仅在各自光谱模态上超越现有方法，更在融合策略上展现出强大适应性。无论是早期融合（concatenate）、晚期融合（late-fuse）还是中间特征交互，SpectraDINO均能稳定贡献增益，尤其在低光照或恶劣天气条件下，其性能提升更为显著。例如，在LWIR主导的场景中，它能有效区分车辆与行人热轮廓；而在NIR数据中，则能准确识别伪装目标。

尤为重要的是，SpectraDINO的成功并非依赖特定硬件或数据采集方式，其轻量化设计意味着可在嵌入式平台上部署，为边缘侧多光谱智能系统提供了可行路径。这也预示着，未来车载、安防、农业监测等领域或将迎来一波融合可见光与红外的智能化浪潮。

结语：迈向真正的全天候感知智能

SpectraDINO的意义远不止于技术突破。它揭示了一条务实而高效的迁移学习路径：尊重已有知识体系的价值，通过模块化扩展拥抱多样性。在AI落地越来越注重成本效益的当下，这种‘少改、精修’的策略或许比彻底重写更有效率。

当然，当前多光谱研究仍处于初级阶段，数据稀缺、标注困难、模态间标定误差等问题依然存在。未来方向包括开发更高效的数据合成方法、探索无监督或自监督预训练机制，以及设计更精细的跨模态注意力机制。但可以预见的是，随着SpectraDINO这类工作的积累，AI终将不再受限于‘看见’，而是真正学会‘看懂’世界在不同维度下的全貌。