近期,北京理工大学信息与电子学院硕士生翁德圣、李伟教授、博士生高晨钟与美国特拉华大学夏香根教授等人共同合作,提出了一种基于级联式动态数据生成的跨模态图像通用匹配技术,研究成果论文《DGIM: Cascaded Dynamic Data Generation for Robust Cross-Modal Image Matching》发表于遥感领域顶级期刊[IEEE Transactions on Geoscience and Remote Sensing,TGRS] (SCI一区,IF=8.6)。
不同模态间物理成像机制与视觉表征的差异,导致跨模态图像存在显著的外观的与结构差异,使得大多数现有匹配方法难以稳定提取对应特征。为应对图像匹配任务中因模态差异过大而带来的挑战,本文提出了一种级联学习框架,该框架通过动态数据引擎引导端到端匹配模型的优化,能够提供充足的跨模态训练数据,支持模型对跨模态特征的充分适应。数据引擎集成了随机单应变换模块和轻量级图像生成模型,可在线合成具有几何变化和多样风格的跨模态图像对,从而为匹配模型提供丰富的跨模态刺激。

图1 DGIM整体框架图
匹配模型采用结合 CNN 主干网络与 Transformer 注意力机制的混合架构,将多尺度局部特征提取与全局上下文建模有机融合。通过采用所提出的逐步聚合策略,有效保证了特征提取的效率。随后,模型利用由粗到细的匹配策略,实现了高精度与高鲁棒性的特征对齐。


图2 自建跨模态影像数据集
在自建与公开的跨模态图像匹配数据集上的综合实验表明,所提出的 DGIM 在跨模态匹配性能上优于现有的最新方法,同时在效率与效果之间取得了良好的平衡。此外,该方法在多个领域和场景中展现出广泛的应用潜力。本文为跨模态图像匹配任务提供了新的解决方案和评价基准。

图3 所提方法的跨模态图像匹配通用性表现