

Visual Intelligence
第3卷第3期在线出版
Visual Intelligence是由中国图象图形学学会主办、Springer出版社出版的国际学术期刊,以开放获取(OA)的形式出版,不收取作者任何稿件处理费用。
期刊于2023年创刊,主编是中国图象图形学学会理事长,中国工程院王耀南院士。期刊致力于推动“视觉”与“智能”的有机结合与协同发展,主要发表视觉智能领域具有国际先进水平的新理论、新思想、新技术等的研究成果和技术进展,为促进视觉智能技术的高质量发展和学术交流服务。期刊入选2022中国科技期刊卓越行动计划高起点新刊,是《图像图形领域高质量科技期刊分级目录》T1级期刊,现已被EI、Scopus、DOAJ、DBLP、Japanese Science and Technology Agency (JST)、eLibrary.ru、EBSCO、Google Scholar、CNKI、Wanfang等国内外重要数据库收录。欢迎投稿!
内 容 概 览
本期共发表1篇综述论文(Review)、7篇研究性论文(Research Article)。
Review
图像重建综述
A Contemporary Survey on Image Reconstruction with Unsupervised Deep Learning: From Denoising to Generation
作者:上海交通大学戴文睿、熊红凯等
引用本文: Duoduo Xue, Wenrui Dai, Ziyang Zheng, Junni Zou, & Hongkai Xiong (2025). A contemporary survey on image reconstruction with unsupervised deep learning: from denoising to generation. Visual Intelligence 3, Article no. 21.
https://link.springer.com/article/10.1007/s44267-025-00092-z
本文简介:本文系统梳理了近十年来基于无监督深度学习的图像重建领域研究进展。基于无监督深度学习的图像重建方法既继承了传统解析方法理论收敛性保证的优势,又展现出基于深度学习方法的优秀重建性能。本文从去噪器出发,基于得分函数有效统一了该领域从去噪到生成的演进历程。文章重点分析了从去噪器先验到扩散模型生成先验的核心思想演进趋势,并展望了信号处理与机器学习交叉领域在图像重建中面临的挑战与未来方向。

Research Article
立体深度估计
URNet: Uncertainty-aware Refinement Network for Event-based Stereo Depth Estimation
作者:慕尼黑工业大学Hu Cao、Alois Knoll院士等
引用本文: Cheng, Y., Knoll, A. & Cao, H. URNet: uncertainty-aware refinement network for event-based stereo depth estimation. Visual Intelligence 3, Article no. 18.
https://link.springer.com/article/10.1007/s44267-025-00090-1
本文简介:本研究针对事件相机立体深度估计中易受噪声与动态场景影响的问题,提出了首个不确定性感知的精调网络URNet。通过建模不确定性,模型能在保持高预测精度的同时提供可信度估计。URNet融合了局部与全局特征精调机制,显著提升算法在稀疏与高动态场景下的特征表征能力。

多模态图像融合
RefineFuse: An End-to-end Network for Multi-scale Refinement Fusion of Multi-modality Images
作者:江南大学吴小俊、萨里大学Josef Kittler院士等
引用本文:Chengcheng Song, Hui Li, Tianyang Xu, Xiao-Jun Wu & Josef Kittler (2025). RefineFuse: an end-to-end network for multi-scale refinement fusion of multi-modality images. Visual Intelligence 3, Article no. 16.
https://link.springer.com/article/10.1007/s44267-025-00087-w
本文简介:本研究提出了一种多模态图像融合方法——RefineFuse。该方法的核心思想是平衡并充分利用局部细节特征与全局语义信息。在像素域与语义域中,本文设计了针对性的模块以建模跨模态特征耦合:一方面,引入双注意力特征交互模块,在浅层特征提取阶段有效整合两种模态的细节信息;另一方面,在深层特征建模阶段,通过交叉注意力机制实现跨模态语义信息交互。

光-SAR多源多分辨率多场景数据集
3MOS: A Multi-source, Multi-resolution, and Multi-scene Optical-SAR Dataset with Insights for Multi-modal Image Matching
作者:国防科技大学李璋等
引用本文: Yibin Ye, Xichao Teng, Hongrui Yang, Shuo Chen, Yuli Sun, Yijie Bian, Tao Tan, Zhang Li, & Qifeng Yu. 3MOS: a multi-source, multi-resolution, and multi-scene optical-SAR dataset with insights for multi-modal image matching. Visual Intelligence 3, Article no. 19.
https://link.springer.com/article/10.1007/s44267-025-00091-0
本文简介:本文构建首个多源多分辨率多场景可见光-SAR匹配基准数据集3MOS数据集。该数据集包含来自5种卫星传感器的11.3万对可见光-SAR图像对,分辨率覆盖3.5米至12.5米范围,并根据下游应用需求划分为8类场景,解决了现有数据集来源单一、场景混合的关键问题。本文系统评估了现有多模态图像匹配方法的跨域泛化能力,深入分析了训练数据分布对多模态图像匹配模型泛化性能的影响。

图像去雾方法
DehazeMamba: Large Multimodal Model Guided Single Image Dehazing via Mamba
作者:北京理工大学潘利源等
引用本文: Ruikun Zhang, Zhiyuan Yang & Liyuan Pan (2025). DehazeMamba: large multi-modal model guided single image dehazing via Mamba. Visual Intelligence 3, Article no. 11.
https://link.springer.com/article/10.1007/s44267-025-00083-0
本文简介:本文提出了一种由大型多模态模型(LMM)引导的、基于Mamba的图像去雾方法DehazeMamba。同时,本研究引入了一个具有挑战性的图像去雾数据集EDHaze,并基于LMM在真实场景去雾数据集上开展了新的基准研究,通过模拟人类感知来评估含雾图像与去雾结果的质量。

图像去模糊方法
DBDB: De-Bimodal Defocus Blur in Joint Infrared-Visible Imaging
作者:北京理工大学张睿恒等
引用本文:Zhe Cao, Lixin Xu, Jin Zhang, Biwen Yang, Kaizheng Chen & Ruiheng Zhang. DBDB: de-bimodal defocus blur in joint infrared-visible imaging. Visual Intelligence 3, Article no. 7.
https://link.springer.com/article/10.1007/s44267-025-00077-y
本文简介:本文首次提出针对红外-可见光双模成像中的“双模离焦模糊”(BDB)问题的解决方案。针对由此引发的单模信息不完整和跨模信息交互困难两大挑战,本研究提出了首个去双模离焦模糊方法 DBDB。方法包含低频语义保持模块(LSH)和跨模互补特征诱导模块(CCFI),在合成数据集上实现SOTA去模糊效果,并显著提升RGBT显著目标检测与语义分割等下游任务性能。

医学图像分割
PS-Net: High-Frequency Attention and Bayesian Analysis Based Facial Pore Segmentation with No Human Annotation
作者:华东师范大学王妍、南洋理工大学Alex Kot院士等
引用本文:Qing Zhang, Ling Li, Rizhao Cai, Qingli Li, Bandara Dissanayake, Yan Wang and Alex Kot. PS-Net: high-frequency attention and Bayesian analysis based facial pore segmentation with no human annotation. Visual Intelligence 3, Article no. 20.
https://link.springer.com/article/10.1007/s44267-025-00088-9
本文简介:本文针对毛孔尺寸小、边界模糊、分布密集且难以获得精准的人工标注等问题,提出了无须人工标注的面部毛孔弱监督分割模型PS-Net。首先利用传统的DoG方法生成粗标签,然后通过渐进更新的伪标签实现精细分割。设计了高频注意力模块强化低层特征中的细节信息,引入贝叶斯模块识别高层特征中的形状信息,可以精准分割面部毛孔,为模拟产品使用后的毛孔状况和产品推荐提供了可靠证据。

多模态深度伪造检测
CLFormer: A Cross-Lingual Transformer Framework for Temporal Forgery Localization
作者:中国传媒大学叶龙等
引用本文: Haonan Cheng, Hanyue Liu, Juanjuan Cai & Long Ye (2025). CLFormer: a cross-lingual transformer framework for temporal forgery localization. Visual Intelligence 3, Article no. 13.
https://link.springer.com/article/10.1007/s44267-025-00084-z
本文简介:本文提出了一种跨语言Transformer框架CLFormer,该框架以音频特征为核心,结合多语言预训练模型Wav2Vec2,有效提升了跨语言泛化能力,同时融合视觉特征进一步优化伪造定位效果。为提升定位精度,CLFormer还引入了边界细化模块。在LAV-DF、CHAV-DF和AV-Deepfake1M三个数据集上的实验表明,CLFormer在同语言和跨语言设置中均取得了优异表现。
