信息学院人工智能与媒体计算实验室
研究成果被AI顶级期刊T-PAMI录用
信息学院人工智能与媒体计算实验室(AIMCLab)关于图像篡改检测的论文被国际期刊IEEETransactionsonPatternAnalysisandMachineIntelligence(T-PAMI)录用。T-PAMI是人工智能、计算机视觉、模式识别等多个领域的顶级期刊,也是计算机学科影响因子最高的刊物之一(年影响因子16.)。论文共同一作是来自AIMC实验室的两位硕士生董程博和陈欣茹。该论文由李锡荣副教授指导。
论文题目:
MVSS-Net:Multi-ViewMulti-ScaleSupervisedNetworksforImageManipulationDetection
论文作者:
董程博*,陈欣茹*,胡若涵,曹娟,李锡荣
通讯作者:
李锡荣
研究背景
飞速发展的图像处理技术使得人们可以轻易对数字图片的内容进行修改。部分篡改的逼真程度仅凭肉眼难以辨别,在对读者造成视觉误解的同时,也冲击着人们对数字媒体的信任。
因此,研究图像篡改检测(imagemanipulationdetection)对于数字媒体取证(digitalmediaforensics)和网络空间可信信息共享等具有重要意义。
当前数字图像可能面临各种未知类型的攻击。因此,图像篡改检测难以通过使用单一信息源的单一方法来解决。图像在社交媒体传播过程中伴随的各种后处理操作(如尺寸缩放、JPEG压缩、截屏等)也不可避免地弱化了篡改痕迹,使得检测难度进一步增加。
与此同时,在真实世界场景中,被篡改的图像(阳性样本)相对真实图像(阴性样本)而言比例较少。因此,一个好的图像篡改检测方法需要同时兼顾检测的灵敏度(减少阳性样本的漏报)和特异度(减少阴性样本的误报)。
现有工作主要考虑灵敏度,且其评测方案未纳入阴性测试样本。因此,现有图像篡改方法对于真实世界场景的适用性存在较大疑问。
解决方案
针对图像篡改检测任务,本工作提出了一种新的基于多视角(multi-view)、多尺度(multi-scale)监督的图像篡改检测深度神经网络:MVSS-Net。
为了兼顾模型在篡改图像检测上的灵敏度和在真实图像上的特异度,MVSS-Net一方面采用多视角特征学习提取语义无关的篡改边界特征和噪声分布特征,以提高模型的泛化性;另一方面采用多尺度监督对像素位分割、边界预测和图像级分类进行约束,使模型得以在训练过程中引入真实图片,减少虚警(falsealarm)。
本文提出的MVSS-Net及改进的MVSS-Net++在跨数据集评测中取得了SOTA效果,并且对JPEG压缩、高斯模糊和截屏等常见后处理操作有更好的鲁棒性。
本文是课题组ICCV论文(ImageManipulationDetectionbyMulti-ViewMulti-ScaleSupervision)的期刊扩展版。相比会议版本,本文受格式塔理论启发,设计了一种名为卷积广义平均池化(ConvGem)的新模块,有效解决了之前通过MaxPooling操作将像素级预测转换为图像级预测时存在的若干技术缺陷,使得模型综合性能得到进一步提升。
论文信息
ChengboDong,XinruChen,RuohanHu,JuanCao,XirongLi.MVSS-Net:Multi-ViewMulti-ScaleSupervisedNetworksforImageManipulationDetection.IEEETransactionsonPatternAnalysisandMachineIntelligence(T-PAMI),,