学术动态

2022年论文导读第十二期

2022年论文导读第十二期（总第五十二期）

CCF TCMT CCF多媒体专委会 2022-6-14

关键词：RGB-D图像显著性检测，无监督图像恢复，图像去雾，自适应压缩感知方法，关节物体的姿态估计，遥感图像融合，视频片段检索任务

Learning Discriminative Cross-modality Features for RGB-D Saliency Detection Dual Prior Learning for Blind and Blended Image Restoration Self-Guided Image Dehazing Using Progressive Feature Fusion Adaptive Rate Block Compressive Sensing Based on Statistical Characteristics Estimation Towards Real-World Category-level Articulation Pose Estimation A Unified Pansharpening Model Based on Band-Adaptive Gradient and Detail Correction Video Moment Retrieval with Cross-Modal Neural Architecture Search

Learning Discriminative Cross-modality Features for RGB-D Saliency Detection

作者：王凤云1，潘金山1，徐守坤2，唐金辉1† 单位：1南京理工大学计算机学院，2常州大学信息科学与工程学院

邮箱：fereenwong@njust.edu.cn， sdluran@gmail.com， jinhuitang@njust.edu.cn， skxu@cczu.edu.cn 论文链接： https://ieeexplore.ieee.org/abstract/document/9678058 代码链接： https://github.com/fereenwong/DCMF 博客链接： https://blog.csdn.net/wae42675/article/details/124980745?spm=1001.2014.3001.5501 †通讯作者 1.背景与动机如何有效的结合RGB与Depth两种模态的信息是基于RGB-D图像输入的显著性物体检测任务的关键。由于RGB与Depth图像来自于两个不同模态，模态差距会导致简单的特征拼接的结果不令人满意。现有的方法关注于如何设计有效的“交互 / 融合”模块，用于桥接两种模态之间的鸿沟。本文提出了一种新颖的“关联度融合”(correlation fusion)策略，其出发点在于寻找RGB与Depth两种模态的图像中的共性：属于同一类别的任意像素对的关联度会大于分属不同类别的像素对的关联度，这一特性在RGB和Depth两种模态中都适用。融合RGB,Depth两种模态的像素关联度，可以很好地互补两种模态的不足。

2. 方案概述我们提出的模型主要包含三个部分： 1）长距离关联度融合模块：分别基于RGB与Depth特征计算图中所有像素点对的关联度，为了提高计算效率，我们将关联度的计算由“pixel-pixel”转换为“pixel-patch”; 2）特征优化模块:该部分包含两次特征优化，首先，基于计算得到的长距离关联度优化特征，提供上下文环境信息（CM-LCG模块）；其次，计算卷积窗口内像素点对之间的关联度，将常规卷积变为关联度加权的动态卷积，提供更好的局部细节信息（RFR模块）； 3）轻量级的深度特征提取模块：该部分我们设计平行分支提取多尺度深度特征，且移除池化层以更好地保留深度图像中的几何结构信息。

3、实验结果我们在七个常用的RGB-D显著性物体检测数据集上进行实验，包括NJU2K, ReDWeb-S, DUT-RGBD, NLPR, LFSD, STERE 和SSD，并在表1中对比与当前SOTA方法的评估结果，本文方法取得了与SOTA相匹敌的结果。在图3中，我们综合对比七个数据集中的总体评估精度与模型大小，我们的方法以较小的模型参数，取得了综合最优的实验结果。最后我们在图4中展示了我们的方法与SOTA方法的可视化对比。

金鑫，张力，单超炜，李鑫，陈志波 单位：中国科学技术大学，复旦大学 邮箱：jinxustc@mail.ustc.edu.cn, lizhangfd@fudan.edu.cn, shanchaowei@mail.ustc.edu.cn, lixin666@mail.ustc.edu.cn, chenzhibo@ustc.edu.cn

论文链接：https://ieeexplore.ieee.org/abstract/document/9663408 1.引言著名的无监督单图像恢复方法Deep Image Prior (DIP，CVPR’18)，旨在通过学习的方式，从已受损的带噪图像中获得足够的原始图像的统计先验进而逐步恢复图像。然而，当前真实自然场景下采集到的图像通常包含多种噪声类型，即，被多种干扰污染（包括，模糊，噪声，压缩失真等等）。因此，单单依靠原本的图像内容先验学习，很难将干净信号和混合失真信号完全解耦开来，从而给图像恢复带来困难。为了克服这个问题，本文提出了双重先验学习（Dual Prior Learning，DPL）方法，来实现图像内容信息与干扰噪声信息的解耦，在带有混合失真的图像恢复任务上表现出色。

2. 方法概述本文在著名的单图无监督图像恢复算法“深度学习先验（Deep Prior Learning，DIP）”的基础上，额外考虑利用单独的先验学习过程模拟学习混合失真分布，进而提出了“双重先验学习（Dual Prior Learning，DPL）”算法，在针对真实场景下，对混合失真图像恢复任务表现更优。顾名思义，双重先验学习（DPL）结合了原本深度图像先验 (DIP) 算法的优势来实现无监督图像恢复，从而摆脱了训练数据的限制，并通过额外考虑学习混合失真的先验，从而超越 DIP。具体来说，我们将整个图像恢复过程分为两个步骤：图像先验（Image Prior, I-Prior) 学习阶段和失真先验（Distortion Prior, D-Prior) 学习阶段。在第一阶段，图像统计信息由独立的可学卷积图像生成器建模，基于这些统计信息来逐渐恢复图像退化过程中丢失的信息。随后，在第二个失真先验学习阶段，考虑到不同失真的种类多样且难以独立建模，这里额外采用非线性卷积模块来拟合这些失真的先验知识。此外，为了避免提出的两个学习步骤拟合出相似/统一的统计分布（即，图像内容先验和部分失真先验重合），本文利用一种弱监督约束，进一步促使两个学习到的先验（即，I -Prior 和 D-Prior) 的联合分布尽可能地接近于一个随机选取的干净-噪声图像对，进而来平衡两个先验的学习与解耦。

DIP 仅依赖于以随机噪声向量 z 作为输入的图像先验学习网络 (*)，并通过梯度下降迭代优化逐步学习恢复图像内容。DPL 是由一个从粗到细学习原始图像内容特征的图像先验学习网络 (*) 和一个失真先验学习网络 (*) 共同组成，在学习图像内容先验的同时，同步捕获不同失真的统计分布。 z_c和z_n分别表示(*)和(*)的两种随机噪声向量输入。 3. 实验结果本文的方法和包括基线方案DIP在内的众多前沿算法之间进行了一系列比较。显然，在这些方法中，本文提出的算法，在针对真实图像的混合失真恢复领域表现出色，在细节保真度、颜色饱和度和图像清晰度方面都是所有比较方法当中最好的。第一组图3和第二组图4实验对比显示了本方法细节恢复的能力。第三图5和第四组图6样例中，本方法生成的图像在清晰度上比其他的方法生成的图像更优越，并且纹理也更加丰富。

Self-Guided Image Dehazing Using Progressive Feature Fusion

作者：白浩然、潘金山、项欣光、唐金辉 单位：南京理工大学计算机科学与工程学院 邮箱：baihaoran@njust.edu.cn sdluran@gmail.com xgxiang@njust.edu.cn jinhuitang@njust.edu.cn

论文链接： https://ieeexplore.ieee.org/document/9677961 论文链接： https://github.com/csbhr/SGID-PFF 随着多媒体技术的发展，越来越多的拍摄场景需要在雾霾等恶劣天气中进行，为了消除雾霾影响，图像去雾技术受到了广泛的关注和研究。现有图像去雾算法大多采用端到端可训练的深度网络直接从有雾图像中估计清晰图像，但由于图像去雾问题的高度病态性，在缺乏相关指导信息引导的情况下，简单的使用端到端的前馈神经网络很难表征从有雾图像到清晰图像的映射关系。然而，引入额外的引导信息在实际应用中是很难实现的，为此，本文尝试从有雾图像自身中提取有效知识，将其作为引导信息来帮助图像去雾过程。

本文针对单图像去雾问题提出了一个有效的自知识引导的图像去雾模型，其可以从输入的有雾图像自身中探索有用的信息，并将其作为引导来帮助图像去雾。如图 1(上)，所提图像去雾模型使用一个深度预去雾器(Deep Pre-Dehazer)从输入的有雾图像中生成较为清晰的引导图像。如图 1(下)(b)所示，生成的引导图像相较于输入图像包含更加清晰的结构，其可以用于引导后续的去污过程。但其中也依然存留一些雾气残留，直接使用该引导图像会将其引入图像复原过程，造成不利影响。为此，本文提出了一种渐进特征融合策略(Progressive Feature Fusion)，在迭代融合过程中逐步去除残留雾气的影响。得益于引导图像的引导和渐进特征融合策略，如图 1(下)(c)所示，最终的去雾结果去除了残留的雾气，并恢复出了更加清晰的结构和细节。在本文中，将所提方法与众多前沿算法之间进行了一系列比较，如图 2所示，本文所提的方法在室内室外数据集的平均结果上取得了最高的结果，在PSNR上领先第二名0.71dB。在可视化结果上，本文方法复原的结果更加清晰，克服了颜色偏差、雾气残留等问题。

Adaptive Rate Block Compressive Sensing Based on Statistical Characteristics Estimation

作者：王健明，王伟，陈建华* 单位：云南大学

邮箱：ynujimmy@163.com; 2229401508@qq.com; chenjh@ynu.edu.cn 论文链接： https://ieeexplore.ieee.org/document/9656660 *通讯作者 1. 引言压缩感知方法可以在不进行数字化转换和存储的情况下对原始信号进行采样和压缩，这使得压缩感知方法在采样过程的简便性方面，相对传统方法具有很大的优势。然而，由于原始信号对采样设备而言可以是完全未知的，此时想要实现自适应速率的压缩感知就比较困难。为了解决这一问题，本文提出并证明了一种仅通过观测压缩感知测量结果，对原始信号均值、方差进行估计的方法；利用对原始信号统计参数的估计，为不同稀疏程度的图像分块分配不同的采样速率，从而实现自适应速率压缩感知。 2. 方法在过去的研究中，在原始信号未知时，研究者常使用J-L定理（Johnson-Lindenstrauss lemma）和压缩感知测量矩阵的有限等距性质（Restricted Isometry Property, RIP）通过压缩感知测量结果对原始信号的能量进行估计。在本文中，引入了一个与原始信号同维度的、已知的辅助向量，通过同时观测压缩感知测量矩阵对原始信号及辅助向量的测量结果，可以进一步从原始信号的能量估计中得到原始信号均值的估计。利用原始信号均值的估计，还可以进一步得到原始信号方差的估计。利用均值及方差的估计结果及切比雪夫不等式，我们就能对原始信号的稀疏程度进行估计，进而实现对原始信号的分类。根据分类结果，为不同图像分块分配不同的采样速率，就实现了自适应速率压缩感知。本文中，以上自适应方法在时域信号和使用小波基作为稀疏基的信号中进行了验证。 3. 实验结果图1中展示了在一帧视频图像中，各图像分块实际大值数量与被分配的采样速率对比，可以看到，本文提出方法能够将图像分块分为4类，同时分配结果与实际稀疏程度吻合较好。

图2展示了不同自适应方法在各个测试序列中为各帧分配的测量数。图3展示了不同自适应方法各重建帧的质量。图4展示了一帧重建图像的视觉效果。可以看到，本方法以明显较低的采样速率获得了更好的重建图像质量。

Towards Real-World Category-level Articulation Pose Estimation

作者：刘浏, 薛寒, 徐文强, 付昊源, 卢策吾* 单位：上海交通大学 邮箱：Liuliu1993@sjtu.edu.cn; xiaoxiaoxh@ sjtu.edu.cn; vinjohn@sjtu.edu.cn; simon-fuhaoyuan@sjtu.edu.cn; lucewu@sjtu.edu.cn

论文链接：https://ieeexplore.ieee.org/abstract/document/9670684 代码链接：https://github.com/liuliu66/articulation_estimator_slim *通讯作者 1. 引言关节物体在我们的日常生活中无处不在。与在三维空间中运动时可视为一个整体的刚性物体不同，关节体通常由多个刚性部分组成，这些刚性部分通过不同类型的关节轴连接，例如旋转轴、平移轴、旋量轴等。因此，多样化的运动学结构赋予了关节体对象更高的自由度（Degree of Free），使得关节物体的姿态估计更加具有挑战性。然而，目前大部分关节体视觉感知算法（如6D姿态估计）只能够在仿真环境下、单一物体结构类别上达到较好的性能，而为了能够在真实世界场景下估计关节体6D姿态则面临着仿真-现实输入模式差异大、关节体结构多样性强的问题。为了解决上述问题，本文首先为关节物体采集了大量的真实世界三维模型，并对其标注了语义、结构、运动轴等丰富的知识。为了缩小仿真数据到真实数据的差异，本文设计了一种新颖的半真实混合现实技术（SAMERT），如图1所示。我们的SAMERT技术基于Unity仿真引擎，将真实世界扫描的关节体模型及其标注知识和预先采集的真实世界RGB-D背景图像进行混合，并提出了一种物理推理合成方法来渲染具有完整、丰富和精确标注的RGB-D合成图像用于模型训练，训练集命名为ReArtMix。同时，为了验证算法在真实世界的有效性，我们同样采集了超过6K张全真实关节体姿态的RGB-D图像，构成关节体姿态估计验证集ReArtVal，并提出了一种半自动的部件级6D姿态标注流程，大大缩短数据集构建成本。

在算法方面，为了解决真实场景中未知关节体结构下的部件级6D姿态估计问题，我们提出了真实世界关节体姿态估计的深度学习框架ReArtNet，其结构如图2所示。该网络由三个核心构件组成：（1）二维真实世界关节体目标检测器。我们在二维图像上构造基于CNN的神经网络检测关节物体多种姿态下的边界框，为了提高检测性能，我们提出了四种纹理增强方法来提高训练时数据外观的多样性。（2）关节体结构解析网络。该网络基于PointNet++将输入的单个关节体局部点云解析为多个关节体部件，并预测其语义级分割和其在归一化规范空间（NOCS）中的坐标。（3）部件姿态估计网络。该网络用于预测俩俩关节体部件间的连接关系、连接轴类型以及连接轴属性。最后，在预测的关节体部件级和关节级信息上，我们通过Umeyama 优化算法来输出各个关节部件的6D姿态。

关节体姿态估计实验结果如表1所示，由于我们的任务目前还没有相关的实验基线，因此我们采用A-NCSH作为基准。其使用大量的关节体结构信息作为先验，而我们的ReArtNet则不使用关节体信息先验。可以看出，我们的方法在真实世界的关节体估计中性能较为优异。图3展示了真实世界关节体姿态估计的部分结果可视化。此外，我们也在公共仿真数据集PartNet-Mobility和自己采集的实例级关节体数据Franka机械臂上进行实验，其结果也证明了我们方法的有效性。

A Unified Pansharpening Model Based on Band-Adaptive Gradient and Detail Correction

作者：卢航远1，杨勇2*，黄淑英2，涂伟3，万伟国3 单位：1金华职业技术学院，2天津工业大学，3江西财经大学 邮箱：lhyhziee@163.com greatyangy@126.com shuyinghuang2010@126.com ncsytuwei@163.com wanwgplus@163.com

论文链接：https://ieeexplore.ieee.org/document/9664491/ 代码链接：https://github.com/yotick/BAGDC-TIP2022-pansharpening.git *通讯作者 1．引言：遥感图像融合是指融合低空间分辨率的多光谱（MS）图像与高空间分辨率的全色（PAN）图像，以得到高空间分辨率的多光谱（HRMS）图像。遥感图像融合技术的研究具有重要的价值，可为后续的目标识别与分类、地表变化检测、军事侦察等任务提供重要的数据基础。遥感图像融合也称为PAN锐化。目前PAN锐化方法普遍存在难以获得准确的细节，计算效率低等问题，因此本文提出了一种基于通道自适应的梯度和细节校正的PAN锐化模型。 2．方法：本文通过探索PAN图像和MS图像之间的光谱和空间关系，提出一种新的PAN锐化模型框架以保证融合图像的高质量，如图1所示。在模型中，基于光谱与空间的一致性先验分别设计了通道自适应的光谱保真和梯度校正约束项，以确保融合图像和源图像之间的光谱和结构信息的高保真度。此外，基于降尺度参数传递设计了细节校正约束项，以获得更准确的融合图像细节。最后，利用ADMM算法对提出的模型进行求解，得到最优融合结果。

3．实验：本文对四个数据集如IKONOS、Pléiades 、WorldView-3和天宫二号数据集进行降尺度和全尺度实验。 IKONOS 和 Pléiades 数据集的 MS 图像包含 4 个通道，WorldView-3 数据集的 MS 图像包含 8 个通道，天宫二号数据集包含14个通道。在这些实验中，引入了一些传统的和最先进的全色锐化方法进行比较，其中包括最新的深度学习方法FusionNet。IKONOS数据集的主观实验结果如图2所示，定量评估结果如表1所示。从图2和表1可知，本文提出的方法在主观与客观指标上都达到了最优。其他的数据集上也得到类似的实验结果，这有效地验证了本文方法的有效性。

此外，为了验证所提方法得到的全色锐化图像在分类应用中的实用性，我们利用ENVI分类工具对全色锐化图像进行了分类实验。分类结果如图 3 所示，客观指标如表2所示。从图3和表2中可以看出，所提出的方法在所有指标上都能达到最好的分类结果，再次证明了我们的融合方法具有良好的性能。

最后，测试了不同方法在所有数据集上的平均运行时间，结果如表3所示。从表中可以看出，所提出的方法具有较快的运行时间。综合来看，所提出的方法在融合质量和效率上达到了有效均衡。

作者：杨勋1，王姗姗2，董健3，董建锋4，汪萌5，Chua Tat-Seng6 单位：1中国科学技术大学，2安徽大学，3奇虎360，4浙江工商大学，5合肥工业大学，6新加坡国立大学 邮箱：xyang21@ustc.edu.cn

论文链接：https://ieeexplore.ieee.org/abstract/document/9677948 1.引言视频片段检索任务旨在根据给定的文本查询，从一个视频中定位出与文本查询的语义相匹配的视频片段。这是一个既重要但又十分具有挑战性的任务，因为其需要有效地建模复杂的跨模态匹配关系。当前的方法主要通过手动构建复杂的网络结构来建模跨模态交互。尽管其能获得较好的性能，但其依赖于丰富的网络结构设计和参数调整经验，严重制约了其在现实场景下的应用。因此，如何以更低的人工代价来设计灵活的跨模态交互网络结构是解决视频片段检索任务的关键之一。为解决该问题，本文创新性地将神经网络结构搜索（NAS）技术与视频片段检索任务相结合，提出一种新颖的视频片段检索方法，该方法可以自动搜索有效的网络结构，用于跨模态匹配关系学习。

2.方法概述本文的方法在训练时分为两个阶段：网络结构搜索阶段和网络结构训练阶段。在网络结构搜索阶段，如图1所示，本文采取一种基于有向无环图的可重复微结构搜索策略。图1中的cell结构是一个有向无环图的全卷积模块，即为本文要搜索的对象。基于一个定制化的网络操作集合，本文对cell结构中的每一条边进行操作采样，并将可重复的cell结构级联起来，形成完整的卷积网络结构。在验证集上精度最高的cell结构，将被用于第二阶段跨模态交互网络结构训练。图2所示即为三种不同基准数据集上所搜索到的cell网络结构。在第二阶段的网络参数训练时，本文还引入注意力机制，将文本查询特征用于调节cell结构中计算节点的每一条输入边的权重，实现更有效的图信息传递和聚合。多层级联网络结构的输出是一个多模态融合特征，进而输入到预测层，即可得到每一个候选片段的预测分数，所有候选片段按照分数从高到低进行排序，即可作为视频片段检索的结果进行返回。

3.实验结果本文在ActivityNet-Captions，TACoS和Charades-STA三个广泛使用的基准数据集上进行了实验性能验证，实验结果表明，基于自动搜索到的跨模态交互网络结构，本文的方法可以显著提升片段检索的精度。实验对比如表1所示。

学术动态