2023年论文导读第二十四期

【论文导读】2023年论文导读第二十四期

CCF多媒体专委会 2023-12-05 08:00 发表于山东



论文导读

2023年论文导读第二十四期(总第九十期)



 目 录

1

Compositional Zero-Shot Artistic Font Synthesis

2

Hyperspectral Image Denoising Using Uncertainty-Aware Adjustor

3

VS-Boost: Boosting Visual-Semantic Association for Generalized Zero-Shot Learning

4

Prompt Learns Prompt: Exploring Knowledge-Aware Generative Prompt Collaboration for Video Captioning

5

VGOS: Voxel Grid Optimization for View Synthesis from Sparse Inputs

01

Compositional Zero-Shot Artistic Font Synthesis

组合式零样本艺术字生成

作者:李祥1,武蕾1*,王昌硕1,孟雷1,2*,孟祥旭1

单位:1山东大学软件学院,2山东省工业技术研究院

邮箱:

202035260@mail.sdu.edu.cn ,

i_lily@sdu.edu.cn ,

202115242@mail.sdu.edu.cn ,

lmeng@sdu.edu.cn ,

mxx@sdu.edu.cn

论文:

https://www.ijcai.org/proceedings/2023/122

*通讯作者



1、简介

近期,在艺术字体合成这一领域,众多研究人员取得了令人瞩目的成就。他们的研究成果不仅在字形和字效风格上令人赞叹。然而,目前的研究在风格解耦方面还显得不足,导致目前的方法难以创造出全新的艺术字体风格组合(即字形与字效的结合),只能预测和重现那些已经存在的风格组合。为了克服这一挑战,我们开发了一种创新的组合式零样本艺术字体合成生成对抗网络(CAFS-GAN)。这个网络通过探索字形和字效之间的视觉独立性与联合兼容性,成功实现了新颖风格组合的合成,正如图一所示。具体而言,我们设计了一种基于对比学习的风格编码器,能够将艺术字图像中混合的字形和字效属性进行有效的风格解耦。此外,为了更好地保留字形和字效的细节,我们还开发了一个基于层次化双风格AdaIN的生成器,这个生成器能够逐步重组从结构到纹理的内容和风格特征表示。

具有未见过的风格组合的艺术字合成过程。通过训练一些已知的风格属性概念,如CenturyArialCookieMetal, 使模型生成未见过的风格组合Arial-Cookie

2、方法

CAFS-GAN包括以下关键模块:基于对比学习的字形与字效风格编码器、两个风格相似性注意(SSA)模块、一个内容编码器、艺术字体生成器,以及两个风格判别器,具体如图二所示。在这个网络中,字效和字形风格编码器负责是解耦和提取字形及字效的风格特征。在这两个编码器的末端,我们引入了SSA模块,它通过识别风格属性的相似性来增强模型对不同风格的感知能力。风格编码器的结构细节设计上与VGG11类似。不同于风格编码器,内容编码器中增加了额外的padding层,以提高对图像边缘字体笔画的采样频率,从而更好地保护字符结构的完整性。考虑到字符内容信息通常包含高维语义信息,我们在内容编码器的末端添加了resblocks,以便保留更丰富的内容信息。最后,我们的字形和字效判别器是由滤波响应归一化(FRN)和卷积层构成的多任务判别器,包含多个输出分支,每个分支都致力于学习一个二进制表示,以判断艺术字体是否具有真实的字形或字效风格。

2 CAFS-GAN的网络模型架构图。

3、实验

与现有艺术字生成方法的定量对比结果。

与现有艺术字生成方法的定性对比结果。

4 CAFS-GAN使用风格插值的实验结果。

02

Hyperspectral Image Denoising Using Uncertainty-Aware Adjustor



作者:肖嘉华,魏星*

单位:西安交通大学软件学院

邮箱:

xjh847286495@stu.xjtu.edu.cn,

weixing@mail.xjtu.edu.cn

论文:

https://www.ijcai.org/proceedings/2023/

代码:

https://github.com/MIV-XJTU/UA-Adjustor

*通讯作者



1. 研究背景和动机
基于深度学习的高光谱图像(HSI)降噪的主流方法之一是利用空间-光谱相关性,通过邻近波段的辅助恢复每个波段,这些方法可以统称为光谱辅助网络。然而,这些方法假设光谱信息是均匀分布的,并对所有相邻的光谱波段一视同仁。然而,噪声强度和分布在波段之间有差异,且不同空间区域的像素表现出不同程度的退化。因此,对于当前波段而言,相邻波段和像素的不确定性并不一致。从理论上讲,更清晰、更接近的邻接波段往往包含更可靠的光谱信息,而相反,更远,更多噪声的邻接波段带有更高不确定性的光谱信息波段。

2. 方法概述

基于这些观察,我们提出通过预测相邻波段以及像素对于当前波段而言的不确定性来增强和调整相邻的光谱波段,利用它们更有价值的信息进行辅助去噪。 此外,已有网络往往需要复杂的网络架构和训练策略来提升降噪性能。因此,我们的目标是在不修改原始网络结构的情况下提高降噪性能,如图1所示。

即插即用的架构设计

这项工作提出了UA-Adjustor,如图二所示,通过考虑波段到像素和增强到调整这两个方面,全面地调整邻接波段来提高网络的降噪性能。具体而言, UA-Adjustor端到端的邻接波段调整步骤可以描述如下:

算法框架流程图

在第一阶段,我们评估每个相邻波段的重要性。有益信息量越多的光谱波段往往会施加更高的权重,利于后续的特征学习。

在第二阶段,我们通过不确定性估计来聚合短范围的相邻波段的空间信息来增强每个波段。

在最后的阶段,我们再次利用不确定性估计来调整上个阶段的增强波段中每个空间像素的权重,并生成最终的光谱辅助波段。

3. 实验分析
我们公平地在模拟和真实的高光谱数据集上进行了主观和客观实验,来比较最先进的光谱辅助网络及其原始网络与集成了UA-Adjustor的情况。ICVLWDC模拟数据集的实验结果如图3所示,不同噪声类型的平均定量评估结果如表1所示。从图3和表1可知,本文提出的方法在主观与客观指标上都达到了最优。此外,在真实数据集Indian Pines进行了分类实验,结果如图4所示。实验结果可以看出,我们的结果比原始方法的降噪以及分类结果都要更好。UA-Adjustor以极低的成本来提高已有降噪网络降噪效果,仅有8.9K的参数量。

3 ICVLWDC模拟数据集的降噪视觉结果

不同噪声类型的性能对比结果

4 Indian Pines降噪视觉效果以及分类结果

03

VS-Boost: Boosting Visual-Semantic Association for Generalized Zero-Shot Learning



作者:李晓凡,张亚超,边诗然,谢源,曲延云,师忠超,范建平

单位:厦门大学,清华大学(深圳),华东师范大学,联想

邮箱:

funzi@stu.ecnu.edu.cn,

yachaozhang@sz.tsinghua.edu.cn,

yyqu@xmu.edu.cn

论文:

https://www.ijcai.org/proceedings/2023/0123.pdf



本文提出了一种新的关系度量学习方法,并提出了一个广义零样本学习框架VS-Boost,可以通过增强视觉和语义之间的联系来提升零样本图像识别的性能。广义零样本学习(Generalized Zero-Shot Learning, GZSL)的目标是通过语义嵌入线索的提示使仅在可见类上训练的分类器既可以同时识别可见类和未见类的图像。为了将知识从可见类别转移到未见类别,零样本学习为每个类别引入了对应的语义嵌入作为先验知识。目前,GZSL的主流解决方案是语义嵌入式方法和特征生成式方法。语义嵌入式方法将特征投影到语义空间,并在语义空间中进行度量学习,以学习视觉到语义的映射,最终使用最近邻在语义空间中进行分类。由于训练时未见类别的缺失,嵌入式方法通常偏向于已见类别,未见类效果较差。特征生成式方法首先训练生成器,以未见类语义嵌入和高斯噪声为输入合成未见类特征,然后使用合成特征和真实的可见类特征训练分类器。

最近,为了增强特征的可判别性出现了将度量学习引入特征生成的方法,其使用三元损失或对比损失及其变体来增加类间距离和减少类内距离。这些精炼特征的方法和传统嵌入式方法仅在特征空间或语义空间单独进行度量学习,忽略了特征空间和语义空间之间的关联。GZSL使用语义作为先验知识来将视觉知识从已见类别转移到未见类别,并且视觉信息与语义信息之间存在差距,因此视觉与语义之间的关联成为一个关键问题。为了增强GZSL的视觉-语义关联,我们提出了一种名为VS-Boost的新特征生成式方法,并引入了一种新的关系度量学习,可以在两个不同空间之间架起度量学习的桥梁。

如图1所示,VS-Boost首先使用语义嵌入网络来约束视觉特征,通过语义嵌入网络的约束可以使视觉特征将与语义更相关并且更具区分性。在获得与语义相关的特征后,关系度量学习用于进一步增强视觉与语义空间的一致性。关系度量学习先测量特征空间和语义空间中实例之间的相似性,然后对齐两个空间中相同类别的相似性。我们使用二元交叉熵损失来对齐两个空间之间的相似性,并证明了这个损失函数的有效性。如表1所示,VS-BoostAWA2CUBFLOAPY四个数据集上取得了最优水平。

方法架构图

与先进方法的对比结果

04

Prompt Learns Prompt: Exploring Knowledge-Aware Generative Prompt Collaboration for Video Captioning

用提示学习提示:探索基于知识的生成式提示协作在视频描述生成中的作用

作者:颜力琦1,韩成2,徐增林3,刘东方2,王奇凡4

单位:1复旦大学,2罗切斯特理工大学,3哈尔滨工业大学,Meta(美国)

邮箱:

lqyan18@fudan.edu.cn

论文:

https://www.ijcai.org/proceedings/2023/180



1. 研究背景和动机

将视觉-语言大模型迁移到下游任务是一项具有挑战性的任务,完全微调(Full Tuning)要求为每个任务存储和部署独立的骨干参数副本,这是一项昂贵的任务。为了应对这一挑战,在自然语言处理(NLP)领域提出了提示微调(Prompt Tuning)方法。其核心思想是在冻结主体模型的情况下,通过文本或可学习的编码提示(Prompt)重新构造下游任务,使其更类似于语言模型(LM)预训练期间所解决的任务。尽管提示微调的有效性得到了证实,但这些可学习的提示究竟学到了什么仍然没有被解释清楚,且由于大模型的参数量较大导致训练过程不够高效。

2. 方法

在这项工作中,我们通过设计两组提示:一组在预训练中,另一组在微调中,探讨了在微调中的可学习提示是否能够学到预训练中的上下文知识提示(如“A __ is __ a __ on the __”)中的信息,如图1所示。

预训练阶段:学习关键信息(较难),微调阶段:恢复上下文连接词(较易)

具体而言,我们提出了一种视频语言提示微调(VL-Prompt)的方法,用于视频字幕生成,如图2所示。首先,在预训练阶段,我们给模型输入针对每一个视频的上下文知识提示(Knowledge-Aware PromptKAP),训练视频语言模型先学会从视频中提取关键信息(例如,动作和物体),实现高效的视频-语言预训练。然后,在微调阶段,我们设计了一个可学习的视频语言提示(Video-Language PromptVLP),对模型进行微调,使其可以还原KAP中的上下文知识提示信息,以生成完整的字幕。此外,在预训练过程中,设计一个密集度损失函数,优化注意力机制的稀疏程度,降低模型的参数量和算法的时空复杂度。

2 VL-Prompt整体框架图

我们系统的核心思想是不同的词承载不同数量的信息。例如,高频词(例如,“on”等虚词)承载很少的信息,而低频词(例如,“teacher”等实词)则更具信息性。假设KAP仅包含实词,所有虚词(名词和动词)都已删除。从数学上讲,给定输入视频V和知识感知提示X,我们的预训练模型M经过训练,输出一个概念词序列Y。这些功能词和概念词序列可以由这两个随机变量表示。根据香农理论[Shannon, 1948],预训练模型的信息内容或熵可以被定义为条件熵:

其中,XY分别表示虚词和实词的集合。当使用视频语言提示网络F对模型进行微调时,该网络包括可学习的向量T和线性层f(·),其输出句子Z可被视为XY的组合。我们可以得到整个模型的交叉熵:

因此,在预训练模型M的基础上,微调阶段的VLP提示学到的信息熵为:

由于M经过预训练,根据虚词的指导来预测实词,然后在微调阶段被冻结,因此MF的互信息I(M; F)非常小,因此:

上述等式展示了视频语言提示(VLP)和知识感知提示(KAP)的熵是等价的,表明我们的模型能够将来自KAP的提示知识转移到VLP

3. 实验结果

MSR-VTT数据集和MSVD数据集上,VL-Prompt超越了前人的SOTA模型:

在跨数据集迁移时,VL-Prompt也表现出了令人满意的效果:

当每个视频关键帧数量较大时,使用完全微调策略的模型会导致Out-Of-Memory OOM)显存不足问题,而使用VL-Prompt训练策略的模型可以极大降低显存占用,从而在有限显存的条件下提高可输入模型的每个视频关键帧数量,实现高效的视频-语言大模型微调。

05

VGOS: Voxel Grid Optimization for View Synthesis from Sparse Inputs

VGOS:用于稀疏输入视图合成的体素网格优化

作者:孙嘉锴、张占杰、陈嘉芙、李光远、吉柏言、赵磊*,邢卫*

单位: 浙江大学计算机学院

邮箱:

cszhl@zju.edu.cn

论文:

https://www.ijcai.org/proceedings/2023/0157.pdf

代码:

https://github.com/SJoJoK/VGOS

*通讯作者



在三维视觉领域中,新视图合成是一项具有挑战性的任务,旨在从给定的源图像及其相机姿态中合成具有任意目标相机姿态的目标图像。最近,神经辐射场(NeRF),一种基于学习的神经隐式表示,能够产生高质量的新视图合成结果。然而,NeRF需要几十到几百个密集的输入和数小时到数天的训练时间才能获得高质量的结果。当考虑到自动驾驶、AR/VR和机器人等缺乏密集数据并需要实时性能的现实世界应用时,NeRF依赖密集输入视图和漫长优化时间的局限性被进一步放大。尽管使用体素网格来表示辐射场可以显著加快优化过程,但我们观察到,对于稀疏输入,体素网格更容易过度拟合训练视图,并且会有洞和浮动,从而导致伪影。

为了解决上述问题,我们提出了一种从稀疏输入(3-10视图)快速(3-5分钟)重建辐射场的方法,即VGOS,如图1所示。为了提高基于体素的辐射场在稀疏输入场景中的性能,我们提出了两种策略:(a)引入了一种增量体素训练策略,该策略通过在重建的早期抑制外围体素的优化来防止过拟合。尽管DVGO使用各种技术来避免退化解,但对于稀疏场景,辐射场将过度拟合到输入视图。具体而言,对于稀疏输入,在训练的初始阶段,靠近相机近平面的外围体素具有高密度值,以再现输入视图。然而,外部体素的高密度值阻碍了内部体素的优化,这使得辐射场难以收敛到正确的几何结构,从而导致新视图下的渲染结果的质量下降。增量体素训练策略不是优化全部的体素,而是只优化内部的体素,冻结了外围体素的优化,避免了过拟合。(b) 使用了几种正则化技术来平滑体素,从而避免了退化解。我们提出了一种新的稠密体素网格上的颜色感知体素平滑度损失,并在采样视图上利用深度平滑度损失来平滑体素。在辐射场中,在颜色急剧变化的地方,密度变化并不平滑。根据以上观察,提出了颜色感知总方差损失,它使用颜色体素网格中的激活值来引导密度体素网格的平滑损失。几何的分段光滑是深度和视差估计中的经典假设,因此我们在未被观察的视角上引入了深度平滑度损失来改善场景几何。实验表明,VGOS在没有任何预先训练的模型和只以RGB图像作为输入的情况下,以超快的收敛性在稀疏输入方面实现了最先进的性能,如图2和图3所示。

1 VGOS体系结构概述。除了来自给定的一组输入图像(橙色视角)的光度损失之外,深度平滑度损失被施加在来自采样视图(蓝色视角)的渲染深度图像块上,并且体素网格通过所提出的颜色感知体素平滑度损失而正则化。此外,通过增量扩展优化体素(红色和紫色体素)的范围,使用增量体素训练策略来防止过拟合。

3张图像的稀疏输入条件下,在LLFF数据集上VGOS和现有方法之间的比较。注:为了进行公平的比较,每种方法的训练时间都是在单个NVIDIA RTX 3090 GPU使用各自的官方实现来测量的。对于稀疏输入,提出的模型在重建速度(训练时间)和结果质量(PSNR)方面都优于以前的方法。

在四张图像的稀疏输入条件下,对真实合成360°进行定性比较。所有实验都是用相同的输入进行的。