论文导读-【论文导读】2025年论文导读第十三期

学术动态

【论文导读】2025年论文导读第十三期

2025年7月22日 21:41 北京

论文导读

2025年论文导读第十三期（总第一百三十期）

1	Improving Interaction Comfort in Authoring Task in AR-HRI through Dynamic Dual-Layer Interaction Adjustment
2	Diffusion Posterior Proximal Sampling for Image Restoration
3	EvilEdit: Backdooring Text-to-Image Diffusion Models in One Second
4	Relational Diffusion Distillation for Efficient Image Generation
5	Partial Multi-label Learning Based On Near-Far Neighborhood Label Enhancement And Nonlinear Guidance

Improving Interaction Comfort in Authoring Task in AR-HRI through Dynamic Dual-Layer Interaction Adjustment

迈向“感同身受”的AR交互：基于动态双层调节提升人机协作创作舒适度

作者：

裴云强, 张凯越, 杨洪荣, 陶勇, 唐启航, 唐佳磊, 王国庆*, 刘志韬, 谢宁, 王鹏, 杨阳, 申恒涛

单位：

电子科技大学, 同济大学

邮箱：

yqsimonpei3940@hotmail.com,

gqwang0420@uestc.edu.cn

论文：

https://dl.acm.org/doi/abs/10.1145/3664647.3681364

发表会议：ACM MM 2024

*通讯作者

1.论文简介

在增强现实（Augmented Reality, AR）与人机交互（Human-Robot Interaction, HRI）深度融合的今天，AR技术通过共享机器人意图、增强视觉反馈等方式，极大地提升了人机协作中的心理舒适度与信任感。然而，一个长期被忽视却至关重要的问题逐渐浮现：物理舒适度。在诸如机器人路径规划、视觉化编程等长时间、高精度的AR创作任务中，用户常常需要维持特定的手臂姿态或进行重复性操作，这极易导致身体疲劳、操作精度下降，甚至增加认知负荷。现有交互方式，无论是手势、凝视还是语音，大多采用一种“一刀切”的静态设计，它们无法根据交互环境（如目标远近）和用户的个体实时状态（如疲劳程度）进行自适应调整。这种设计的缺失，使得交互舒适度成为制约AR-HRI系统体验和效率的关键瓶颈。因此，我们的研究动机正是要填补这一空白：构建一个能主动感知并缓解用户不适的交互系统，让AR交互从“能用”迈向“好用”、“舒适用”。

2.方法介绍

为了解决上述挑战，我们提出了一种创新的“动态双层交互调整（Dynamic Dual-Layer Interaction Adjustment, DDIA）”框架。该框架的核心思想是结合普适性的人因工程学规则与个性化的生理状态感知，实现智能、实时的交互方式切换。第一层是物理层调整（General Layer），它扮演着“通用规则手册”的角色。我们依据人因工程学原理，将用户周围的交互空间划分为三个区域：1）可控区（Controllable Area）：距离用户0.45米至0.90米，适合近距离精准操作，默认交互方式为手势（Gesture）；2）可读区（Readable Area）：距离用户0.90米至2.50米，适合远距离目标选择，默认交互方式为凝视（Gaze），对于其中难以辨认的区域，则采用“语音+凝视”的组合方式；3）不可读区（Unreadable Area）：用户视线范围外，此时系统推荐使用语音（Voice）配合辅助地图进行交互。这一层为交互舒适度提供了基础保障。

然而，通用的规则无法适应每个人的差异。为此，我们设计了第二层——认知/生理层调整（Individual Layer），它是个性化的“实时校正器”。该层通过可穿戴生理传感器（Shimmer3 GSR+）实时采集用户的光电容积脉搏波（PPG）和皮电活动（GSR）信号，这些信号是衡量用户生理与认知负荷的客观指标。我们利用一个包含卷积神经网络（CNN）和双向交叉注意力（Bidirectional Cross-Attention）机制的深度学习模型，对多模态生理信号进行融合与分析，从而精准地预测用户的实时不适程度，并将其量化为一个0到1的连续不适指数（Continuous Discomfort Index, CDI）。这两层并非独立工作，而是动态协同、无缝配合。当系统检测到用户的CDI超过预设阈值时，个性化的生理层将获得更高优先级，主动将当前交互方式切换至更舒适的备选方案（如从手势切换到凝视）。这种从“被动接受”到“主动调节”的转变，使系统能够真正“感同身受”，为用户提供量身定制的舒适体验。

3.实验结果

为了验证我们提出的DDIA框架的有效性，我们设计了一项包含31名新参与者的用户实验。我们将参与者分为三组：A组（基线组）可自由选择交互方式，B组仅使用我们的物理层调整，而C组则使用完整的DDIA框架。实验任务是在一个模拟的“机器人迎宾”场景中完成路径规划和行为编程。实验结果有力地证明了我们方法的优越性。在客观效率上，与基线组相比，使用DDIA框架的C组平均任务完成时间从270.0秒显著降低至147.2秒，降幅达45%，操作次数也大幅减少。在主观体验上，DDIA组的交互舒适度评分（7分制）高达4.60分，远超物理层组的3.73分和基线组的2.48分，舒适度分别提升了33%和85%。这些数据清晰地表明，提升交互舒适度与提高任务效率并非此消彼长的关系；恰恰相反，一个舒适的交互环境能够有效降低用户的生理和认知负担，从而使其更专注于任务本身，最终实现效率与体验的双赢。

4.总结

总而言之，本研究的核心贡献在于提出并验证了一个动态双层交互调整机制，它通过融合普适的人因工程学模型与个性化的生理计算，显著提升了AR-HRI创作任务中的交互舒适度与效率。我们的工作为解决长时间AR交互中的用户疲劳问题提供了切实可行的方案，并为未来需要高强度、长周期人机协作的领域，如工业数字孪生与产线示教、远程医疗手术辅助、复杂产品设计制造以及个性化康复训练等，开辟了新的可能性。我们相信，这种动态、多层次的调节方法为构建下一代人性化、高舒适度的AR交互系统提供了新的思路。

Diffusion Posterior Proximal Sampling for Image Restoration

作者：

邬鸿杰^1,2#，何霖超^1#，张铭琴^1,2，陈东东³，罗堃铭⁴，罗梦婷¹，周吉喆^1,2，陈虎¹，吕建成^1,2*

单位：

¹四川大学

²“机器学习与工业智能应用”教育部工程研究中心

³赫瑞-瓦特大学

⁴香港科技大学

邮箱：

wuhongjie0818@gmail.com,

hlc@stu.scu.edu.cn,

lvjiancheng@scu.edu.cn

论文：

https://dl.acm.org/doi/abs/10.1145/3664647.3681556

代码：

https://github.com/74587887/DPPS_code

项目主页：

https://dpps.pages.dev/

发表会议：ACM MM 2024

*通讯作者

^#共同第一作者

1.研究背景

扩散模型已在生成高质量样本方面展现了显著的效力。当前基于扩散的图像修复算法利用预训练的扩散模型以获取数据先验，但这些方法依然保留了无条件生成过程的范式。由于在每次生成步骤中引入了随机噪声，这种方法通常导致生成结果的平滑化。为了解决这一问题，本文提出了一种改进的扩散模型采样方法，专注于提高生成结果与测量样本的一致性和数据稳定性，从而增强图像修复的性能。

2.本文方法

本文提出的扩散后验近端采样（Diffusion Posterior Proximal Sampling, DPPS）方法，通过在每一生成步骤中从多个候选样本中选择与观测数据更一致的样本，有效减少生成过程中的不确定性。该方法以观测信号为初始化，引入候选样本筛选机制，引导生成过程逐步向目标图像收敛。同时，DPPS采用自适应的采样频率机制，根据不同信噪比条件动态调整候选样本数量，以在维持高生成质量的同时降低计算开销。理论分析表明，该方法能够有效降低采样不确定性，提升生成稳定性和图像质量。

图1 传统扩散采样方法与本文提出的近端采样策略对比示意图。传统方法中，每一步采样直接从预测分布中随机选取，生成过程易出现不稳定；而本文方法则优先选择与观测数据一致性更高的样本，显著提升生成稳定性。

3.实验结果

本文在多种图像修复任务（如超分辨率、去模糊与图像补全）上进行了定量与定性评估，以验证 DPPS 的有效性。部分实验结果如下所示：

图2 在 FFHQ 与 ImageNet 数据集上的不同图像修复任务的定量结果对比

图3 DPPS 与现有方法的图像修复效果可视化比较

图4 不同候选样本数量对图像修复效果的影响分析

从实验结果中可以看出，DPPS在多个图像修复任务上表现出色。相比传统方法（如DPS和DiffPIR），DPPS在生成质量上有显著提升，在峰值信噪比和感知一致性等指标上取得了更优异的性能。且随着选择样本数量 n 的增加，DPPS 生成的图像具有更好的细节和质量。

4.总结

本文提出了一种新型的扩散后验近端采样方法，有效解决了传统扩散模型在图像修复任务中采样不稳定的问题。DPPS 通过选择与观测数据更一致的候选样本，在保持生成质量的同时，显著提升了稳定性与重建精度，为基于扩散模型的图像修复提供了新的方向与思路。

EvilEdit: Backdooring Text-to-Image Diffusion Models in One Second

EvilEdit：对文生图扩散模型的一秒极速后门植入

作者：

王浩^1,*, 郭尚伟^1,*, 何家玲^1,†, 陈康杰², 张树栋³, 张天威², 向涛¹

单位：

重庆大学¹，新加坡南洋理工大学²，华为³

邮箱：

hwang@cqu.edu.cn,

swguo@cqu.edu.cn,

hejialing@cqu.edu.cn,

kangjie001@ntu.edu.sg,

zhangshudong2@huawei.com,

tianwei.zhang@ntu.edu.sg,

论文：

https://dl.acm.org/doi/10.1145/3664647.3680689

代码：

https://github.com/haowang02/EvilEdit

发表会议：

ACM MM 2024
^*共同一作，^†通讯作者

1.背景与动机

在计算机图形学领域，根据二维图像向三维模型迁移异质半透明材质（如玉石、人体皮肤）的外观仍然是一项具有挑战性的任务。传统方法往往依赖昂贵专用设备或局限于均质材质，限制了其广泛应用。本文针对这些局限性，提出了一种新颖且实用的方法，能够从单张二维图像中学习并迁移复杂的、空间变化的半透明材质属性到三维模型。该方法通过高效的视点选择、半透明材质的初始化、基于输入图像的迭代编辑以及材质参数的逆向渲染优化，实现了高质量且逼真的三维资产创建，能够展现细腻的半透明效果。

近年来，文生图（Text-to-Image, T2I）扩散模型取得了巨大成功，但其高昂的训练成本使得许多用户倾向于直接从开源社区下载模型。这种做法带来了严重的安全隐患，即模型可能被植入后门。攻击者可利用特定“触发词”（trigger）操控模型生成恶意的、非预期的图像内容（如暴力图像），对下游应用造成现实世界的安全威胁，如图1所示。然而，现有的T2I后门攻击方法大多依赖数据投毒和模型微调，不仅需要大量训练数据、耗时耗力，还可能损害模型在正常任务上的性能。这些局限性使得现有攻击方法的实用性大打折扣。

图1 图文生图模型后门攻击效果演示

2.方法概述

针对上述挑战，本文提出了一种无需训练、无需数据的后门攻击方法——EvilEdit。该方法创新地将后门注入问题建模为一个轻量的模型编辑任务。其核心思想是“投影对齐”（Projection Alignment）：通过直接修改扩散模型U-Net中交叉注意力层的投影矩阵，强制将触发词的语义投影与后门目标的语义投影对齐。这样一来，模型在遇到触发词时会将其误解为目标概念，从而生成攻击者预设的图像。由于该编辑过程可通过求解一个闭式全局最优解来完成，整个攻击过程可在一秒内完成，实现了前所未有的效率。

图2 EvilEdit后门攻击的整体流程图

3.实验结果

本文在Stable Diffusion v1.5模型上进行了全面实验。如表1所示，EvilEdit在保持模型原有功能（FID分数仅下降0.13）的同时，实现了高达100%的攻击成功率（ASR），显著优于其他需要大量数据和计算资源的基线方法。其次，EvilEdit无需任何模型训练，在单个消费级GPU上仅需1秒即可完成后门注入，且仅修改了模型2.2%的参数。相比之下，现有方法需要数小时的训练和数十万的样本。

材质的复杂纹理和光学特性，并保持了模型原有的几何结构和光照信息。

表1 不同后门攻击方法的性能对比

Relational Diffusion Distillation for Efficient Image Generation

作者：

冯伟伦^1,2，杨传广^1*，安竹林^1*，黄礼泊¹，刁博宇¹，王飞¹，徐勇军¹

单位：

¹ 中国科学院计算技术研究所

²中国科学院大学

邮箱：

fengweilun24s@ict.ac.cn,

yangchuanguang@ict.ac.cn,

anzhulin@ict.ac.cn,

www.huanglibo@gmail.com,

diaoboyu2012@ict.ac.cn,

wangfei@ict.ac.cn,

xyj@ict.ac.cn

论文：

https://dl.acm.org/doi/abs/10.1145/3664647.3680768

代码：

https://github.com/cantbebetter2/RDD.

发表会议：

ACM MM 2024

*通讯作者

1.背景

虽然扩散模型在图像生成领域取得了显著的性能，其高推理延迟阻碍了其在计算资源稀缺的边缘设备中得到广泛应用。因此，已经提出了许多无需训练的采样方法，以减少扩散所需的采样步骤数量模型。然而，在极少去噪步数情况下，它们的生成性能有严重的下降。得益于知识蒸馏技术的出现，现有的蒸馏方法已经在非常低的步数下取得了较为优异的结果。然而目前的方法主要集中在设计新的扩散模型知识蒸馏的采样方法。我们发现如何从教师模型中更好地转移知识是一个更有价值但很少被研究的问题。因此，我们提出了关系扩散蒸馏（Relational Diffusion Distillation，RDD），一种为扩散模型量身定制的新型知识蒸馏方法。与现有方法只是在像素级或特征分布上对齐教师和学生模型不同，我们的方法在蒸馏过程中引入了多样本关系建模，并提出在线队列缓解了多样品蒸馏带来的天然内存负担。

图1 RDD与现有方法的区别

2.方法

(1)多样本像素间关系蒸馏

我们通过像素到像素关系蒸馏引入位置感知特征对齐。我们进一步提出了样品内蒸馏，引入了样品之间的像素相互作用。

图 2 多样本像素间关系蒸馏

(2)基于内存的像素间关系蒸馏

在多样本像素到像素关系蒸馏中，较大的批大小会显著增加内存成本。我们使用一个额外的像素队列来缓存不同批次的不同特征，进一步增加了蒸馏特征的多样性，同时减少了额外的内存成本。

图 3 基于内存的像素间关系蒸馏

3.实验结果

表 1 CIFAR-10上的实验结果

表 2 ImageNet上的实验结果

我们的RDD显著提高了扩散模型中渐进式蒸馏框架的有效性。广泛的实验在多个数据集（如CIFAR-10和ImageNet）上，我们提出的RDD在1次采样下与最先进的扩散蒸馏方法相比可使FID降低1.47，并与DDIM策略相比，在效果几乎无损的情况下速度提高了256倍。

Masked Random Noise for Communication-Efficient Federated Learning

基于近远邻域标签增强和非线性引导的偏多标签学习

作者：

陈煜¹、吴亚楠¹、韩娜²、房小兆^1*、陈炳志³、文杰⁴

单位：

广东工业大学¹，广东技术师范大学²，北京理工大学³，哈尔滨工业大学⁴

邮箱：

chenyu9265324@163.com,

WYN15056801838@163.com,

hannagdut@126.com,

xzhfang168@126.com,

chenbingzhi.smile@gmail.com,

jiewen_pr@126.com

论文:

https://dl.acm.org/doi/10.1145/3664647.3681300

代码：

https://github.com/CcAmbiguous/PML-LENFN

发表会议：ACM MM 2024

*通讯作者

1.研究背景

在机器学习中，现实世界的对象可抽象为包含特征和标签的样本，一个样本往往具有多个标签属性，如电影可能涉及科幻、战争等多个主题；一张图片可能同时包含多种物体（如图1(a))。多标签学习（MLL）能够为样本分配一组离散且非互斥的标签，因此在机器学习领域引起了广泛关注。然而，实际应用中获得准确标注的数据集成本高昂且难以实现。由于特征模糊或人为标注错误，我们通常只能获得包含真实标签和噪声标签的候选标签集合，如图1(b)黑色标签为正确标签，红色为标注错误所导致的噪声标签。偏多标签学习（PML）作为一种弱监督学习框架，致力于在这种监督信息包含错误的不完美的环境中准确预测每个实例的正确多标签类别。而现有PML方法仍存在一些亟待解决的问题：（1）标签值通常为离散数值（0或1），无法有效反映不同标签的置信度差异；（2）多标签间存在非对称相关性，如图片中领带出现时人物同时出现概率高，但人物出现时领带出现概率较低；（3）传统分类算法多为线性模型，而实际决策边界应具备非线性特性。

在机器学习中，现实世界的对象可抽象为包含特征和标签的样本，一个样本往往具有多个标签属性，如电影可能涉及科幻、战争等多个主题；一张图片可能同时包含多种物体（如图1)。多标签学习（MLL）能够为样本分配一组离散且非互斥的标签，因此在机器学习领域引起了广泛关注。然而，实际应用中获得准确标注的数据集成本高昂且难以实现。由于特征模糊或人为标注错误，我们通常只能获得包含真实标签和噪声标签的候选标签集合，如图2黑色标签为正确标签，红色为标注错误所导致的噪声标签。偏多标签学习（PML）作为一种弱监督学习框架，致力于在这种监督信息包含错误的不完美的环境中准确预测每个实例的正确多标签类别。而现有PML方法仍存在一些亟待解决的问题：（1）标签值通常为离散数值（0或1），无法有效反映不同标签的置信度差异；（2）多标签间存在非对称相关性，如图片中领带出现时人物同时出现概率高，但人物出现时领带出现概率较低；（3）传统分类算法多为线性模型，而实际决策边界应具备非线性特性。