第九十八期CCF-CV走进高校系列报告会(@中山大学)圆满结束

阅读量:20
2021-05-05


2021年4月9日,由中国计算机学会计算机视觉专委会主办、中山大学计算机学院承办的第98期CCF-CV走进高校系列报告会在中山大学东校区成功召开。会议邀请了南京信息工程大学刘青山教授、中科院计算所山世光研究员、爱奇艺资深科学家王涛博士、华中科技大学白翔教授、微软亚洲研究院王井东研究员、中科院自动化所王亮研究员、北京大学林宙辰教授、东南大学耿新教授以及大连理工大学卢湖川教授等九位专家做特邀报告。中山大学赖剑煌教授、郑伟诗教授、任传贤副教授和谢晓华副教授担任会议执行主席。师生们聆听了专家们的报告,反响强烈。



会上,中山大学计算机学院赖剑煌教授首先致辞,对各位专家学者以及与会师生的到来表示热烈欢迎和衷心感谢。赖教授表示,CCF-CV走进高校报告会的目的是为了介绍和普及前沿的人工智能、计算机视觉和深度学习技术,共同促进中国人工智能和计算机视觉领域的发展。中山大学计算机学院在人工智能及计算机视觉领域的学术研究氛围活跃,目前所取得的进步也离不开同行们的支持,希望以此为契机进一步促进和加强学术交流与合作,为计算机视觉领域的发展贡献力量。


报告信息

南京信息工程大学刘青山教授首先做特邀报告,其报告题目是“基于深度学习的遥感图像分析与应用”。刘教授表示,随着遥感技术的快速发展,遥感影像数据呈爆炸式增长,同时遥感数据具有高维度、多模态的特点,这些因素给智能遥感图像分析带来了巨大挑战。近年来,深度学习技术因其具有自适应特征提取、高效数据处理的优势,在遥感图像分析中获得了越来越多的关注。随后他重点介绍了课题组近年来在遥感图像分析的工作,其中包括了多尺度深度特征提取网络、类别引导的特征解耦网络、双分支注意力网络等,并展示了这些技术在气旋检测、实时降水量估计、温度湿度的反演等诸多气象相关应用上的良好效果。


中科院计算所山世光研究员做主题为“视觉情感理解:利用解耦-验算思想的自监督学习方法”的报告。山博士首先总结了近年来关于视觉自监督学习的进展。视觉自监督学习是一种在无需额外标注的情况下从大规模未标记图像或视频数据中学习视觉特征的无监督学习方法。为了从无标签数据中学到视觉特征,常用的方法一般先利用自动生成的伪标签去学习代理任务,然后再迁移到当前的任务上。随后,山博士提出了一种基于解耦-验算的自监督学习方法,该方法先对输入进行分量特征解耦,再合成输入(或者交叉合成新样本),最后验证重构误差(或者重新解耦新样本并验算分量特征的正确性)。最后,山博士分别展示了该方法在面部动作检测、生理信号估计、视线估计等问题上的成功应用。


爱奇艺资深科学家王涛博士作主题为“爱奇艺5G高新视频应用探索”的报告。王博士介绍了爱奇艺公司发展的背景以及计算机视觉技术在爱奇艺公司的应用。他表示,具备高带宽低延时的特性的5G网络,能够解除视频数据的传输瓶颈,给用户带来更高清、更流畅的视觉体验,将进一步刺激视频类大流量业务的发展。随后,王博士介绍了爱奇艺公司在互动视频、智能审核、智能视频制作、虚拟现实等领域的应用探索,并指出其中需要重点关注的业务需求,最后呼吁各位专家和学者们能够一起解决工业界里面遇到的问题,共同推动计算机视觉的产品落地情况。


华中科技大学白翔教授作主题为“场景文本检测与识别技术现状、挑战与未来趋势”的报告。白教授指出,场景文字识别在图像理解、商品搜索、无人驾驶定位及导航、人机交互及虚拟现实等领域有着重要的应用价值。场景文本识别一般包括文本检测和文本识别两个步骤。在文本检测任务上,白教授研究团队针对倾斜文本、密集文本、弯曲文本提出了一系列的解决方案,其中包括TextBoxes、Seglink等模型。在文本识别任务上,白教授团队提出了端到端的CRNN文字识别模型以及带自适应文本矫正功能的ASTER模型。最后,白教授展示了场景文字识别在图像场景理解、商品识别、图像文字编辑、图像文字查找等方面的应用,并对场景文字识别的发展趋势做了展望。


微软亚洲研究院王井东研究员作主题为“人体姿态估计:高分辨率网络和分解的关键点回归”的报告。王博士首先对目前的人体姿态估计的方法做了简要归纳;人体姿态估计方法主要分为基于单独人体检测的自顶向下的方法、基于聚类的自底向上方法、基于回归的自底向上方法。他指出,上述方法都需要高分辨率的特征表达,从而提高关键点定位的精度。为此,王博士课题组分别提出了高分辨率特征提取网络和基于解耦的特征点回归网络,将这些结构嵌入到目前人体姿态估计方法中能够极大地提高性能。此外,王博士还向同学们分享了阅读论文的方法和工具,帮助解决同学们在做科研时遇到的困难。


中科院自动化所王亮研究员作主题为“自然语言驱动的行人搜索”的报告。王博士表示,自然语言驱动的行人搜索是指给定一段描述行人的自然语言,然后查询跟描述一致行人的图像。该技术在智能监控、自动驾驶、智能家居、人机交互都有潜在的实际应用价值。自然语言驱动的行人搜索任务实际上涉及到多模态数据的分析,它既包含了对自然语言的理解,又包含了图像视频的理解。随后,王博士提出了基于注意力机制的特征对齐网络来对行人图像与语言描述之间的全局粗粒度和局部细粒度的对应关系进行建模。针对语言描述区分性不强的问题,王博士提出了长距离依赖关系嵌入的语言特征学习方法,从而强化语言描述的差异性。针对跨模态跨域的度量学习问题,他提出了利用分类器参数分布特征来间接对齐不同模态数据的矩对齐网络。最后王博士给出了该领域还存在的问题及相应的研究方向。


北京大学林宙辰教授作主题为“Learned Extragradient ISTA with Interpretable Residual Structures for Sparse Coding”的报告。林教授首先介绍了稀疏编码的问题背景并重点介绍了目前求解该问题的优化方法ISTA(Iterative Shrinkage Thresholding Algorithm)。随后,林教授提出了一种改进的ISTA方法,该方法将ISTA算法计算公式里面的系数改为可学习的参数,结合额外梯度法(Extragradient Method)的思想在网络结构和阈值函数方面做了优化,使得该算法具有更好的数据适应性和模型可解释性,在图像填充任务上表现出更好的性能。同时林教授还证明了该算法在理论上是保证收敛的。林教授的工作在如何利用知识指导网络结构设计方面给同学们带来了很好的启发。


东南大学耿新教授作主题为“标记增强:释放标记空间的威力”的报告。耿教授指出,现有许多数据集的标记,均采用0/1标记,即用0表示类别不相关,用1表示类别相关。但是现实世界往往存在类别模糊、图像有歧义的场景,这时需要使用一个0到1之间的值表示实例的类别概率,这种标注称为细标签(fine label)。从0/1粗标签中获得细标签的方法称为标记增强方法。耿教授团队利用变分推断方法为标记增强任务提供了理论解释,然后总结了现有的标记增强方法,其中包括模糊聚类、标签软化(label smoothing)和知识蒸馏等。随后,耿教授提出了基于平滑性假设约束的标记分布学习方法以及联合领域知识和强化学习的标记增强方法,并将这些方法成功应用于年龄估计、表情识别、颜值评价等任务上。


大连理工大学卢湖川教授作题为“高性能视觉跟踪算法”的报告。视觉跟踪的定义是在视频第一帧指定感兴趣的目标,然后在接下来的所有帧中跟踪这个目标。卢教授简要回顾了视觉跟踪的发展和挑战,依据是否有对目标进行更新的准则将基于深度学习的视觉跟踪方法分为两类:one-shot方法以及online方法。随后,他介绍了实验室在最近一年所做的工作,其中包括自适应目标更新机制的online跟踪方法、基于transformer的跟踪方法、具有精确边框定位功能的通用模块设计、基于神经网络自动搜索的轻量化跟踪模型等。这些工作追求实现轻量、快速、精准的视觉跟踪模型,使得将其移植到移动端成为了可能。


此次CCF-CV走进高校报告会安排了两个半天时间。专家们的报告深入浅出,让参会人员收获了满满的干货。每位专家作完报告后,在场的师生们就科研的知识储备、切入点、方法细节、投稿回复等相关方面纷纷提出自己感兴趣的问题,专家们也给出了详尽而又可靠的解答。报告会在热烈的掌声中圆满结束。