第九十一期CCF-CV走进高校系列报告会(@武汉大学)云直播活动圆满结束

阅读量:1
2020-09-23


2020年9月19日下午,中国计算机学会计算机视觉专委会(CCF-CV)走进高校系列报告会第91期活动——“计算机视觉前沿技术及应用”通过线上直播的形式在武汉大学成功举行。本期报告会由武汉大学测绘遥感信息工程国家重点实验室•空间智能研究所承办,邀请了中科院自动化所王亮研究员,北京大学黄铁军教授,北京大学林宙辰教授,电子科技大学李宏亮教授四位专家做特邀报告,由武汉大学测绘遥感信息工程国家重点实验室杨必胜教授和涂志刚研究员担任本次报告会的执行主席。在本次报告会上,专家们围绕“计算机视觉领域的前沿技术及应用”做了精彩报告,并在圆桌论坛环节就计算机视觉领域的多个前沿学术问题、热点应用问题进行了深入的探讨,引起了广泛的共鸣。


报告会由武汉大学测绘遥感信息工程国家重点实验室涂志刚研究员主持。


报告会开始由武汉大学测绘遥感信息工程国家重点实验室杨必胜教授致欢迎辞,他首先对四位报告嘉宾的到来表示热烈的欢迎和衷心的感谢,并希望以此为契机加强沟通与交流,争取进行更深层次的合作。随后,杨必胜教授介绍了武汉大学测绘遥感信息工程国家重点实验室的基本情况,希望通过各位专家的精彩报告和深入讨论,为计算机视觉前沿技术的研究与应用、计算机视觉与遥感等学科的融合带来重要的指引和启发。最后,对全国各大高校与会专家学者的到来,以及中国计算机学会计算机视觉专委会为本次活动的艰苦付出,表示衷心的感谢。


报告信息

中科院自动化所王亮研究员的报告题目是“自然语言驱动的行人搜索”。传统的行人搜索大多是单模态的,即给定一张包含行人的查询图像去检索同一个行人的其他图像。而自然语言驱动的行人搜索则是给定一段描述行人的自然语言,然后查询描述相同行人的图像。目前应用场景为多模态智能监控,未来可潜在应用到人机交互等更一般的场景下。报告人简要地回顾自然语言驱动的行人搜索任务的定义和主要难点,详细介绍如何在跨模态语义不一致的基础上处理细粒度匹配和跨域学习等问题,最后讨论了未来可能的发展方向。


北京大学信息科学技术学院黄铁军教授的报告题目是“视达:超高速脉冲视觉芯片与系统”。报告指出视觉信息最基本的形式是图像和视频,其根本缺陷是丢失了光的时域信息。黄教授组提出了一种物理意义更准确、形式更简洁的视觉形式,称为视达(vidar),采用脉冲序列表达光的变化过程,能够有效保留物理光流的时序信息,研制了速度相当于传统视频4万帧的视觉达片,采用脉冲神经网络开发了超高速目标检测跟踪系统,能够准确识别每秒40转的风扇上的文字。


北京大学林宙辰教授的报告题目是“基于偏微分算子的等变卷积”。传统的卷积神经网络(CNN)模型只能对平移群等变,而不能对更大的群,如旋转群等变。针对这一问题,报告首先介绍了群等变卷积模型和近似等变卷积模型的研究现状;接着提出了一种基于偏微分算子的等变卷积,该卷积通过卷积和偏微分算子(PDO)之间的联系实现,可以轻松嵌入到已有的CNN模型中,并在离散域上保持良好的等变性;最后实验结果表明,该方法在参数效率和性能上都优于传统CNN模型。


电子科技大学李宏亮教授的报告题目是“面向多实例分割的噪声标签学习”。多实例分割近几年已经取得了显著的进展。现有方法性能大都建立在可靠且正确的类别标签之上,但在训练标签发生错误时,其对分割模型精度的影响以及相应解决方案仍然少有关注。研究发现由于类别之间存在的某些相似性和标注者有限的经验极容易导致错误的类别标签。本次报告重点讨论了在标签污染情况下如何解决多实例分割问题。介绍了在实例分割的前景-背景任务和前景-实例任务中,如何使用不同的带噪类别标签的损失描述来提升模型的学习精度。该方法在多个噪声数据集上面取得了显著的分割效果。


圆桌会议

四位专家的报告深入浅出,内容精彩,图文并茂。随后的圆桌论坛环节由杨必胜教授主持。各位专家针对杨教授提出的议题展开了热烈讨论,专家观点总结如下:

(1) 请问为什么要研究“多模态语义”?“多模态语义”对行人搜索主要影响在哪?

答:传统的行人搜索大部分是以图搜图,对图像场景的语义理解能力较为有限。多模态语义包含除图像模态之外的语言模态,能够极大丰富对图像场景中语义信息表达,在增强行人搜索性能的同时,还可以潜在应用到多模态智能监控和人机交互等新场景,进一步拓宽行人搜索的应用范围。

(2) 视达是当前非常具有前沿性和颠覆性的概念,请问视达对当前视觉信息处理颠覆性的影响在哪些方面?视达技术突破性发展的难点在哪里?

答:当前视达并没有特别的难点之处,只是人们已经习惯现有的算法模式,让大家开始适应另一种技术体系,还是需要一个过程。但是视达在技术上可以把之前很繁琐的算法和技术特征点转化成比较简单的形式,因此视达这个新框架的运用非常有利于成果产出。希望能在后续性能更优异的硬件的支持下(采用特定数据流的相机)加快发展,视达技术能够被大众广泛使用。

(3) 请问林老师,您提出的“偏微分神经网络”除了对现有的神经网络框架在参数量减少上有很大的帮助外,还会带来其他什么好的影响呢?

答:偏微分神经网络架构可以替换所有的卷积神经网络,不仅可以减少参数,提升模型性能,还会对数据增广有很大的帮助。当前的数据增强运用旋转,镜像等几何方面的增强手段,而偏微分卷积神经网络可以完美的替代这些工作。

(4) 请问“多实例分割”在应用方面主要的挑战有哪些?

答:多实例分割的应用领域是相当广泛的,它的方法和策略后续可以很好地适用于检测等领域。当前的难点在于它的标签污染和场景有很大的关系。同时,噪声标签和困难样本怎么精准地区分开来,也是一直困扰分类和分割的重要难点。另外多实例分割的标签标注非常麻烦,能否用少量的数据(几张标注图片)做出大量的数据效果,这是值得我们思考的方向。让模型更加靠近人的学习过程,是我们要追求的目标。

(5) 计算机视觉的快速发展运用到各种领域,那么人工智能技术在各个领域之间的交叉融合会产生怎么样的颠覆性变革和发展?

答:首先,计算机视觉技术在很多领域都产生了良好的应用效果,但仍然有着一定的安全漏洞和缺陷,比如人脸识别可以很容易被某种手段欺骗。因此安全问题不解决,就没办法更进一步地发展应用;其次视觉必然朝着动态的方向发展,也会带来更大的挑战。在特殊的领域对视觉技术应当做出特殊的适应和改变,例如在脑科学方面,交叉融合的效果与我们预期还有差距。因此学科交叉应当因地制宜,不能为了交叉而交叉。需要多从机器学习的角度把数据要求降低,这样一来计算机视觉能够更好的解决数据上的问题,从而更加有针对性的交叉融合。在数据交叉方面,各个领域的特性会影响计算机视觉的具体应用过程,隐私,安全,成本等问题都会成为影响计算机视觉技术进一步落地发展的重要因素。所以多领域的交叉融合想要带来颠覆性的变革,离不开对计算机视觉技术在领域内的应用挖掘和因地制宜。

活动总结


最后,杨必胜教授进行活动总结,再次向与会的各位专家学者表示衷心的感谢,并期待更多的专家、老师和同学能关注武汉大学计算机视觉技术的发展,共同努力推动计算机视觉的研究和应用,祝贺报告会取得了圆满成功!

会议组织方介绍

武汉大学是中华人民共和国教育部直属重点综合大学,“985工程”、“211工程”和“2011计划”重点建设高等院校,学科覆盖文、史、哲、经、管、法、理、工、农、医、教、艺全部12个门类,是一所覆盖全部学科门类的综合研究型大学。在2017年中国校友会网中国大学排行榜中,武汉大学綜合排名第3位。

测绘遥感信息工程国家重点实验室(武汉大学)于1989年成立,是我国测绘学科第一个国家级重点实验室。2004年,在国家科技部等部委召开的国家重点实验室建设20周年总结表彰大会上,实验室被授予先进集体称号,获“金牛奖”;在国家科技部组织的每五年一次评估中,2000年、2005年、2010年、2015年连续四次被评为“优秀”国家重点实验室。实验室现有中国科学院与工程院院士3人,千人计划学者5人,国家杰出青年科学基金获得者4人,“长江学者奖励计划”特聘教授7位,国防科技卓越青年人才基金获得者1人,国家优秀青年科学基金获得者5人,“长江学者奖励计划”青年学者1人,青年千人计划学者3人,1个国家自然科学基金创新群体,和1个教育部创新团队。近3年共主持“十三五”重点研发计划项目6项,年均科研经费1.3亿元。近5年实验室共获得国家级科技奖励12项,省部级一等奖以上奖励32项,2013年,实验室荣获国家科学技术进步奖国际合作奖,2014年,实验室获得国家科学技术进步奖创新团队奖。