袁晓彤 南京信息工程大学

南京信息工程大学袁晓彤教授访谈




2018年5月4日,专委秘书处采访了南京信息工程大学信息与控制学院袁晓彤教授。下面是采访实录。

袁老师,您在机器学习和计算机视觉领域取得了突出的成就,作为骨干成员入选教育部首批认定的“全国高校黄大式师团队”,获得了国家自然科学基金优秀青年基金资助等,能否跟大家分享一下您的研究经历,以及您是如何获得这些成就的呢?

我的研究方向主要包括稀疏学习理论、算法以及图像分析应用等。近年来有部分工作获得了国内外同行们一定程度的认可,但是成果还谈不上突出,需要进一步努力。我的学习和研究经历相对比较丰富。本科就读于南京邮电大学计算机学院。硕士在上海交大电子学院读信息安全专业,期间参与了导师的863项目,从事其中一块图像分析子任务的研究,逐渐对模式识别和机器学习产生了浓厚的兴趣,硕士毕业就毫不犹豫选择到有模式识别的国家队之称的中科院自动化所NLPR实验室继续攻读博士。毕业后在新加坡和美国从事了四年多的博士后研究工作,回国后加入南京信息工程大学工作至今。这期间或多或少积累了一些关于科研方面的心得,其中最重要的一点是觉得在研究的过程中要注重兴趣的培养。兴趣是最好的老师。只有当你对一件事情感兴趣,才会更加愿意花时间花精力去钻研。大家都知道科研是一个漫长的过程,不仅辛苦,也会面临各种各样的问题和困难,比如理论迟迟无法突破、实验跑不出理想的结果、论文发表过程艰辛曲折等等。要想科研道路上坚持走下去并有所成就,既要有迎难而上的精神,也需要注重对兴趣的培养,这样才会有更大的动力去克服遇到的困难。从研究生到博士后的研究,激励我在科研道路前进的,很多时候是心中对于科研的兴趣和一份热爱。2009-2011年期间在新加坡国立大学做博士后研究的时候,常常早上九点之前进入实验室做研究,到了晚上十点钟之后才会离开。除了体育运动,其余时间基本上也都在实验室。其实很多时候并非老板规定如此,而是因为大家对科研都非常投入,有自己感兴趣的课题探索,目标也很明确,要在所研究领域的顶级期刊和会议上发表高质量的论文成果。在这个过程中,兴趣是最好的老师,也是一切努力的最大动力。

同时,培养兴趣的过程也是一个逐步了解和发掘自我潜力的过程。做研究的一个重要方面就是了解自己的特点,找准自己擅长的领域。如果数学基础比较好,可以多关注一些理论和算法方面的课题,如果动手编程能力比较强,可以侧重面向实际应用的模型提升和系统开发研究。如果能够找准方向,做自己擅长和感兴趣的事,那么科研和学习就是一种乐趣,而不是一种负担了。

还有就是心态。科研是一项漫长的工作,有时候出成果并没那么快。尤其是偏基础理论方面的研究,不会很快地看出效果。但另一方面计算机行业发展很快,每天都有大量的新成果出来。既要扎实地做,不能急躁,又要追求时效性,时刻跟上趋势。当面对这样的矛盾时保持平和的心态很重要,坚信只要扎扎实实把工作做好,成果的取得往往是水到渠成的。

您所获得的成果中,哪一项是最令您骄傲的?能和大家分享下您的感受么?

其实我个人比较满意的工作有两个,都是在博士后研究期间完成的。一个是在美国研究期间和张潼老师合作的求解稀疏特征值问题的截断幂方法,发表在JMLR 2013,一个是在新加坡研究期间和颜水成老师、刘小白博士合作的多任务联合稀疏表示与识别方法,发表在CVPR 2010和TIP 2013。这两个工作分别侧重稀疏学习的算法理论和稀疏表示在图像识别问题中的应用,发表后也获得了国内外同行较多的关注。

具体来说,截断幂方法主要用于求解最大稀疏特征值问题,也就是在特征向量稀疏的约束条件下优化给定矩阵的最大特征值。这是一个非凸而且NP难的优化问题,因此需要设计合适的逼近算法来近似求解。针对这个问题,我们提出了一个很直观的解决思路,就是在传统特征值求解幂方法的基础上加入截断处理,使其在迭代过程中保持稀疏性。我们从理论上分析了方法的收敛速度和精度保证。实际性能方面,这个方法的实现非常简单,在稀疏主成分分析和大规模K-子图发现问题中表现出了很好的性能。特别是在大规模K-子图发现问题中,我们的方法无论是速度还是准确度方面都比当时最好的贪婪选择算法有非常显著的提升。这个方法发表后得到统计机器学习和理论计算机领域不少知名学者的正面引用。这项研究给我最大的启示就是机器学习中一些看似简单直观的解决方案,其背后往往蕴藏着比较深刻的理论基础,值得探索挖掘。同时,理论上能证明具有优越性质的方法,在合适的应用场景中其实际性能也往往能够体现出应有的价值。

针对基于稀疏表示的视觉分析问题,2010年左右我们提出了一种基于多任务联合稀疏表示的多视觉特征融合方法,比较早地将多任务联合稀疏学习模型引入计算机视觉,也得到国内外同行较广泛的关注。这个工作当时投CVPR分数并不算特别高,但是领域主席还是给了个Oral。我们觉得一个重要原因可能是当时多任务联合稀疏表示在机器视觉领域还是比较新颖的一类方法,在性能有保证的前提下,计算机视觉的国际会议往往更加关注方法本身的新颖性,这样也更容易引起参会学者的广泛兴趣。

您的论文成果曾获得2015年IEEE Trans. on Multimedia(IEEE T-MM)最佳论文提名,并入选ACM Computing Reviews评选的2012年受关注论文,能否分享一下您在发表高水平论文方面的经验?

论文是研究成果的呈现形式,应该说论文的水平很大程度上是由工作成果的质量所决定的,至于是不是发表在顶刊或者顶会上,很多时候也和一些随机因素相关,因为计算机视觉领域热门期刊或者会议论文投稿量都很大,能不能发表既依赖于本身的水平,也有一定的随机因素在里面,比如审稿人不一定方向一致或者审稿过程仓促等。刨除这些随机的因素,我觉得要写出一篇高质量论文应该在以下几个方面多花功夫。

首先选题一定要有新意。研究的创新性是保证论文质量的关键要素之一。如果做的题目属于比较热门前沿的方向,比如最近几年的深度学习和强化学习等,那么在模型和应用方面能够体现新意的研究点会相对多些,也相对容易取得突破得到一些不错的结果。如果钻研的是一些比较基础和经典的方向,比如机器学习的核心理论与算法等,则更需要在理论和方法创新上下功夫,这方面可以注重和不同方向的交叉,尝试一些别人从来没有尝试过的研究思路,才能更好地体现出新意。要写出创新性强的论文,充分把握当前的研究前沿是重要前提。必须要熟悉和跟踪本领域最具影响的国际期刊和顶级会议上的最新成果,把握前沿脉搏。要熟悉领域方向的大牛,定期访问他们的主页,了解最新动向。

有了新颖的思路和不错的结果,就需要在论文写作方面多花心血,考虑怎样把核心的内容用尽量简洁明了的数学形式和语言清楚地表达出来。我个人觉得其中尤其要注意两个方面,一个是要突出体现研究成果的亮点,不需要很多,一般来说一到两个就足够了,而不是把想要呈现内容不加选择地都写进来。还有一个就是要把自己想象成审稿人,从审稿阅读的角度来审视自己的写作和表达,看是否能够让读者在没有特别强的背景知识下仍然能够把握论文的主要贡献。

此外,对于一篇高质量的论文而言审稿过程中的修改同样非常重要。特别是一些顶级期刊的论文,不少时候都是通过较大修改提高才磨炼出来的。要对审稿人的意见仔细领会解读,逐条认真修改和回复。就我个人而言,有些论文从原始投稿到最后录用发表,其差别可以用天壤之别来形容都不为过。同时,遇到一些比较尖刻的审稿意见也不要轻言放弃。要保持对自己工作的充分信心,针对意见认真改,坚持改,不断提高论文的质量,相信一定能够获得审稿人的认可。

您曾指导学生获得2017年ImageNet Large Scale Visual Recognition Challenge图像检测任务第1名,能否和大家介绍一下这项成果,以及您带领学生获得此成果的奋斗历程?

在这个项目中,我们主要使用了RCNN这种先提取proposal再进行分类和回归的策略。我们的baseline建立在之前一年的RPN+级联区域分类回归的方法之上,然后采用各种策略提高了检测的效果,主要包括多模型融合和检测框回归等。多模型融合方面,我们采用不同的网络结果如ResNet200,ResNet269,ResNet101,和不同的训练数据,对数据集进行重新划分,通过hard example训练precision较高的分类器,通过整个训练集训练recall较高的分类器,最终多模型融合达到对precision和recall的平衡。通过多模型组合的方式提高网络的效果。检测框回归方面,采用了融合proposal周围区域特征的方法,从而有效利用上下文信息。同时,借鉴了Feature Pyramid Networks 的方法,我们将不同层次的卷积特征进行融合,对图像的细粒度细节特征和高层次的抽象特征进行融合。这些方法都有效提高了网络的分类准确性,并且在一定程度上优化了检测框定位效果。

参赛的过程是比较辛苦的。我们团队奋战了两个多月的时间,从大量的参数和模型中进行筛选。我们翻阅了近年来的各种相关论文,进行头脑风暴,并且要在短时间内将想法付诸代码。在此过程中,团队成员经常通宵达旦的工作,就是为了和时间赛跑,为了不让计算资源闲置浪费。比赛的过程虽然艰苦,但是最终的成绩让我们感觉辛苦没有白费。在这个过程中,团队成员的科研以及合作创新能力都得到了很大的锻炼和提升。

您的很多工作与气象领域相关,请问在气象领域进行机器学习和计算机视觉研究,其最大的特点是什么?与其他领域的最大区别是什么呢?

其实我们团队目前涉及气象信息方向的工作重点还是围绕遥感图像分析这一特定应用展开,主要是基于深度神经网络和稀疏低秩表示等方法进行遥感图像的识别。真正涉及气象领域核心业务如天气预报、气候变化、灾害预警等方面的交叉研究还尚未展开,这些也会是我们团队未来重点关注的应用研究方向。关于在气象领域进行机器学习和计算机视觉研究最大的特点,我觉得应该是对结果透明度和可解释性的要求更高也更迫切。由于机器学习特别是深度学习多以数据驱动,很多时候并不清楚模型是如何从数据中得出结果的,可解释性弱也是深度学习面临的最大问题之一。这也导致不少气象领域的研究者对基于AI技术得出的气象分析结果持比较谨慎的态度,特别是当预测的结果无法作出合乎传统天气物理模型的解释的话,那么就会对此存在很多的疑虑。其实利用机器学习和计算机视觉技术进行短时天气预测的精度很多情况下已经达到甚至超越了传统的物理预测模型,因此如何结合气象领域先验知识更好地解释和提高预测结果是很有价值的研究方向。

您曾在新加坡国立大学和美国多所高校进行博士后研究工作,请问您能对新加坡、美国以及我们国家的研究氛围进行一些分析么?对于您个人而言,您觉得哪里的研究氛围比较适合您?

我在国外期间由于是做博士后研究,相对来说可以比较安心地做科研。感觉新加坡和美国的研究氛围是非常不错的,组会交流机制都比较健全,而且经常有机会听到大牛的学术报告。回国工作以后,角色发生改变,不光要自己做研究,同时也需要申报项目、指导研究生、参与一些事务性工作等,要考虑的事情多些,用来做研究的时间也就自然会少些,特别忙的时候甚至是挤时间做科研。尽管在当前阶段和体制下青年教师有时会疲于各种头衔和项目的申报,不过总体感觉国内高校对青年学者的支持力度还是越来越大的。另一方面,我也觉得随着国内外学术交流方式的多样化和普及化,研究的国界区别已经逐渐在淡化。其实我回国后也有不少工作也是和国外的老师和同学继续合作完成的。因此我觉得青年学者如果有志回国发展的话,只要继续努力,有个好的团队支持,多和国内外同行交流,科研上发展的空间同样是很大的。

作为博士生导师,能和大家分享一下您管理学生的经验么?现在研究生普遍反映,导师对学生push得非常厉害,您是如何看待这个问题的?

关于研究生的培养,我其实经验很有限。由于受到博士点的限制,很少能招到合适的博士研究生,目前还是带硕士研究生为主,培养方法也尚处于摸索阶段。总的想法是授人以鱼不如授人以渔,遇到具体的问题我会以一种比较开放的方式指导,注重提高学生学习科研的能动性。在给学生一些研究思路之后,更多的是鼓励他们自己多进行一些调研,多看相关方面的资料,这样也有利于学生和最新的一些技术接轨。

作为一个科研工作者,在忙碌的生活之余,您是如何给自己充电,如何协调工作与家庭的呢?

平时除了工作、搞科研,我周中会有一两天下班后和学校教工队的老师们聚在一起踢会儿球,慢慢地也成了一个惯例。到了周末会尽可能多陪陪家人,会带儿子一起去上个早教课,参加些亲子互动活动,如果天气好的话会带家人一起去附件公园转转,呼吸呼吸新鲜空气。有时也会和家人一起去电影院看个大片,放松一下心情。




袁晓彤

南京信息工程大学信息与控制学院教授,博士生导师。现任南京信息工程大学江苏省大数据分析技术重点实验室副主任,中国计算机学会计算机视觉专委会委员,中国自动化学会模式识别与机器智能专委会委员,IEEE会员。2002年本科毕业于南京邮电大学计算机学院;2005年硕士毕业于上海交通大学电子信息与电气工程学院;2009年毕业于中国科学院自动化研究所模式识别国家重点实验室,获得工学博士学位。2009年8月至2013年8月先后在新加坡国立大学、美国Rutgers大学和 Cornell大学从事博士后研究。近年来在机器学习和计算机视觉领域,围绕稀疏统计学习、概率图模型、随机优化等理论课题以及图像识别、多媒体分析等应用课题上做了大量的工作,取得一系列研究成果。在国内外学术期刊和会议上发表和录用论文70 余篇,其中包括IEEE汇刊及中国计算机学会(CCF)推荐排名A类期刊和会议论文30篇。合作撰写Springer学术专著1部。2017年作为骨干成员入选教育部首批认定的“全国高校黄大式师团队”;2015 年获得国家自然科学基金优秀青年基金资助;2016年获得教育部高等学校科学研究优秀成果奖(自然科学)二等奖。论文成果曾获得2015年IEEE Trans. on Multimedia(IEEE T-MM)最佳论文提名;作为指导老师获得2017年ImageNet Large Scale Visual Recognition Challenge图像检测任务第1名。

                                     (责任编辑:余烨,黄岩,张汗灵)