殷绪成 北京科技大学
北京科技大学殷绪成教授访谈 |
2021年1月12日,《CCF-CV专委简报》在线采访了北京科技大学计算机与通信工程学院模式识别与人工智能技术创新实验室主任殷绪成教授。下面是采访实录。
殷老师,您好!首先,请您跟大家分享一下您的个人研究经历。
我2006年博士毕业于中国科学院自动化研究所,博士论文为“金融票据识别系统的应用研究”,针对金融票据(银行票据、保险保单等)文档图像分析与文字识别进行方法研究,并结合汉王OCR产品与系统进行了技术应用,率先在国内研制了大规模应用的银行票据识别系统。
2006年至2008年,在富士通研究开发中心担任研究员(Scientific Researcher),主要从事手机拍照文档图像分析与识别研究,发明了文档图像透视形变快速矫正技术,研发了业内首款手机文档拍照自动在线矫正处理应用程序(F905i/F906i/F01A,2007年)。
2008年6月,回到北京科技大学计算机系从事教学科研工作,从事模式识别、文字识别、计算机视觉研究,先后任副教授、教授,担任模式识别与人工智能技术创新实验室、北京科技大学-亿智电子科技人工智能联合实验室主任。十多年来,一直以大规模、强复杂自然场景/网络图片/复杂视频文本检测、跟踪与识别为中心,开展方法研究与技术创新,研制了网络图像文本识别技术超大规模应用系统。
您在文字识别及文档图像分析与识别领域取得了很大成就,能否分享一下您对这个领域的研究现状和未来发展情况的认识?针对这个领域的研究者,您有什么建议?
文字识别、文档图像分析与识别是模式识别、计算机视觉中的一个经典领域,也是整个人工智能中最早的一个热点研究领域之一。20世纪60年代初,IBM推出了世界上首个商业化OCR产品,也是世界上早期商业化人工智能产品的代表。80、90年代,文字识别相关论文占据了IEEE T-PAMI期刊的小半边江山。
目前,随着移动互联网、智能物联网、人工智能的迅猛发展,涌现了海量的自然场景图像、网络图像视频、历史文化文档、财务财会票据、法律法规文件等电子化文档图像数据,文字识别又一次成为模式识别中一个重要的热点研究领域。其中,自然场景、网络图像文本检测与识别,特别是多语言文本检测与识别,依然是当前及将来的热点研究。同时,个人认为,文字识别研究未来发展还包括以下几个问题:
(1)小样本学习方法及可解释性问题,不仅是模式识别、机器学习、人工智能中的核心问题,更是多语言、跨场景文字识别研究中现实的基础问题;
(2)自然语言处理技术及多模态信息融合问题,即嵌入自然语言处理技术、融合文本/图像/视频等多模态信息,服务于文档图像分析与识别,将是未来文字识别研究的一个趋势;
(3)复杂中文手写文档图像分析与识别问题,一直都是文档图像分析与识别领域的一个难点问题,也是中国文字识别科研工作者当仁不让的责任,需要国内学术界、产业界大力支持与通力合作。
您作为第一完成人,负责的“网络图像视频大数据的智能识别关键技术及应用”项目获得了2019年度北京市科技进步一等奖,能否分享一下这项成果?您的感受或者“获奖感言”是什么?
我们的“网络图像视频大数据的智能识别关键技术及应用”项目有幸获得2019年度北京市科技进步一等奖,虽然本人是第一完成人,主要还是团队、合作伙伴大家一起努力的结果。
项目提出了鲁棒模型构建、快速增量匹配等新方法,突破了文字、目标、视频智能识别等关键技术,构建了先进的文字识别及多媒体大数据智能分析平台架构,建设了面向国家互联网信息实时分析的图像识别与信息管理应用系统、面向城市物联网的智能感知与市政城管应用系统等多个超大规模技术应用系统,有力地保障了国家网络信息规范利用和城市管理,产生了重要的社会效益和经济效益。
该项目是一个典型的产学研深度融合实例。自从2008年回到北京科技大学从事教学科研工作以来,本人及团队以应用研究为主,针对模式识别、文字识别、计算机视觉领域中的共性技术挑战,先后和富士通、三星、汉王、科大讯飞、腾讯等单位,进行了良好的技术交流与合作研究,产学研成效明显,不仅推进了人工智能技术创新与成果落地,也提升了学校人工智能人才培养质量。
您连续四届(2013、2015、2017和2019年)荣获国际文档分析与识别大会技术竞赛文本检测和文本识别等15项冠军,这非常难得,请问您是如何做到的?能传授一下您的经验么?
国际文档分析与识别大会Robust Reading技术竞赛是国际模式识别领域代表性的重要经典赛事;从2003年设置以来,几乎世界上学术界、工业界所有重要的文字识别研究团队都参与了该项赛事,累计几百支团队参加了评测。
2013年是我们第一次参赛,当时我们提出了一种快速的文本检测新方法,比较幸运地赢得了那届比赛自然场景文本检测和网络图片文本检测双料冠军;同期,我们的新方法论文投稿IEEE T-PAMI也被接收了(Robust Text Detection in Natural Scene Images, IEEE T-PAMI, 36(5): 970-983, 2014);同时,当时我们的技术也做了手机APP Demo,能够实时完成手机拍照场景文本检测,后来技术许可给了三星公司(2013年)。后面几届的竞赛也越来越难,越来越激烈。2019年那届,上百支队伍参加了比赛,包括了国内最顶级的互联网、高科技及人工智能公司的研究团队。
个人觉得,参加技术竞赛,不管是国内比赛还是国际评测,最重要的是两点:
第一,对于竞赛主题要有一个深入的了解,最好有一个性能还不错的创新方法,能够解决竞赛主题的核心问题。这样,既可以通过竞赛验证方法的创新性和有效性,也可以通过竞赛激励自己,提升研究的兴趣。
第二,对于竞赛任务要有一个充分的认识,需要一个较长时间的准备工作,最好是一个研究小组一起准备。现在几乎每一项学术竞赛竞争都比较激烈,如果没有较长时间的应赛准备,而是匆忙参赛,一般很难取得理想的成绩,这样反而会影响研究的积极性。
您早期曾在汉王科技股份有限公司研发中心任研发工程师及技术经理,也曾在富士通研究开发中心信息技术部担任过研究员,请问您为什么最后还是选择了在高校工作呢?您觉得在公司和高校的最大区别是什么?
我先后在汉王科技、富士通研究开发中心工作了6年,主要从事文字识别、模式识别相关的研发工作。企业工作的一个主要特点为,工作任务相对固定,工作进度相对严格,缺乏一定的自主性;如果希望从事一些自己感兴趣的研究课题,还是在高校更合适些,可以长期地进行探索,张弛有度。公司和高校另外一个区别就是,公司的研究工作具有很强的应用性和经济性,希望研究成果当年或尽快能够给公司带来直接的收益。而高校的研究工作具有长期性和公益性,侧重于原理方法的创新性和人才培养的有效性,当然,如果具有落地应用的价值则更好。个人认为,不管是在公司,还是在科研院所和高校做研究,方法或技术的创新性都是基本要求,都各有优势和局限性,“只有合适的,没有最好的”。
您担任模式识别与人工智能技术创新实验室主任,能否分享一下该实验室的宗旨、研究方向及其建设情况?
我们模式识别与人工智能技术创新实验室由1名教授、3名副教授、2名教师/博士后和50余名博士硕士研究生组成。实验室主要从事模式识别、文字识别、计算机视觉等领域的应用研究与技术创新,追求“顶天立地”,面向国家战略需求应用(互联网信息安全、人工智能芯片、智能制造)及人工智能垂直应用,重点研究创新性强、可用性高的共性关键技术。
2016年,我们成立了北京科技大学-亿智电子科技人工智能联合实验室,专注于面向智能驾驶、智能安防、智能物联网等智能边缘计算应用的图像识别技术,重点关注人工智能芯片的算法研究与创新应用。经过几年的发展,在系统级(SoC)人工智能芯片技术研究与应用方面,取得了不错的进展,车牌识别、车辆识别、人脸识别等已在系统级人工智能芯片中进行软硬一体化设计与规模化应用。
您2013、2014和2016年3次在美国University of Massachusetts Amherst 和 University of Massachusetts Medical School进行了访问交流,能否分享一下您这段时间的主要研究工作及您对国外研究环境的看法?
我三次在University of Massachusetts进行访问交流,合作实验室包括智能信息检索中心、计算机视觉实验室和生物信息自然语言处理实验室,跨度比较大,印象比较深。
首先,从研究条件来说,中国跟美国、国外没有明显的差距,研究水平也互有优势,单从CV、IR、NLP顶会顶刊论文发表来看,在2013、2014年时国内外就没有明显差别了。当然,在特定领域或特定点,我们还有很多事情需要继续努力。
同时,国内外高校教授对于具体研究工作的开展差别还是比较大的。国内很多高校里,往往强调大团队、大项目、大成果,知名教授很多精力花在团队管理、项目申报、成果宣传上,对于具体点、具体研究任务的长期跟进与深入探讨,则投入时间不多。在University of Massachusetts接触的几位教授,虽然他们也要花时间去申请项目,但是对于具体点的研究非常关注,对于具体方法和研究细节也比较投入。像ACM Fellow Bruce Croft教授,也是国际信息检索领域泰斗级人物,每周有固定几个上午和学生讨论课题与修改论文,而且非常认真、投入。这些给我留下了很深的印象。也希望自己在关注团队、项目的同时,能够花更大的时间在具体研究内容及研究方法上,这也是我自己需要持续改进的地方。
您是如何将您的科研经验及成果融入教学之中的?
这是一个非常大的问题。高校工作的两个主要内容,教育教学和科学研究;但是,高校工作最本质的还是教育教学及人才培养。高校科研的核心要求之一就是,利用科学研究丰富教育教学方式,提升教育教学质量,推进人才培养。
在课程教学中,融入相关的技术方法和最新的科研成果,能够激发同学们的学习兴趣,提升学习效果。我主讲《离散数学》、《软件工程》、《人工智能》等课程。在讲《离散数学》图论中加权图及最短路径问题时,除了介绍经典的Dijkstra算法,往往会扩展最短路径及动态规划方法,并介绍这些方法在物流路径规划、视频时序分析等领域的应用技术。这样,使学生感觉不仅仅在学这个具体的知识点,而是了解这个知识点的应用及其现实重要性。同时,我们还有设置一个Course Project,利用最短路径方法来做一个北京地铁票价原型系统。
如果吐露研究工作者的心声,您最想说的是什么?
我在模式识别、文字识别、计算机视觉领域进行了近二十年的学习与研究,虽然没有取得很大的成绩,但是还是有一些不太成熟的心得,一些经验或者说是教训。其中,最重要的一条是,“做事情还是要专注。”我相信,在研究中,专注到一个具体的点,锲而不舍,坚持到底,数年后,就可能带来突破。
谢谢大家!
责任编委 余烨 赵振兵
殷绪成,男,北京科技大学教授、博导,计算机与通信工程学院副院长,模式识别与人工智能技术创新实验室、北京科技大学-亿智电子科技人工智能联合实验室主任,中国图象图形学学会文档图像分析与识别专委会副主任/秘书长、中国自动化学会模式识别与机器智能专委会委员、中国计算机学会计算机视觉专委会委员、中国人工智能学会模式识别专委会委员。主要研究领域包括模式识别、文字识别、计算机视觉及人工智能芯片技术,近五年在中国计算机学会推荐的国际期刊和会议上发表论文四十多篇,连续四届(2013、2015、2017和2019年)荣获国际文档分析与识别大会技术竞赛文本检测和文本识别等15项冠军,获2019年度北京市科技进步一等奖(第一完成人)、2018年度教育部科技进步二等奖(第一完成人)。 |