视界无限-第七期CCF-CV“视界无限”系列研讨会于北京工业大学成功举办

第七期CCF-CV“视界无限”系列研讨会于北京工业大学成功举办

阅读量：180

2020-11-13

2020年11月8日，由中国计算机学会计算机视觉专委会主办的第7期CCF-CV“视界无限”系列活动——“视觉行为理解（VAU）的前沿进展与未来趋势”研讨会在北京工业大学成功举办。研讨会邀请了浙江大学杨易教授，中国人民大学金琴教授，上海交通大学林巍峣教授，南京大学王利民教授，北京工业大学胡永利教授，中科院自动化所黄岩副研究员，南京理工大学舒祥波教授做主题报告并参与圆桌讨论。北京工业大学科学技术发展院陈国英副院长、中国计算机学会计算机视觉专委会主任、北京大学查红彬教授，中国计算机学会计算机视觉专委会副主任、中科院自动化所王亮研究员，中国计算机学会计算机视觉专委会秘书长、北京邮电大学马占宇教授出席活动。本期研讨会由北京人工智能研究院、北京工业大学信息学部承办，北京工业大学科学技术发展院协办，北京工业大学尹宝才教授、毋立芳教授任执行主席。CCF计算机视觉专委会B站公众号进行了全程直播。

研讨会由北京人工智能研究院副院长冀俊忠教授、北京工业大学信息学部顾锞教授、毋立芳教授主持。

北京工业大学科学技术发展研究院陈国英副院长致欢迎辞，陈院长首先对各位专家的到来表示热烈欢迎和衷心感谢，她指出人工智能是当今非常热门的研究领域，很难得的机会可以与各位专家交流，北京工业大学为了推动首都人工智能的技术进步和发展，专门成立了北京人工智能研究院，希望北京工业大学能够在专委会的支持和帮助下，同各位专家为人工智能腾飞共同发力。希望同学们在专家的带领下，不断学习，将来成为行业内的新生力量，栋梁之才！

中国计算机学会计算机视觉专委会主任查红彬教授致辞，查教授指出北京工业大学作为市属高校成立北京人工智能研究院，CCF-CV专委的视界无限活动能在这里举办很有意义，很高兴能够一起探讨计算机视觉、人工智能方面的前沿问题。CCF-CV有非常丰富的系列活动包括走进高校、走进企业、视界无限等。其中视界无限活动定位围绕一个主题进行深入讨论，希望通过本期活动，对于从事“视觉行为理解”领域研究的老师和同学有所启发。也感谢北京工业大学相关的老师、同学们为举办本次活动做出的努力。最后预祝活动圆满成功。

毋立芳教授引导发言的题目是“视觉行为理解的一点思考与实践”。毋教授从看图说话的基本范式抽象出视觉理解任务包括对象识别、行为识别、场景识别、行为描述等，并进一步分析了视觉行为识别以及群体行为识别面临的挑战，如相同对象的不同关系表达不同行为、相同关系的不同组合顺序表达不同行为、群体行为和个体行为的复杂关系，以及行为描述面临的语义鸿沟、多模态对齐等问题，相信通过今天的活动，一线专家的经验分享能够给大家带来启示。最后简单介绍了他们组的基于运动模式的群体行为识别工作。

杨易教授的报告题目是“Towards efficient and effective video analysis”。杨教授指出视频比图像包含更多的信息，但对视频的行为理解分析，却比处理图像的难度大很多。因此对于视频的行为分析理解，要做到兼顾效率与准确性。针对上述问题，杨教授介绍了feature aggregation网络、multi-rate modeling方法、Faster recurrent networks for efficient video classification论文中实现的网络框架、专门针对视频分析如何提高标注效率的SF-Net。最后介绍了第一视角的视频的应用场景，在object-centric feature alignment上提出了一种新的attention机制。

金琴教授的报告题目是“Visual activity understanding: my two cents”。金教授认为视觉行为理解是很宽的一个主题，我们可以从不同方面、不同的层次、不同的数据集、不同的领域等细分视觉行为理解的工作。主要讲解：1.视觉关系检测，以及其中重要的human object interaction (HOI)检测的相关工作。2.针对更为复杂的用自然语言描述图像/视频行为的相关工作。3.特定领域、细粒度行为的一些总结，最后介绍了未来的研究方向。

林巍峣教授的报告题目是“以人为中心的复杂视频分析挑战”。重点介绍了自己团队在数据集方面的工作。在数据标注的过程中，针对目标检测、姿态估计、姿态跟踪、行为分析等任务对数据进行了不同级别的标注，对现有主流的MSCOCO、MPII、CrowdPose等数据集进行了对比。介绍了举办的ACM MM Grand Challenge，最后介绍了未来的研究方向，讲解了论文Multi-source sounding object localization如何通过音频信息将视频中的目标定位出来。

王利民教授的报告题目是视频动作理解：识别、检测与跟踪。王教授首先介绍了近年来视频理解领域的相关进展，之后深入浅出地讲解了他们组在视频人体动作理解方面的系列工作，包括：1.视频运动的表征方法。2. 视频动作的检测框架。3. 视频目标的跟踪技术。针对视频短时运动的表征与建模，提出了简单高效的时序建模模块（TEINet and TAM）, 在速度效率和建模精度方面取得较好的效果；针对动作时空检测，提出了一种免锚框设计的时空管道检测器（MOC）；针对视频目标跟踪，提出了一种简单的在线跟踪框架（FCOT），通过设计全卷积操作同时实现物体中心和大小的估计。

胡永利教授的报告题目是“流形上的稀疏低秩表示模型及应用”。胡教授首先从如何无监督地获取视频信息这个问题切入，引出了稀疏低秩表示模型这个方法，并介绍了几个经典模型。随后介绍了他们团队提出的流形上的稀疏低秩表示模型，在高维数据流形表示的基础上，建立了单一流形、乘积流形和异构流形上的低秩表示模型，给出了保持数据流形结构和非线性度量的模型约束，并解决了流形上稀疏低秩模型的复杂优化问题。将流形上的稀疏低秩表示模型应用于图像视频等高维数据的聚类，所提出的流形空间方法对比欧氏空间方法性能得到大幅提升。

黄岩副研究员的报告题目是“弱监督和语言驱动的视频行为定位”。黄老师首先介绍了视频行为定位的定义，又举例说明了弱监督行为定位如何进行标签标注。黄老师认为弱监督标签可以减少标注的代价，并结合两个工作说明了弱监督方法的可行性：1. 如何建模不同行为标签之间的关系以缓解行为不均衡问题。2. 如何高效地进行跨模态行为搜索。最后黄老师简要展望了未来可能的发展方向。

舒祥波教授的报告题目是“个体-交互-群体”多粒度下的视频行为解析进展。舒老师从三个方面进行此次汇报：1、骨骼点动作预测合成，2、交互动作分析，3、群体活动分析。在骨骼点动作预测方面，他们团队使用了时空协同注意力RNN的方法，利用注意力机制在时空两个维度捕捉关键性骨骼点。在交互动作识别方面，舒老师团队提出了一种新的长短时同现记忆网络，利用该网络来直接学习人与人的关联动作特征，而不是个体动作特征。在群体活动分析方面，舒老师认为个体“有用”动作与自身前后的动作具有相似的特征表达，个体“有用”动作与其他个体的大部分动作具有相似的特征表达。因此，制定了一种基于一致性约束图LSTM的个体-群体行为识别方法。最后简要讨论了未来可能的重点研究方向。

紧接着是panel环节，毋立芳教授和七位讲者一起探讨了视觉行为理解领域前沿问题和发展趋势。

最后，由北京工业大学信息学部副主任杨震教授进行活动总结。杨主任感谢计算机学会计算机视觉专委会将每季度一次的重大活动“视界无限”放在北工大来举行，同时感谢讲者们为在场的师生以及线上的同学们送上了精彩的学术盛宴。

Panel 实录

为了惠及广大研究者，每期“视界无限”精选嘉宾观点进行分享，以下为本期本期研讨会Panel实录。

毋立芳：大家好，很高兴有机会与各位专家一起探讨视频行为理解的相关问题，首先请教一下各位老师，视频行为理解目前处于一个什么时期？

杨易：我感觉现在其实精度什么的都在提高，所以在有些特定的受控的环境里可能是可以用起来的，但是如果是在开放的、大规模的，尤其是对时间的时序特征、时序信息要求比较高的场景中，可能还是需要我们大量的研究。

金琴：从高层次理解这个层面来讲的话，其实我觉得这个问题或许仍然是还在萌芽期，其实问题还没有一个非常完善的定义，然后从评测数据这个方面我觉得其实还有很多不是define的很好的地方，然后从可解释性，是不是做到真正的理解等等这方面，我觉得其实有很多需要去继续的深入去做的。

林巍峣：刚才杨老师也说了，某些特定的领域，其实它做的还是不错的是吧？其实还可以。

毋立芳：比如说哪个领域呢？

林巍峣：比如说互联网场景，比如你是做推荐，它可能并不要求100%的准确，这样的话可以不断的提升精度，其实还是可以应用的。但是有些场景还有一定问题，而且就是说数据领域可能他的问题还没有定义得非常的清楚，比如有些场景它的行为就很清楚，比如说体育视频中，可以靠动作去捕捉信息。但是给你任意一条视频，然后你怎么去定义它的行为，这个还比较困难，而且说从工业界的角度，我们发现就是说其实目标检测什么的，其实工业界现在他们自己也不一定要找学校合作，他们直接用现成的方法也不会太差，但是行为方面好像还是有些具体问题，他们就没有一套特定的一个公开的这种标准。所以可能你要解决不同的行为识别的问题，这个时候还是需要特定问题进行特定的分析。从这点来说可能它的规范化或者说定义可能还有很多需要考虑问题。

王利民：我认为技术这一块有一定的发展，但整体而言应该是说行为识别理解相对图像而言应该是非常落后的，这话不是我说的，这话是2016年的一个workshop上几个大佬讲的，视频这一块尤其是动作，整体我还是比较同意这个观点，一个就是说目前而言它不局限在一个很简单的互联网视频那种分类上面，可能看着还行，但是精细到下面，就是真正定义一个检测的问题，或者说定义一个其他的精细的如群体行为，这些都没有非常规范的数据集。因为行为比较主观，不像物体那么客观。不同的人切入不一样，有的说我从原子上切入，比如说你从最基本的走路、拍手，有些像监控或者说像运动等等，反正现在没有一个统一的规范这一块。第二块就是说我觉得整体上视频确实比图像难，因为它的数据量大，还要考虑你的模型和效率等等，你要把它做好，就要投入更多的精力去做。另外就是说任务更难，图像就检测一个框就结束了，对于检测来说。但是对于视频，这个框在时序上会变，这个框在什么时候开始什么时候结束，这个中间一旦动起来之后，还有什么图像模糊等等，它的任务要比图像难很多。所以决定了视频的任务还是很难，定义不清楚，计算量更高，任务更难等等，反正都是处于一个混沌期的阶段。虽然说哪一天肯定能做好，但其实真的10年不为过。

胡永利：王老师说的我觉得我也有同样的感受，因为我们在做北京市的交通事件处理的时候，感觉咱们每年和视频相关，包括行为分析，顶会的Paper一堆一堆。但是实际上感觉要在实际当中解决问题的话，他们觉得你们这些东西都不行，因为咱们做的还是在一个小的数据集里，相对封闭的一个数据集里做。真实场景中首先它的场景很复杂，另外除了单点的视频，现在可能做的工作比较多以外，实际上可能还有一个工业界中视频网络的处理，比如交通他在一条地铁线内可能就有几千个摄像头，它实际上也是有关联的，那么存在它的协同问题，以及到最后能不能比如说针对这一个视频网络提取他们业界想要的一个信息，实际上我觉得面临的挑战更大，这是我的一个看法。

舒祥波：从我自己做的工作特别是做群体行为来说的话，我认为目前来说的话，群体行为看似经历了一个瓶颈期，但是我觉得还是有很多工作可以去做，那么为什么现在在某些技术上面很难去实现？我觉得主要是现在视频里面有一种数据集的导向，很多工作是dataset driven的，就是说他没有考虑到一些实际的东西，而是很多工作都是针对特定的数据集，我们才设计的一些这样的工作。我觉得后面可能有两个方向，一个是如果有新的数据集出来的话，可能就会突然像雨后春笋般地涌现出一些东西，另外就是我们能不能利用现有的一些数据，我们能不能做出一些比较精彩的方法出来。这是我的观点。

黄岩：前面几位老师讲得非常好，我也比较同意老师们刚才说的。对于视频的高层理解方面，其实我们也做过一些实验，比如说把一些图像中非常好用的空间关系建模或者scenegraph加上去，发现反而不如在时序上做一些运动建模。所以，我在想视频可能更多在于刚刚老师们说的基础特征表示或者运动建模方面。另外一个想法就是，视频可能相对发展比较慢，其中一个原因是投入的人比较少。比如，我发现有些做视频的同学，耗费的资源要比做图像的多得多。而且很多人不是特别愿意去做视频，因为调试一次要很长的时间，相应地影响了他们的科研速度。所以说，如果人参与的多，相应的各个问题研究地更快一点。

毋立芳：好，黄老师的观点是成本影响了视频研究的发展。

黄岩：对，一定程度上来说是这样的。

毋立芳：我理解大家说的好像应该是除了网络视频的分析觉得还可以，现在我们常见的包括监控视频这些包括体育视频，相对来讲还是有很大的研究空间的。然后第二个大家都说了一个关于规范的问题，规范是不是主要是基于数据集，比如说假如说我把这个数据集做好以后，然后定义出问题，相当于就有一个规范，这个对于后续的研究还是比较好的，那么从数据集这个角度，大家有没有什么建议，第二点我想问的是，刚才有好多老师还提到关于视觉关系表达这一块，怎么样去在行为识别上更好的做这种关系表达 ?

黄岩：关系建模上的一些工作拿过来去我们也尝试去用。发现实际上没有达到预期的效果。我的一个感觉是，如果在图像中做关系建模的话，这个视觉目标是明确的，但是在视频上，行为的边界会带来一定的模糊性，会引入了很多噪声。我们也做了一些尝试，但是运算复杂度特别高，暂时还没有达到相应的结果。

舒祥波：刚刚黄老师提到了，学生如果在做视频方面的工作的话，他肯定是在视频上面会不断的去调参，可能一个实验会做很久，如果需要测试多个数据集，那学生在做视频方向，的确是一个费时又费力的工作。所以视频数据集方面，也是我们做这个视频行为的一个很大的痛点。按照我自己对于视频的理解，应该是有两个比较主要的方向去考虑。第一个是如何更好的把握时空的概念，第二个就是针对视频的关系，不论是人和人还是人和物这样的关系，我觉得就像杨易老师之前说的要把握效率的问题。我觉得效率应该是未来在关系上面主要要考虑的评测指标之一，这是我的一点感想。

胡永利：数据方面我觉得林老师做的工作已经非常有震撼力了，贡献也很大，但是从我这个角度来说，视频要通过类似于传统的ImageNet，类似于图像能构建一个足够大的或者是比较适合不同方向的人来用的话，目前这种传统方式可能还是存在问题。首先你的一些视频的获取本来就很空，所以我认为能否通过，比如说像现在的抖音，通过这种更高的方式来构建这种大的数据集。另外还有数据标注问题，你获取到了视频数据后，需要通过一两个团队来标注大量的视频，本来就挑战性很大，或者有没有可能建立一个项目，然后让人们来实现共享平台，这样做的话效率也会比较高，这是一个初步的想法。毋老师提到关系刻画角度来讲，我觉得这个视频关系是其中的一个语义信息，现在分析的话，大家都是基于数据驱动来做这个关系或者提取它的结构，实际上我感觉用机器去分析视频，跟正常人去看视频或者检测视频，这个差距还是比较大的，包括它的方式，还有他看到这些关键词是有很大的一个差异。所以说我感觉下一步的话可能也是需要把人类的一些经验或者一些知识图谱跟咱们的数据驱动结合起来，这可能也是一个有可能的方案。

毋立芳：好，谢谢。

王利民：前面老师说的都很好，然后我简单说几点，关于数据这一块，现在主要的问题可能是隐私问题，尤其像监控，我在教室里面可以加一个监控，可以做课堂的形势分析，但这个视频是不能公开的。然后下面有一些小区这些监控场景下的数据，就是说是一个很大的来源，但是都是学术界基本上不可能拿出来做的，所以这就是为什么我们需要跟华为合作。还有另一个场景就像流水线，很多工人在操作中间也会用到一些行为分析的技术，这些数据我们拿不到。另外一点，就是数据集都还需要面临比较困难的标定，也可以看到林老师他标的也是花了不少钱，在定义这个规则上，刚才我说行为的定义上，就决定了你的标定，这个东西应该现在是没有共识的，很多时候可能还是场景导向或者说应用导向。所以说还是需要大家认真来看有没有这样的机会把数据相对规范一点，然后拿到更多数据，关于关系这一块我个人做的比较少，我个人感觉关系相对而言可能是一个从普通的感知变得相对复杂的任务，但是现在很多的做法跟我们的想法不同，还是一个模式匹配的东西，没有用推理的东西，个人感觉没有显式的去model这个关系，它并没有那么灵活，我稍微变一点，效果可能就不好了。就像黄老师说的我把特征层稍微加强一下，加个时序信息，可能就超过了以前的做法，所以说本质上还是底层做的不好。

林巍峣：因为前面几位老师把那个数据集都说了一下，那么我再简单提一下，我是觉得如果把数据集定义得好，其实对行为识别的问题是有帮助的，你比如说如果我给你的数据集，它只有一段行为的标注，我想去加入一些时空，因为它没有这个东西，所以没有办法做下去。如果我对视频的标注越详细，实际上我们可以有更多的模态，或者引入了更多的信息去提升效果，这个其实是有帮助的。那么所以我们也希望能够有更多的数据集，数据集比较多的话，是可能会对这个领域有帮助的，包括组群行为，因为现在就很难定义。

金琴：关于数据集，其实我们没有一个关于问题的很好的定义，这也影响了我们更好的去创建数据集，可能我们可以从更细分的，比如特定的task或者domain做起，这样可能可以更好地去定义数据集，如果我们target是去做一个更general的数据集，这可能是很难的。另外刚才从其他老师的一些工作也可以看到，标注的代价非常大，所以有可能我们不能做那么大规模的标注数据，那么在有限的一些标注数据之上，可能我们可以从方法上考虑去解决，比如可以利用大量的无标注的、但是可以很容易得到的一些这种数据，考虑怎么去结合，然后去解决数据缺乏这样的问题。关于关系的话有两个角度，一个角度是我们可以更细化的往下细分，比如从词语级别做到更细的东西，另外一个是和场景的结合，尤其在视频中它是动态的，会变化，我们怎么样去把场景上下文的这些东西去结合起来，还有很重要的是领域的一些知识，和行为理解是非常相关的，能够把这些知识结合起来是比较好的。

杨易：数据的话，我觉得可能监控数据中国做比较合适，当然网络视频有娱乐、有广告、有商品推荐，这些都是可以做的。另外关系的话，我觉得我同意视频分析比图像分析是落后的，但是落后的不是我们的技术不够好。实际上图像分析上用到的所有技术，在视频上基本都能用，而视频上的好多技术他们做图像的都不会。所以很多初学者，他要是想说做图像，他是可以入门的，他一下子做视频他是做不了的，可能做图像他可能比赛能拿个冠军，他做视频可能就要很久才能上手。所以视频分析落后在哪里，落后在应用的距离更远，但是技术上不落后，技术上可能还要先进一点，因为这个问题更难了。另外我也同意现在做视频的人会少一点，好多人不愿意做，因为它要的effort更多，需要的计算资源更多，问题更难，数据的标注困难，数据更少。

毋立芳：最后一个问题，刚才杨老师说做视频分析这个事情很难，整个生态没有建立起来，那么对于新人，大家能不能给他们提一些建议或者说一些能够吸引新人做视频研究的一些鼓励的话。

杨易：这个领域还是值得做的。它确实有挑战，它对设备的要求特别高，它对代码能力的要求也高，但是它的好处是做视频是好找工作的，因为做的人少，真正能把它做的有效率的人就更少了，而现在企业又有很多对于视频分析的需求，从这个角度讲这是一个好的领域。另外就是视频分析它是一个总体，但是它有几个点我们是可以逐步从点开始突破一些具体的问题，把问题简单化的，并不是什么问题都解决不了，有些问题还是可以做一做的，尤其在我们把条件控制一下，特别开放的问题可能做不了，但是有的时候工业界、产业界可以把条件控制一下，有的问题也是可以解决的。第三个就是这个论文确实对设备要求太高了，我也在想我们能不能推一些好的model，在今年CVPR我们有一篇oral，我们把模型pretrain好，你善于做retrival的，用我们的模型再简单的调整一下你做retrival，善于做recomendation的人用我们的模型可以去做recomendation。学术界应该去做我们学术界擅长的事情，我们model训练好，大家在不同的任务上都基于这个模型，而不去拼算力了，这对设备要求就没有那么高了，也许是一个突破。

金琴：聪明的学生应该知道其实这是机会，因为在发展，有很多的可以做的空间，然后通过这些经历你是可以成为更好的，你的“口袋”里可以装到更多的东西，所以其实这是一个吸引的点，而不是一个把大家吓走的点。

林巍峣：我觉得视频它有一个比较有意思的就是它是直接跟最终的目的或最终的应用落地的地方是直接去关联的，比如说目标检测可能是个中间结果的，我把它检测出来后面还要做其他事情，但很多视频应用他直接就到了最终的目的，所以从这个角度来说，其实做出来还是很有成就感。

王利民：从研究来说刚刚都说了就视频的这一块相比图像还是落后很多的，也就意味着机会还是很多的。大家现在进来虽然难一点，但是难的地方只要你是金子，我觉得总会发光的。具体而言我觉得视频里边的检测这一块碰的人非常少，数据集是一个原因，而且整个技术大家都是在做model、在做表示，检测这一块我认为未来应该是一个主攻的，因为很多视频的任务都离不开检测，你直接给一个视频打一个标签是不够的。另外一块是和语言的结合，就是现在他们讲的caption、VQA这些东西。视频跟图像它是不一样的，本质上多了一个时间的维度，也就是说它可以做一些认知层面的东西，那认知层面的东西你怎么体现你的任务，更多时候就要跟语言来结合。所以说可能跟语言结合之后，可以真正智能的把那种感知往认知推理。我觉得大家可以关注这个线，视频和语言的结合可能有一些新的东西出来。

胡永利：视频实际上我觉得有好多问题要做，而且这个挑战性很大，我觉得这个机会还是很多，从做研究的角度讲的话，我想你应该关注一些特定的问题，可能更容易去发现问题。比如说我们之前做过几年交通视频，可能原先觉得把一些检测和公开的一些方法拿过来就ok，实际上也有它特定的一些问题，比如说效率，然后多个视频的协同性，实际上还是有它的特有的比较有挑战性的问题。所以说如果要做这一块的话，我觉得是要接地气，根据实际的应用，可能你定位到某一个特定的问题上，这个工作还是很容易做，也有可能能比较快的出成果，这是我的一点想法。

舒祥波：我就讲讲比较实际的，从前些年来说的话，可能生活中很少遇到一些视频的数据，但是现在我们因为智能手机普及，用户每天都在分享传输各种各样的短视频，视频已成为一种越来越广泛的数据传播媒介，所以无论是将来大家就业进一些大厂或者是继续进行深造，肯定是需要全面的去考虑一下是否要做一些视频方面的研究。还有我们今天的主题是视频行为理解，视频把很多视觉的东西都囊括在内，视频的视频帧可以看作是一个个图像，视频里边的人可以看作是一个行人，可以做到reID，视频里的人脸可以放到人脸识别上去做，所以一个小的视频它包含了很多东西，所以我们可以做的东西很多，我们可以用这些context信息、先验信息，使得我们的工作可以设计得非常灵活。针对目前一些关于图像的任务，比如说classification，还有segmentation，一些国外的比如Google这些大公司基本上把性能都已经刷到爆了。如果你做这些东西的话，可能你的论文刚写出来，你的性能可能就不是sota了，你这边工作可能就又得重新再做了。而视频相关研究的某些技术还不及图像成熟，可以做的工作有很多。这是我自己的分享的观点。

黄岩：在不考虑实验室的研究方向以及实验资源的限制下，我觉得baseline是很重要的一件事情。你尽量要能拿到最近一两年内比较强的baseline，无论从师兄师姐处获取还是去公司拿baseline，这个是很重要的事情。

杨易：我再补充两句，其实我们组大概只有1/5的人在做视频，还有4/5的力量，3/5的力量是在做图像相关的研究，所以说我讲视频是挺好的，只是说视频这个东西确实是值得做，但是不是说图像不好，也没有说图像不值得做，图像也有很多问题要研究，因为我们在强调视频难、有挑战，将来前景好，这是视频它自己的特性，但是图像也是一样的，也是值得研究的，是很好的。我们自己组只有1/5的人在做视频，因为我没那么多设备，大家都做可能也做不了，那么3/5的人还是在做图像相关的研究，1/5其他，所以说图像也是很好的，大家还要根据自己的兴趣以及基础，还有自己的老师的项目需求，你要根据这些实际情况来选择，而不是说视频是唯一的，它只是一个选择。

讲者PPT

<<< 上一篇第八期CCF-CV“视界无限”系列研讨会于线上成

第六期CCF-CV“视界无限”系列研讨会于线上成下一篇 >>>

<<< 下一篇第六期CCF-CV“视界无限”系列研讨会于线上成

第七期CCF-CV“视界无限”系列研讨会于北京工业大学成功举办

推荐内容

计算机视觉专委会