视界无限-第八期CCF-CV“视界无限”系列研讨会于线上成功举办

第八期CCF-CV“视界无限”系列研讨会于线上成功举办

阅读量：863

2021-05-05

2021年1月9日，由中国计算机学会计算机视觉专委会主办的第8期CCF-CV“视界无限”系列活动——“底层视觉的前沿进展与未来趋势”研讨会在线上成功举办，南京理工大学潘金山教授担任执行主席。研讨会邀请了计算机视觉专委会主任、北京大学查红彬教授致辞，谷歌资深科学家Deqing Sun博士、北京理工大学付莹教授、新加坡南洋理工大学Chen Change Loy副教授、香港科技大学大学陈启峰助理教授以及哈尔滨工业大学左旺孟教授做主题报告。美国加州大学默塞德分校Ming-Hsuan Yang教授及以上五位讲者参与了圆桌讨论。计算机视觉专委会B站公众号对本次会议进行了全程直播，直播人气峰值达到5400+。

首先，查红彬教授代表计算机视觉专委会致辞。查老师指出“视界无限”活动聚焦于比较细节的视觉问题，参与者对这些问题进行深入研讨，大家可以借此了解最新的研究进展，探索和发现一些潜在的兴趣点。查老师指出底层视觉是计算机视觉整个研究链中相对靠近底端的部分，其中有很多问题是相当重要的，同时也极具挑战性。他分析了本次活动的两个重要意义：其一，底层视觉问题和高层视觉问题是密切相关的，很多高层视觉返回的信息能够帮助解决底层视觉问题，从这一方面说，它不单纯是视觉图像处理这么纯粹的事情，还和高层处理有着密切联系；其二，人的视觉系统有非常强的底层处理能力，脑的处理皮层里面具有相当高效的底层处理功能，这些功能是局部化的，并具有并行处理的机制，其中一些机制也为我们在计算机视觉中处理底层问题提供了很好的研究线索，因此借助大脑的相关机理能够为解决底层视觉问题提供一些新的思路。最后，查老师简要介绍了本次研讨会的讲者情况，并预祝本次视界无限活动能够圆满成功!

Deqing Sun博士报告的主题是“Learning Optical Flow: From MRFs to CNNs”。他指出，世界是动态的，想要理解动态的世界，必须要理解运动。光流是描述运动的有效方式，其作为一个重要问题，面临着许多挑战，如大幅度位移、运动模糊、无纹理区域、遮挡、光源变化、噪声等。因此为光流的形成过程和先验知识选取合适的描述方法是十分重要的。Deqing Sun博士在报告中介绍了光流问题两种不同方向的工作。首先是基于MRF（马尔可夫随机场）和CRF（非局部条件随机场）的方法；其次是结合光流领域知识和CNNs（卷积神经网络）的方法。前者可以得到较好的结果，但是计算量非常大，且很难处理复杂场景，如遮挡，光源变化；后者可以达到实时计算，但往往较难达到非常好的性能。为了同时获得基于CNNs方法的实时计算和传统方法的优越性能，Deqing Sun博士提出了PWC-Net方法，其利用多尺度的cost-volume来解决光晕问题，并借助频繁使用光流领域知识来避免引入庞大的计算量，在使用更少的参数量的情况下达到了更好效果。最后，Deqing Sun博士介绍了光流领域最近的进展，并分享了研究光流问题时的一些经验和建议。

付莹教授的报告题目是“噪声建模与图像重构”，就如何在极端低光的情况对条状等噪声去噪进行了细致的介绍。以往方法大多需要图像序列或者成对的训练数据集，获得难度较大。针对上述问题，付莹教授提出直接对噪声进行建模来合成与真实场景相匹配的噪声图像，并提出了一个噪声参数标定的方法，以便模型适用于各类给定的相机。之后针对图像复原的问题，付莹教授采用了plug-and-play的方法。对于其对参数敏感的问题，给出了解决方案。

吕健勤（Chen Change Loy）教授的报告题目是 “Deep Generative Prior”。吕教授从图像复原问题出发，指出解决图像复原问题需要有一个好的图像先验。他举例说明了已有的深度先验方法的一些缺点，介绍了两方面的工作：（1）如何利用已经训练好的GAN作为图像先验。（2）将训好的GAN拆入到Encoder-Decoder结构中来更好地恢复图像。他最后指出，GAN训练generator可以作为一个比较通用的先验来实现各种图像复原任务。

陈启峰教授的报告题目是“Learning-based Sensing Technologies”。陈教授分析了现有RGB摄像头、深度摄像头以及LiDAR传感器存在的问题。针对这些问题，他介绍了在极暗条件下如何从丰富的raw data信息中复原出更清晰的图像。其次，介绍了如何通过长焦短焦镜头获取raw data训练数据用于解决图像超分辨率问题。然后，陈启峰教授设计two-stage的方案解决了reflection removal的问题，第一个stage引入polarization得到较好的reflection的信息，基于此，第二个stage恢复出transmission的信息。最后，陈教授介绍了如何通过多个摄像头的设计拍到更远处(300米-500米)的深度图以及边缘更丰富的深度图。

左旺孟教授的报告题目是 “自监督上下文建模及底层视觉应用”。左教授在报告中深入浅出、细致全面地介绍了自监督学习（Self-supervised Learning）在底层计算机视觉中的深度上下文建模，图像压缩和图像去噪这三方面取得的最新研究进展。

在Panel环节，与会嘉宾就“底层视觉中有哪些值得关注的问题？其主要挑战性和发展趋势是什么”、“目前深度学习方法被广泛应用于底层视觉中的大多数问题，比如图像超分辨率、图像去噪、图像去模糊等，但是目前大多数方法过分依赖数据，如何摆脱对训练数据的过分拟合而具有更强的泛化和外推能力”、“目前基于深度学习方法取得了显著的进展，在这类方法中还有哪些可以值得研究的方向，比如网络设计需考虑哪些方面？传统的先验建模方法是否还值得研究”、“不同于其他高层视觉问题，在图像复原等相关任务中，我们没法从退化图像中人工标注出清晰数据，目前大多通过特定的数据获取方法来获得训练数据。在算法层面上也出现了大量的Self-supervised learning或者Unpaired learning的方法，如何看待这些新方法”、“目前基于Transformer的方法受到大量的关注，如何看待Transformer方法在底层视觉问题上的应用”、“高层视觉任务中的大多数问题需要考虑相关的语义信息。近年来也出现了大量借助于高层视觉任务中的方法解决底层视觉任务的尝试，并且取得了较好的效果。那么在底层视觉任务中的一些问题，比如图像复原，是否有助于高层视觉任务？”等问题展开热烈讨论。

最后，第8期“视界无限”研讨会在中午12点10分圆满结束。

Panel 实录

为了惠及广大的研究者，每期“视界无限”精选嘉宾观点进行分享，以下为本期研讨会Panel实录。

潘金山: 今天的活动受到了广泛关注，这里我们也搜集了一些问题，今天第一个讨论的问题是关于我们这个领域的发展趋势的问题，在这里想请各位专家给一些意见。底层视觉中还有哪些值得关注的任务，其主要挑战和发展趋势是什么？

Chen Change Loy: 我来抛砖引玉吧。可能我做超分辨比较多，所以再说一下超分。超分辨也做的比较久了，大家现在也搭了很多不同的框架，可能问题就是，学术界和工业界的gap还是比较大的，像启峰说的学术界很多在RGB上面去做，然后工业界很多时候需要在raw上面去做，可能能拿到更多的信息，那在raw上面这方面研究可能还比较缺乏吧。还有就是场景里面有很多退化因素往往可能不只是downsampling kernel，还有很多类似于压缩，模糊这些问题，还有低光的问题这些复杂场景，现有的方法没有很好的去解决。学术界的focus比较单一，这边可能更需要一些更好的数据集做这个问题吧，现有的方法非常趋向于单一场景，这些工作没有办法落地，有很严重的domain gap的问题。Image matching也是类似的问题，包括在video上完成多帧的融合，用更远的帧来做reference帮助提升超分辨效果。更多关注这个image formation model 和更多先验结合，现在工作还没有做这些。

Deqing Sun：我沿着视频这个方向谈一下，因为我在光流和视频方向做了一些工作，在光流这个方向，光流主要受限的是，图像数据非常受限，首先是怎样拿到更好的数据，就是在真实场景下的光流如何获取，在光流这个方向，最近的网络结构设计有很大的进展，但是现在的模型都是在GPU上跑，如果真正让光流更加有实用性，比如在手机上可不可以跑，可不可以变得更实用，我们应该做什么样的调整，我觉得这些问题比较值得研究。还有就是，从光流到stereo，或者是更加通用的correspondence，即使是看光流和stereo，两者在网络设计有相似性，但是没有统一的框架，就是对于不同的底层视觉任务，可不可以有更加统一的框架，而不是单一的任务就要设计单一的网络。还有一点，就是做真实数据，怎保证方法的鲁棒，或是如果这个方法不鲁棒的话，怎样有一个confidence，或者应该有一个怎样的处理，我觉得这个也挺有意思的。还有就是一些应用，做光流或是其他任务，它可能不是最终的一个task，这样的话，如果从task角度来讲，去做视频超分和视频去噪，它需要什么样的网络，它到底需不需要这样的中间层表示，需要的话，它需要的是什么样的中间层表示，能够更好的做这些任务，有很多问题都比较有意思，比较值得研究。

付莹: 我主要说三点吧，其实刚才两位老师也都说了，第一点我觉得可能还是应该从物理建模的角度，就从成像机理的角度来做这些问题。成像事实上是一个什么样的过程，然后我们关注于这个过程来做这个问题，就是做low level vision的一些研究，就无论这样针对一些复杂场景啊等等，可能就是都关注到吧，或者我们做一些简化之类的。第二点呢就是从物理层的角度来说就从physics based vision 角度来说，由于这个复杂的物理过程，它可能有很多东西我们能够建模，但是可能我们无法得到很好的成对的数据集，也许我们可以通过退化的方式得到可用的成对数据集，或者说就通过刚才左老师说的也许就通过自监督的方式来对复杂场景有一个更好的一些建模，以及重建；第三点，low level vision可能还是一个比较痛的点，就是怎么把low level vision 的这些方法应用到移动端，据我所知，现在移动端的很多应用，针对low level vision可能还是没有用深度学习，因为他们还是觉着即便我们用最简单的U-net，即便再简化版的U-net他的这个速度还是太慢了。我大概就说这三点。

陈启峰: 我自己觉得需要从问题出发，比如说我们想得到更好的图像，或者更好的三维感知，然后其实我们可能未来可以做的是更关注从这个问题出发，可以有一些见解，主要包括 ‘hardware’和‘software’的设计。‘hardware’就是我们需要用怎么样的sensor，现在很多趋势，比如说这些无人车或者是手机，就都迈向这个multi-sensor这种设计，我们其实会用很多的sensor然后会去解决一些问题，那就跟很多的传统的这些computer vision这些问题不一样，就不是单一的single image或者single depth或者video，比如说无人车，我有多个摄像头，一个或者多个深度，然后这里面可能会涉及到很多的问题，可能我要解决的问题不是singe-image depth estimation，而是使用多个摄像头怎么去impove这个depth sensor的quality。这里面又衍生出很多问题，比如说compression的问题，那如果这里有一个多模态的数据，比如RGB-D或者多个RGB加depth，有很多compression处理，如何加速，就有很多各种各样新的问题在这里边会涉及到。然后，最后一点，可能讲到这个Generalization的问题，就是说，我还是觉得low-level vision可能相对于high-level Generalization一般会稍微要好一点，因为low-level依赖更多‘local-consistency’，但在一些特殊的场景，可能还很多failure case，就是说极暗或者过曝，这些比较特殊的情况，这是我对未来发展还有我自己做research的可能会思考的方向。

左旺孟: 如果是从应用角度上说，比较明确的是从image会往video，或者是从当前这种学术领域no-blind非盲会往盲的方向走，还有从应用驱动，像启峰说的会走一个算法和硬件相结合的。如果从研究上来说，我也是觉得可能是可以关注其中的一些关键的问题，如果能从这里做一些贡献比较好，比如说像是Deqing讲的那个PWC-Net，我们怎么能设计出一个好的有价值的多尺度的网络结构，它很可能是在光流上在去噪超分上最后都会成为一个通用的架构，或者它在速度上也能达到实时的要求，或者是这个性能上也能享受多尺度带来的好处，我觉得这个是去关注一些类似这种问题，同样在video怎么能去保证多帧怎么去做更好的融合和怎么能保证生成结果的时域一致性，这些问题也可以从研究上去推进，还有就是说Chen Change Loy提的那个，我们目前的话像是说，像自然语言的话，Bert出现之后大家的话就会先用Bert初始化再去finetune，如果像是深度学习，计算机视觉中比如bigGAN，StyleGAN，现在还好，大家可以重新train，如果它再大一点我们每个人不能重新train的时候，我们怎么能比较好的去利用这些pretrain好的比如StyleGAN的模型去用在各种底层视觉任务上，这个我也觉得是一些可以去考虑的，至少在研究上可以去做，另外一个去考虑这种任务软件硬件之间的相关性，然后把它们当成一个总的然后去考虑，有可能就像你说对实际应用有帮助。

Ming-Hsuan Yang: 我觉得他们说的都蛮有趣。其实我有一个问题，如果有一个low resolution的blurry image，那用deblurring的方法还可以解决吗？像Cavan他们做的sr和image deblur都直接做合成的数据集，如果做真实的数据当然还是需要用许多的prior，所以这应该是蛮有趣的一个点。另外一个，Deqing说了，如果有一个model你可以做optical flow，可以做segmentation，depth estimation的话，那这种也比较好，如果能做的比较好那也是挺好的。还有就是，假如有一个low resolution blurry image我现在需要upscale到16倍或者64倍那怎么办。

潘金山：是的，这个问题确实是一个大问题。在做很大scale的超分时，比如16倍超分，你得到的结果和原始图像的差距有多少，放大之后图像中的细节是不是和原始图像中的细节信息相吻合？像启峰说的，在使用ESRGAN做超分时，会生成多余的细节信息，这个16倍之后，如何保证你生成的细节和原始的图像完全吻合，我觉得这应该也是一个问题。

Chen Change Loy: SR本身没有ground truth可能会有生成图像不可信的这个问题，如果有比较好的先验，比较好的prior，这样生成的图像遵循了自然图像分布，本身生成的东西就是一个multiple resolution，如果有方法可以知道生成的这个区块的pixel 的confidence，他的这个可以扰动的有多大，这些还是挺有趣的。

潘金山：之前出现过一个模型PULSE,他在生成图像时，输入一张黑人图像结果生成一张白人的图像。这就是由于深度神经网络过度依赖了训练数据，导致的错误。如何摆脱对训练数据的过分拟合，从而使网络具有更强的泛化和外推能力？

Chen Change Loy: 还是要尽量提供多的prior来避免这种超过expectation的输出，根本的问题是训练采样的问题，这种还是需要堆数据，现有方法还是很难做到外推。

陈启峰：另外我觉得对于这一些实际应用问题里边，因为我们永远不可能说我们可以把世界上所有的图片都train一遍，总有一些不在training里的example，如果能够输出的时候有一个confidence level，比如说我们只在白人的图片里train一下，来了个黑人，可能模型能输出些东西，但我可以同时输出他的confidence只有5%，那就是说这个‘social impact ’，虽然它现在输出一个错的结果，但它的confidence 比较低，那其实影响可能也没有那么大。所以就是说，这个confidence的estimation，不单单是pixel-level这个取feature，整个image怎么去衡量这个confidence，比如说SR 16倍，它跟ground-truth相似程度或者偏离程度可能大概是多少，confidence level有一个estimation，这个对实际应用有很大帮助，这个在sensor里面，其实像depth-sensor，有些估计不对的，其实一般我们就把他扔掉，在很多task里面，可能有一些不confident的，我们甚至更好是把它说不confident，或者那些pixel不要可能会更好一点，在实际应用中。

左旺孟: PULSE我也让学生简单去试了一下，PULSE的基本思想就相当于说，他在GAN的网络生成器中随机去取点，希望能取到一个最小的点，取到一个点呢，他那个下采样之后的图像跟这个真实的LR图像尽可能接近，但是他生成器训练的时候只用了白人，所以说如果输入黑人的话，他就会给你说只要求距离尽可能的小，并没有要求这个距离下采样后和LR图像的距离要小于某一个阈值。所以后来也让学生去做了一个实验，他如果要改成小于一个阈值之后就能保证不会去把黑人超分成白人，但是生成器没有黑人的数据，所以小于这个阈值之后生成的图就会模糊一些，所以实际上这个问题上原则上从Chen Change Loy，deqing和启峰说的，对这个问题来说是可以解决掉的。

Deqing Sun：我想加一点的话，就是深度学习的局限性，大家需不需要去考虑一下，是不是有一个新的范式来取代深度学习，然后来取代这种对大量数据的依赖。更像人类学习一样，能够用很少的数据来泛化。至少有“人”这个例子在这里，从人的学习来讲，是不是要先有一些非常基本的能力需要学习，比如可能小孩到3岁的时候脑子里面就有一些知识基础，这样他就可以用很少的数据，就能够很快的学习。是不是这样的话，需要用很多的数据去预训练一个模型，再去用很少的数据去学习不同的任务。

潘金山：嗯。对这是一个比较有用的，这样的话我们可以把这些pretrain的model当成一些knowledge，我们可以用这些knowledge作为一些基本模块，然后泛化到其他的任务，比如大家现在都在用vgg的特征，那这些特征可以用作Perceptual loss里面的约束，这也是挺有用的一种方式。那接着这个问题，我们继续讨论。目前基于深度学习的方法取得了显著的进展，那基于传统建模或者是之前基于domain knowledge的方法还有没有去研究的必要，或者说这些方法对于底层视觉来说未来的落脚点在哪。

Deqing Sun：个人感觉来讲，比如说PWC-Net，就可以把一些已有的知识建立到网络里面，比较直观一点的说，如果我们已经知道什么work了，就不让网络去学了，希望让网络学习一些我们不知道的东西。从PWC-Net的结果来看，这样还是挺有帮助的。我个人觉得先验建模的knowledge还是非常有用的，往未来来看，如果建立一个vision的system，可能不止做一个task，在这种情况下，怎么能够让这个比较大的system训练起来，还能够有效工作，个人感觉还需要更多的先验知识把不同的模块搭建好。

陈启峰：我觉得，先验建模的话，一个方面可能能够解决像第二点，像过多数据的依赖，像付莹教授的一个paper，有一个物理模型去刻画这些noise，去做denoising，也会更加的好，第二个呢，我觉得这些先验建模还有一个优点，比方说我已经有一个constraint我的model在这个space里面，我可以非常confident，他不会做一些crazy的output，如果我是有个general的一个CNN的话，其实我不能保证，它对于我所有图片都可能比如说做一些合理的结果，他可能如果这张图像是超出了训练集的范围的话，他可能会做一些意想不到的东西，有一些模型，比如说‘HDERNET’，它是有很多的对模型很大的constraint，基本上会保证你的output和input就看起来是同样一张图片，不会说CNN的space会就会特别大，就是说有一些更多的guarantee在里边，所以我觉得还是有一些优势在这里面的，然后速度上我想也会能有提高，因为我们有更多的先验，这个operation不一定要基于像CNN这类型，可能比较expensive的operation。

潘金山：我说一下我对这个问题的一些理解吧，就刚刚接着Deqing说的，比如说基于这个先验知识，网络用这些先验知识来约束，这个网络可能会更加容易去刻画这些问题，刚刚启峰也谈到了，以及付莹教授刚刚的那个工作的话，这些都可以算作先验知识来刻画这些问题。把先验知识融合到深度学习这个框架当中的时候，在一定程度上，可以降低对训练数据的依赖的问题。

潘金山：不同于其他高层视觉问题，在图像复原相关任务中，我们没法从退化图像中人工标注出清晰数据，目前大多通过特定的数据获取方法来获得训练数据。在硬件方面我们可以通过一些方法来采集到一些真实数据。在算法层面上也出现了大量self-supervised learning 或者 unpaired learning的方法，如何看待这些self-supervised learning 或者 unpaired learning的方法？

左旺孟: 如果从通用的来说的话，大家特别希望能有一个通用的方法，不过通用的方法看起来又可能用这个就是GAN的方法，如果拿不到，我可以想办法，如果有退化模型的话，想办法用GAN模型生成一个清晰图，然后回退到这个退化图像上，这个看起来像是一类通用的方法，但是反正我自己实现的这种通用的方法不一定能去解决所有的问题，或者是对问题的解决质量，或者是结果就是解的可信度的话有一些问题，也可以在这个框架上我们去继续估计解的confidence，但是如果从研究上的话，我也觉得更倾向于特殊的退化问题或者退化模型，从人物的角度来说，从网络结构学习方式去调整，能够自监督的去发现什么是高质量的图像，针对特定的任务特定的退化方式，和这个一个高质量的图像和退化图像在这个任务上区别是什么，如果我们能通过人为思想的方式把这个方案能想清楚，也能通过网络设计的方式和学习一些loss的组合可以把这个问题恰如其分的解决掉，这样的好处是大家都可以有更多的人去参与，有更多的人去做这个事，每个人都可以想出自己的方法，我希望是这两条路都不要把另一条路堵死的方式，毕竟做这个研究的人是越来越多了，想从这个观念去尝试，这个去噪的话我们可以用一个噪声图，图像的话我们可以用周围的点去预测当前的点，但是噪声的话我们不能通过周围的噪声点去预测当前点的噪声，但是对于去模糊和超分的话，怎么去形成一些这种的方式，我们自己还挺感兴趣的也挺想的，看能不能也能找到一些这种解决方案。

付莹：我稍微说一下，刚才就接着左老师说的，就是真实的这个数据我们之所以有时候不太好搞，可能很多数据我们都知道他有一个基本的退化模型，但是我们给的这个参数啊或者什么可能不太精确，我想问一个问题啊，是不是有什么方法可以让我们有一个初始的一些结果，我们利用深度学习或什么方法能够给他估计的更加准确一点，因为我们直接从零开始估计可能有一点难，但是我们可能可以从某个阶段开始估计，包括，我们之前也尝试过就是我们用一个仿真的数据集去做了一些训练，做完训练之后其实他就是给了一个比较好的初值，然后就类似再利用self-learning使用输入数据来进行约束或什么之类的，他也能得到一些比较好的结果，比起那些端到端的有GT的也会得到一些比较好的结果，我觉着可能可以考虑有一些数据之间的gap能把他取消一下或者是怎么提升一下，不只是纯粹的self-learning。

左旺孟：我们今年也是做了这么一种工作，相当于我们有一个base还好的复原的模型，又来了一批新的退化数据，这个退化类型和原来的稍微有一点出入，模型就会有一些问题，也能凑合用，但是又不是太好，有没有可能用自监督的方法可以把它提升上去，可以理解成像是domain adaption。

潘金山：既然谈到domain adaption，或者从另一个角度来说，knowledge distillation或其他的一些方法，目前比较火的一个方法就是transformer的方法，最近也看到很多用transformer的方法来解决视觉的一些问题，各位专家对transformer的方法在底层视觉问题方面的应用有哪些见解么？

Chen Change Loy：我知道那篇论文IPT使用了transformer解决了底层视觉的一系列问题，类似derain，sr，解决的真的挺好，做到了SoTA的效果，我还没得及仔细看那篇paper，只是粗略的过了一下，我觉得还是会有很多有趣的想法在里面，因为现在还主要用cnn框架，大家还是做了很多不同的architecture，在模型探索方面已经挖掘了很多了。Transformer相当于提出了一个新的探索空间，这是一个好事，拿到很高的性能也是很鼓舞的。但是可能也会带来一些问题，比如说内存消耗，预训练的问题，我想我们可能要好好再求证一下transformer哪一个比较好，或者有各自的好处去结合，底层视觉还是有很多一些独特的挑战，他不是说我换一个结构就能解决，还是要回归问题本身，然后看这种结构对于底层视觉的问题是不是有很大的帮助。比如，CNN在一些特征提取或者local的一些structure的modeling方面有一些比较好的优势，transformer他在attention做上下文信息，融合可能比较有用，所以可以两者结合，所以不一定是说他有用或者没有用，我想可以再挖掘一下。

潘金山：不同任务相关性的一个讨论，之前我们是关注于底层视觉的问题，比较少的考虑高层视觉任务中的语义信息，近些年来一些方法，展示了我们可以利用高层视觉任务中的方法可以更好的来帮助底层视觉任务的问题解决，他们也取得了比较好的结果，在这里，想请教一下各位专家，我们底层视觉任务是否有助于提升高层视觉任务，比如这个人脸超分辨率，我们把人脸超分上去之后是不是有助于人脸识别或者是其他一些分类问题。

左旺孟：我先说一下，我觉得可能去拿很多低质量的图像去train高层视觉任务，跟拿这个低质量图像先做完复原再去做这个高层任务，从end to end的角度来说，如果训练数据足够多的话原则上比高层直接去train这个高层的视觉的模型其实应该是不会差的，但从应用的角度来说，从灵活性的角度问题，比如说我换了一个硬件不需要去训练，如果有另外一帮人做了这些底层视觉的一些增强的工作，可以直接加上去，这个模型就可以不用去换，如果从这个角度来说，可能还是会有存在的这种价值，另外一个可能我们做了一个人脸识别，但是我们这个图是糊的，我们会发现人脸识别为什么把它识别成A，如果我们有一个复原的结果的话，识别成A还是挺合理的，都还有一定的存在价值。

Deqing Sun：我比较好奇左老师说的这个，我提个问题，如果我有一些图像它有噪声，然后用这些图像去训练一个高层的一个任务，这样端对端的训练，那这个高层的网络会不会有一部分去学习对图像做一些复原，比如减少一下这个伪影。

左旺孟：是会，就之前的话原则上，比如说训练一个100层的RESNET101，你很难说前10层在做denoise，或者说把denoise就inplace的做了，就比如原来有一种叫dirty pixel，发现稍微带点噪声，可能反而细节的问题比彻底去噪好一些。

Deqing Sun：还有一个问题就是，如果有一些隐式模块去做一些去噪，然后加一些显式模块，还是让他端到端去学习，这样还会不会有帮助呢？

左旺孟：我担心数据特别多的时候可能就没了，数据少的时候可能是有的。

潘金山：对，我没有严格去做过，但是我之前去做一些实际问题的时候，我发现数据多的时候，有时候你这样一个显式的将模块加进去后，作用可能显的比较弱一些。

Deqing Sun: 还有一个问题就是，现在高层任务用的训练集，大部分都是一些干净的图像，它有自己的一个分布，但应用这些模型到不同场景时，那些数据还有另外一个分布，那这些底层的任务譬如图像恢复，能不能让这些输入的分布更加接近训练时的分布？

左旺孟: 这个可能就有点类似于我刚刚说的那个问题，如果我在白天train了一个检测网络运行的很好，他在傍晚的时候运行的不是很好，那么是不是我得做一个low light enhancement的一个模块，我就可以用白天的模型了，不需要在傍晚重新train了。从这个角度来说，在实际运用中可能会出现。

Deqing Sun：就有点类似于，你用已经知道是白天还是黑夜的特定的domain knowledge去做一个底层操作，来达到domain adaptive的效果。

左旺孟：我觉得这种应用还是很需要的。

陈启峰：我是比较同意左老师的说法，提供了很多灵活性，把黑夜的变成白天的，其实另外一个做法也可以，就是说你有这些low-level的model，也可以从clean的生成一些退化的图像，你生成完这些退化的图像以后，再去high-level的task直接去end to end的这样子去train，通常我们这些task虽然说可能说做denosing，但也可以有一些研究，也可以做加nosie，加回去，把白天变成黑夜，这些反过来的，这样再去end to end，也是一个可行的一个思路，这样一个模型可能就可以直接完成这些high-level的task。

潘金山：因为时间关系，尤其是Deqing那边已经是凌晨了，那我们今天的活动就到这里，非常感谢各位讲者和嘉宾。我们拍照留念一下。

<<< 上一篇第九期CCF-CV“视界无限”系列研讨会于北京邮

第七期CCF-CV“视界无限”系列研讨会于北京工下一篇 >>>

<<< 下一篇第七期CCF-CV“视界无限”系列研讨会于北京工

第八期CCF-CV“视界无限”系列研讨会于线上成功举办

推荐内容

计算机视觉专委会