2024多媒体技术回顾与展望论坛 Panel发言实录 | 大模型背景下多媒体技术发展趋势
2024多媒体技术回顾与展望论坛 Panel发言实录 | 大模型背景下多媒体技术发展趋势
CCF多媒体专委会 2024年12月06日 10:58 北京
引言
多媒体技术是对文字、图像、音频、视频等多种媒体信息进行综合处理的技术,在过去的三十多年里得到了快速发展。当前以大模型为主的人工智能技术基于其尺度定律和涌现能力等特性,在多媒体内容的感知、认知和生成等方面取得了新突破,对多媒体技术当前和未来的发展产生了深远影响。基于多媒体领域的多模态数据特点,如何构建多模态基础模型并基于此推动多媒体检索、推荐、交互和生成等任务的发展获得了学术界与工业界的广泛关注。因此,本论坛聚焦大模型给多媒体领域带来的影响,邀请相关领域专家学者,深入探讨相关热点问题,梳理技术脉络,并进一步对该领域的未来发展进行展望,激发深度思考,促进技术发展与应用。
主持人:蒋树强(中国科学院计算技术研究所)
嘉宾:查红彬(北京大学)、陈熙霖(中国科学院计算技术研究所)、黄庆明(中国科学院大学)、赵耀(北京交通大学)、姜育刚(复旦大学)
文字整理:钱胜胜,姜阳邦彦
校审发布:闵巍庆
主讲嘉宾发言实录
蒋树强:
非常荣幸今天能够邀请到五位重量级嘉宾参与我们的讨论:北京大学查红彬教授、中国科学院计算所陈熙霖研究员、中国科学院大学黄庆明教授、北京交通大学赵耀教授,以及复旦大学姜育刚教授。今天我们将围绕一个既富有答案又充满未知的话题展开深入探讨:大模型背景下多媒体技术发展的趋势。
多媒体技术研究在国内已有三十多年的历史,多媒体专委会见证了这一领域发展的辉煌历程。从早期以单一媒体为中心的研究,到后来随着技术演进,逐步形成了覆盖图像、视频、音频以及多模态融合的完整体系。当前,大模型的崛起为多媒体领域带来了深远的影响——从训练数据到模型应用和服务,各环节都与多媒体技术紧密相连。与此同时,大模型的广泛应用也在重新定义技术边界和研究范式。
然而,未来并非一成不变。大模型技术作为当下的热点,虽然引领潮流,但随着时间推移,其关键词地位或许会逐渐淡化。而多媒体技术作为一个多模态融合的核心领域,面临的是如何在新形势下找到更具前瞻性的发展方向。那么,在大模型的背景下,多媒体技术将如何演变?未来又有哪些关键问题值得关注?接下来,我们将与五位嘉宾一起,共同探讨这个富有挑战性和想象力的话题。
议题1:大模型时代下
多媒体技术的变与不变、内涵与外延
查红彬:
在今天的报告中,出现频率最高的关键词无疑是“多媒体”。我之所以如此关注多媒体,是因为我的研究方向是计算机视觉,过去的工作主要集中在图像或视频处理领域,属于单媒体范畴。此次参会,我的目标非常明确:学习。同时,既然被邀请参与讨论,我也想从一个外行的角度,分享一些不成熟的想法。
从外行的视角来看,多媒体领域近年来发展迅猛,并在诸多应用中取得了显著成就。此次会议让我感受到,该领域正处于风口之上,并且正在经历以下几个重要变化:
一、方法论的变革。过去,多媒体数据处理通常采用模块化或分段式的方式。例如,正如吴飞老师提到的,分步骤完成各环节的处理。然而,随着数据驱动和端到端学习方法的兴起,大模型的应用逐渐占据主导地位。特别是近年来,大语言模型的预训练技术已经高度成熟。如何将大语言模型的成果与图像、视频以及其他媒体形式有机结合,已成为研究热点。如今,人工智能领域最显著的进步来自大语言模型,而这些进步也推动了多媒体数据处理技术的跨越式发展。
二、处理框架的革新。传统的多媒体处理往往是单向的,自底向上逐步从数据层面抽象到语义层次。例如,用图像或视频生成文本是一种典型的传统范式。而如今,方向发生了反转,处理方式更多地从文本生成图像、视频等多媒体内容。这种转变体现了一种思维方式上的巨大变化:从以图像、视频生成文本,转变为以文本生成图像、视频。例如,今天多位专家提到的“Sora”便是这种新框架的典型应用。
三、研究目标的转变。过去,研究重点在于如何处理多媒体数据并实现多媒体融合,核心是从非结构化数据中提取结构化表示。而当前研究更注重模型的泛化能力与通用性。通过多媒体数据处理,研究目标不再局限于解决单一任务,而是期望模型具备同时完成多种任务的自适应能力。因此,自适应性与通用性的研究比以往更加受到关注。
陈熙霖:
我认为,发生变化的是方法和工具,而问题本身并未改变。同时,问题的范围比过去更加广泛。回顾十到二十年前,多媒体研究人员与计算机视觉研究人员几乎是两个独立的群体。而今天,这两个领域的交集越来越多,问题也逐步泛化。过去,由于计算能力的限制,一些问题的解决非常困难,例如马老师刚才提到的案例。但随着计算能力的提升,这些问题如今已经迎刃而解。
黄庆明:
如果谈到多媒体领域中不变的部分,首先就是它的核心内涵与外延。多媒体的核心元素未曾改变,即“多媒体”本身。无论方法如何变化,对于各种模态数据(如图像、音频、视频等)的处理,以及面对互联网中新涌现的模态,始终围绕这些多种模态的处理展开。这种“多”是多媒体的本质所在。
其次,多媒体的应用场景具有广泛性,这种特点也未曾改变。相比单一模态数据,多媒体始终面向更广泛的场景,旨在综合利用各种媒体数据来满足应用需求。
至于变化的方面,正如前几位老师提到的,首先是方法论上的演进。随着大模型技术的出现,在算力、处理能力及相关方法论上出现了新的突破。此外,数据的性质也发生了变化。传统多媒体处理的数据大多来源于采集,而现如今,生成数据的比重越来越高,其类型与数量也显著不同。这种变化既与方法论密切相关,又推动了虚拟与现实数据结合的处理方式的发展。在应用层面,用户需求虽然依旧多样化,但伴随着技术进步,一些新的应用场景正在不断涌现。
赵耀:
我补充一点关于“不变”的内容。从数学角度来看,任务的核心是不变的,即始终追求优化的过程。不论是传统方法还是深度学习方法,目标始终是通过优化训练实现性能提升。
在变化的部分,首先是处理范式的转变。传统方法中,特征提取和分类通常由人工完成,二者之间存在清晰的分割。而现在,特征提取和分类通过训练过程一体化完成,不再有明确的分界。此外,传统方法更倾向于识别任务,而如今,生成式方法逐渐占据主导地位。许多任务通过生成模型实现泛化,并融合了更多知识,即使是传统的识别任务,也越来越多地借助生成方式来实现更广泛的功能。
姜育刚:
陈老师一句话就概括了关键点:“变的是方法,不变的是问题。” 正如我在报告开头提到的,不同领域看待问题的角度可能有所不同。以计算机视觉和学习领域为例,我们更倾向于在完备的问题框架内寻找理论支撑的解决方案。而多媒体领域的切入点往往是直接基于真实数据展开。例如,20年前处理视频数据时,即使性能可能只有10%,也是在真实数据的基础上进行研究。然而,随着深度学习的兴起,这种研究方法逐步发生了改变,许多过去被认为核心的方法已经被更新替代。如今,各领域的研究问题逐渐趋于融合,领域之间的界限也越来越模糊。
展望未来,研究的重点仍然在于问题本身。要实现多媒体技术的实际应用,仍需围绕多种模态数据进行深度处理,而这之中仍存在大量亟待解决的问题。特别是“多”的特性,决定了多媒体研究的广阔前景与复杂挑战。
议题2:大模型技术的发展
对多媒体领域是机遇还是挑战
姜育刚:
当前的发展既是机遇,也是挑战。对于高校而言,面临的主要问题是资源的局限性,尤其在计算资源上,与企业追逐大模型的发展路径显然不现实。然而,高校在基础研究方面具有明显优势,这为其提供了另一种可能性:从方法论本身出发,探索创新点。同时,多媒体领域的一些新问题,尤其是在对算力要求相对较低的场景下,可能为高校提供更多机会。此外,在一些交叉领域,例如当前热门的 AI for Science 和 Social Science,高校的优势更为显著。总之,高校应当专注于自身优势领域,而非与企业在其擅长之处竞争。
赵耀:
我同意姜校长的观点,大模型的发展既带来了机遇,也提出了挑战。虽然高校在算力和数据资源方面不及企业,但这并不意味着高校无法参与大模型相关的研究。一方面,高校可以通过与企业合作弥补资源不足,另一方面可以利用现有的大模型,并将其泛化表示应用于自身的研究领域。通过微调或 prompt learning 等手段,可以在领域内实现更好的性能表现。同时,高校还可以专注于方法创新,例如提出类似从 CNN 到 Transformer 的新网络结构,这是高校可以充分发挥优势的方向。大模型时代不仅是对资源的竞争,更是对方法创新能力的考验。
黄庆明:
机遇与挑战总是相辅相成。大模型的兴起在算力和数据方面确实让人感到压力,但也为解决更多复杂问题提供了可能性。我认同前两位老师的观点,高校应积极拥抱这一潮流,通过合作或借助现有模型解决实际问题。尽管高校条件有限,但现有的大模型仍有很多需要优化的地方。例如,高校可以专注于优化现有模型,提出轻量化设计,使其在某些方面的性能能够与大模型媲美。或者,利用基础研究的优势,从理论方法和模型架构的角度寻求突破。这不仅是高校研究的方向,也可能推动轻量化、优化模型的发展,从而在某些场景下超越当前的大模型。
陈熙霖:
当下的时代可以用“让历史照耀未来”来概括。我们这一代从业者,既是最幸运的,也是最不幸的。幸运在于我们曾经经历了学术界主导这一领域发展的时代,而不幸则在于如今面临着学术界难以独立主导未来发展的局面。过去,IT行业中的很多重要的创新都是源于学术界的,而现在这一行业逐渐转向“重装备”的模式,使得学术界难以独立完成许多工作。然而,重装备模式并不意味着学术界无所作为,历史上的其他重装备行业,例如航空航天,也同样依赖学术界在基础研究中的贡献。
回到当前的大模型时代,许多传统的问题已经取得突破,例如一般场景下的识别和简单分析。接下来的研究方向应当是建立在这些基础之上的更高层次问题。比如,是否可以将生成视频的长度从一分钟扩展到一小时?大模型能否在生成过程中实现更好的多样性?如果生成结果趋于一致,那么这是否意味着模型仅仅是记忆而非创造?这些问题都有待深入探讨。学术界的研究者可以不仅需要关注工业界的最新进展,更要关注国内外同行的最新工作,从中汲取灵感,并结合自身优势思考下一步的研究方向。我们应当避免单纯重复已有工作,学术界应该将目光放的更远,迈出更具创新性的一步。
回到当前的大模型时代,许多传统的问题已经取得突破,例如识别和简单分析。接下来的研究方向应当是建立在这些基础之上的更高层次问题。比如,是否可以将生成视频的长度从一分钟扩展到一小时?大模型能否在生成过程中实现多样性?如果生成结果趋于一致,那么这是否意味着模型仅仅是记忆而非创造?这些问题都有待深入探讨。高校研究者可以通过关注国际同行的最新工作,从中汲取灵感,并结合自身特点思考下一步的研究方向。我们应当避免单纯重复已有工作,而是将目光放远,迈出更具创新性的一步。
查红彬:
在当前大模型和数据驱动的背景下,多媒体领域充满了机遇,但我认为挑战可能更大。当前的研究方法还存在不少局限性,其中有两个问题尤为突出。
首先是时间因素。在多媒体处理领域,以往大多从静态视角切入,忽略了任务过程中动态环境的变化。然而,时间维度的变化是至关重要的,特别是在处理时变因素时,大模型面临很大困难。标注时变数据本身就是一个挑战,而时序一致性及时间尺度的伸缩性更是难以通过现有方法简单解决。比如,今天提到的 Sora 系统中,时序一致性仍然存在诸多不足。
其次是模型的模块化。目前,大多数大模型采取单一网络的方式,通过足够多的参数实现学习。然而,多模态处理可能需要更加模块化的设计。人脑在处理感知信息时是高度模块化的,视觉、细节等处理区域分工明确,最终在高级处理阶段实现信息整合。类似地,大模型的训练或许也需要结合模块化的思想,将可计算部分和需学习部分有机结合,在端到端的框架下实现更高效的功能。
这些问题是当前大模型方法面临的主要挑战,也是未来研究的关键方向。
总结:多媒体技术的未来发展
赵耀:
多媒体技术经过多年发展,已经成为一个蓬勃发展的领域,无论是研究主题、从业人数,还是相关产业,都呈现出良好的发展态势。展望未来,大模型将成为这一领域的重要阶段性成果。大模型的进一步发展需要与硬件深度结合,例如当前备受关注的具身智能和人形机器人,这些真正能够服务人类的智能系统,将有助于推动整个行业迈向新的高度。
黄庆明:
正如一句常说的话:“道路是曲折的,前途是光明的。”多媒体技术的前景之所以光明,关键在于其应用领域的广泛性。无论是感知世界、构建数字环境,还是服务于人类日常生活,多媒体始终与人类活动息息相关,只要人类存在,多媒体技术的发展就具有广阔的前景。此外,多媒体的多模态特性为其发展提供了更多机会——任何单一模态下的新技术都可以为多媒体整体发展提供借鉴。然而,道路的曲折性也不可忽视,多模态融合的复杂性使得研究的挑战性大大增加。因此,需要更多方法论上的突破和持续的努力来应对这些问题。
陈熙霖:
多媒体技术的发展可以归结为一个核心:抓住“眼球经济”,促进产业发展。多媒体技术能够走到今天的繁荣局面,正是因为其成功地服务于“眼球经济”。从图形学、动画、计算机视觉、语音信号处理等,再到多媒体,这些技术的发展始终与互联网和用户体验紧密相连。多媒体技术未来的发展依然需要聚焦在与人类感知和工业需求结合的领域,这才是推动行业持续发展的根本动力。
查红彬:
当前多媒体和多模态处理的研究大多聚焦于为人类服务,但我认为另一个重要方向是:如何为机器智能提供服务。除了让人类从处理结果中获益,还需要考虑如何让机器自身从中受益。多媒体技术在促进机器与环境交互方面具有重要潜力,这不仅能推动人工智能的发展,也将推动机器智能研究迈向新的高度。
姜育刚:
近些年来,技术的飞速发展让我们感受到极大的变化和冲击。在这种快速发展的过程中,更需要保持冷静的头脑,专注于寻找真正的问题和关键的方向。避免盲目跟随潮流,坚持脚踏实地地解决实际问题,才能确保多媒体技术的发展之路更加稳健,其未来也必然光明。