【总结】CCF-MM走进企业系列活动 中科曙光专场
中国计算机学会多媒体技术专业委员会走进企业系列活动
CCF-MM走进中科曙光
为了进一步推进多媒体技术的研究与实践,中国计算机学会多媒体技术专委会(CCF-MM)携手中科曙光,于2024年4月18日在中科曙光总部举办了“多模态大模型 + 大算力 前沿进展”研讨会,会议聚焦于智能计算、云计算、大数据等前沿技术领域,尤其强调了多模态大模型的研究与应用。
一、展厅参观
来自高校企业的众多参会嘉宾参观了中科曙光的发展历程展览。此次参观不仅展示了中科曙光自成立以来的重大发展节点,也详细介绍了该公司的历代核心产品和战略布局。展览区域内,时间线清晰地标注了中科曙光从初创时期到成为国内领先提供商的历程。每一个展示台前,都放置了该时期的代表产品,包括从早期的服务器硬件到最新的产品,每一代产品都体现了曙光在技术上的迭代与革新。还展示了曙光在AI领域的应用案例,如智能语音和图像识别技术的应用,展示了其在实际场景中的强大功能和广泛应用前景。
二、活动伊始
CCF-MM专委会副秘书长、中国科学技术大学特任教授刘武老师主持了本次走进企业活动。
刘武老师主持活动
三、嘉宾致辞
活动首先是两位嘉宾的致辞。中科曙光总裁助理郑武军对中国计算机学会及与会的所有专家学者表示热烈欢迎。他指出,随着技术的迅速发展,尤其是在智能计算、云计算与大数据领域,中科曙光已形成了明显的技术优势,并致力于通过技术创新推动产业升级。郑武军强调,多模态大模型技术的探索与应用是公司当前的重点研究方向,曙光对算力技术的前沿动态保持高度关注。期望通过本次会议,与业界的顶尖专家共同探讨和分享经验,以推动更多的技术突破和实际应用的合作机会。
中科曙光总裁助理郑武军致辞
CCF多媒体技术专委会秘书长、中科院计算所研究员闵巍庆老师在致辞中提到,CCF-MM专委会作为桥梁,一直致力于将学术研究成果转化为企业的创新动力。他指出,随着数据规模的不断扩大和模型参数的增加,现代多模态模型训练需要的算力也在持续增长。CCF-MM希望通过走进企业活动,帮助学术界更好地理解企业需求,指导未来的研究方向,同时也帮助企业把握学术前沿,推动技术的快速发展和应用。
CCF-MM专委会秘书长闵巍庆老师致辞
四、特邀嘉宾报告
北京大学助理教授袁粒、智源研究院视觉模型研究中心负责人王鑫龙、曙光智能计算产品事业部高级产品经理贺群、曙光解决方案中心硬件架构师罗宾作为特邀嘉宾分别进行了精彩的报告。
袁粒(北京大学助理教授、博导)《Open-Sora Plan》报告
袁粒老师在报告中详细介绍了其领导的Open-Sora计划,这是一个旨在通过社区合作开发出一款开源的Tiny Sora视频生成模型的计划。该模型基于Transformer结构,与传统的Stable Diffusion模型相比,Tiny Sora专门针对视频内容的生成进行优化,目标是提高视频生成的质量,尤其强调时空连续性和压缩效率的提升。
袁老师详细介绍了模型的核心组成部分,CausalVideoVAE,这一新型视频编解码器用于极端压缩视频数据,达到256倍的压缩率,同时在长宽各压缩8倍,时间轴压缩4倍,极大地减少了模型处理的数据量,同时保持了视频内容的连贯性。此外,模型采用2D+1D Transformer结构进行视频重建,2D Transformer处理空间信息,而1D Transformer负责捕捉时间序列的动态变化,这样的结构设计使得模型既可以高效处理大规模视频数据,也能够维护视频内容的时空连续性。
袁老师强调,这种创新的视频处理技术不仅能够推动视频生成技术的发展,还将为AI在电影制作、游戏开发和其他媒体产业的应用提供强大的技术支持。通过Open-Sora 计划,袁老师希望能够激励更多的开源社区成员参与到这一项目中,共同推进视频生成模型的研究与开发,进一步丰富模型的应用场景,提升模型的开放性和实用性。
王鑫龙(智源研究院视觉模型研究中心负责人)《从视觉到多模态基础模型:探索与实践》报告
王鑫龙老师在他的报告《从视觉到多模态基础模型:探索与实践》中,详细探讨了构建大型视觉及多模态基础模型的策略和实践。首先介绍了视觉数据和语言数据在本质上的不同,特别指出视觉数据的高信息冗余度和语义的稀疏性,这两个特点使得视觉处理模型设计面临不少挑战。
在技术实现方面,王老师介绍了利用Transformer结构处理图像的新型框架——Painter框架,该框架允许模型通过简单的图像prompt,执行复杂的图像理解和生成任务,极大地提升了模型的应用灵活性和效率。此外,他还介绍了SegGPT模型,这是一种专门用于图像分割的大模型,能够实现One-shot学习,即模型经过一次学习后,就能广泛地适用于多种图像分割任务,显示出非常高的效率和准确度。
王老师强调了统一学习方法的重要性,即通过统一的算法和结构处理不同类型的数据输入,从而训练出能够在多模态场景下工作的大型模型。他以Emu模型系列为例,展示了这些模型在预测多模态序列中的应用表现,如何利用大量数据进行训练,以及模型如何通过整合不同模态的信息来提高预测的准确性和连贯性。
王老师的报告不仅提供了视觉及多模态模型构建的深入见解,还展示了这些模型在实际应用中的强大潜力和广阔前景。通过这些先进的模型和技术,未来在自动驾驶、智能视频监控、交互式媒体等领域的AI应用将更加智能和高效。报告中对Emu模型、视觉In-Context Learning等系列工作的详细介绍,特别是其在多模态数据处理上的优势和成果,为参会者提供了宝贵的技术参考和启发。
贺群(曙光技术产品经理)《国产AI加速卡应用实践》
曙光技术产品经理贺群以《国产AI加速卡应用实践》为主题,介绍了曙光技术团队在软件层,平台层的产品和能力建设,并分享了一系列不同场景的应用实践案例。
在美国对我国的技术封锁制裁背景下,许多国内硬件厂商奋起直追。贺老师从不同层次介绍了曙光研发团队的规模,平台整体框架以及软件、平台的能力建设,指出目前研发产品已经实现了AI全栈优化能力,并能够较好地适配于与不同的平台和模型,在大数据处理、人工智能等领域的商业化应用中具有广泛应用前景。
最后,贺老师分享了诸多应用案例,涵盖互联网企业、运营商、金融业、信息民生、重大科研项目等诸多场景,团队多年来致力于丰富软件生态,整合不同平台,充分展现了曙光在产学研合作、多维度保障、工程化实践的全方位建设。
罗宾(曙光解决方案中心方案工程师)《算力服务助力大模型飞速发展》
罗宾老师分享了《算力服务助力大模型飞速发展》的精彩报告,探讨了关于大模型的发展趋势、应用模式以及如何实现从算力到生产力的跨越等一系列基于大模型的算力建设的关键问题。
罗老师首先回顾了大模型的发展历程,并指出当前大模型呈现出的两个趋势:1)通用人工智能方向,集成多模态数据知识的具身智能体,2)聚焦垂直、专用领域的应用场景服务。不同的发展模式也对算力建设提供了不同的需求,如专用模式要求高质量的特定场景的数据,而通用模式则对数据规模和算力要求更高,因此需要对用户需求提供针对性的算力服务。那么如何才能更好地实现从算力到生产力的跨越呢?
罗老师指出加速AI是一个全方位的工程,覆盖了算力、存力、运力等多方面维度,同时需要指出了一系列算力服务部署的关键问题,如区域分散算力如何化零为整,算力供需问题如何有效平衡,多样算力属性和算力场景如何匹配,基础算力如何发挥价值效益。基于这一背景下,罗老师介绍了曙光团队自主打造的算力服务框架平台,采用多中心统一管理和资源协同算力调度,努力满足用户需求。
最后,罗老师给我们带来了众多应用案例,阐述了用算力链接价值的核心理念,整个团队致力于实现开放共赢、范式创新、自主高效的模式,提供通用、易用、可用的国内AI算力,为整个行业做出了宝贵的贡献。
五、参会嘉宾研讨交流
最后,各位参会嘉宾就多模态大模型和算力需求建设等方面进行了积极交流和讨论,对国内大模型技术突破和硬件基础建设服务充满了信心。
2024年CCF-MM执行委员增选
2024年多媒体技术专委会的执行委员增选工作现已开始,如有意申请,请扫描左侧二维码了解相关信息。
CCF-MM往届走进企业系列活动