CCF-MM&CCF-CV走进企业 清博智能专场-0526

【总结】CCF-MM&CCF-CV走进企业 清博智能专场

原创 多媒体专委会 CCF多媒体专委会 2023-05-26 08:02 发表于山东

中国计算机学会多媒体技术专业委员会走进企业系列活动

CCF-MM&CCF-CV走进“清博智能”活动纪要

为了深入推动国内多媒体领域的技术发展和产学研合作,中国计算机学会多媒体技术专委会(CCF-MM)、计算机视觉专委会(CCF-CV)携手清博智能,于2023517日举办了“AIGC赋能元宇宙”研讨会。中国计算机学会多媒体技术专委会秘书长、计算机视觉专委会秘书长等领导,以及来自中科院计算所、中国传媒大学、中国人民大学、北京清博智能智能科技有限公司等20余位高校和企业专家参加了本次活动,共同探讨多媒体、人工智能、计算机视觉等技术在元宇宙领域的“产学研”创新应用。

北京清博智能科技有限公司 CEO郎清平、清博智能元宇宙研究室执行主任柳春阳、中科院计算所研究员,博士生导师王树徽、中国传媒大学媒体融合与传播国家重点实验室研究员叶龙教授、中国人民大学高瓴人工智能学院教授,博士生导师卢志武作为特邀嘉宾,CCF-MM 秘书长、中科院计算所蒋树强研究员和CCF-CV副秘书长、北京工业大学毋立芳教授作为主持人参与了本次活动,从各个方面共同探讨AIGC赋能元宇宙成果与前景。

一、北京清博智能科技有限公司CEO郎清平致辞

首先,北京清博智能科技有限公司CEO郎清平致辞,向参会的各位嘉宾致以真诚的欢迎,并从团队规模、业务领域、主要产品以及未来发展战略等方面介绍了公司概况。清博智能科技有限公司成立于2014年,是一家以大数据、人工智能为技术底盘的科技公司,为政务部门、企业、媒体和高校提供智能化服务。2021年,随着元宇宙的崛起,清博也增加了虚拟人、智能营销等业务线,搭建了元宇宙实验室,同时确立了“使用AI真正为人类提供更好的策略选择和生产力工具”的使命,正在积极为多个行业提供元宇宙落地方案。

二、AIGC的应用及其商业实践

清博智能元宇宙研究室执行主任柳春阳就AIGC的应用及其商业实践进行了报告分享,介绍了AIGC元宇宙的发展历程及其在办公、教育、金融、医疗等领域的丰富应用,展示了清博智能在AIGC元宇宙赛道上取得的优秀成果。清博智能基于千亿级海量数据,通过语言模型,发展了AIGC综合评估指数与行业数据洞察研究、基于AIGC辅助生成指数模型、本地化大语言模型开发等业务方向,具有实时同步最新舆情、用户使用友好、支持私有数据集的亮点优势。公司推出了AIGC能力聚合平台,可以使用AIGC工具辅助行研报告的撰写,2022年产出了26+份基于AIGC的数据报告;在虚拟人方向,清博智能的“元娲”平台可以使用智能驱动方式与清博白泽内容智能引擎实现电商直播、PPT宣讲等 任务;此外,公司推行的“数字生命计划”致力于借助人工智能技术,再现故人音容笑貌,在数字世界连接过去、现在、未来,重新定义“重逢”的意义。最后,在AIGC与三元一体化实践、数字藏品、无尽之塔的融合发展中,展望AIGC在未来创造更大的生产力。

三、细粒度跨媒体理解与可控内容生成

中国科学院计算技术研究所研究员、国家优青获得者王树徽以细粒度跨媒体理解与可控内容生成为主题,从数字孪生、智能编辑和智能创作三个角度展示了AIGC生成能力的应用,随后以该领域面临的挑战为切入点,指出内容生成的对于各类下游应用至关重要,从基于属性分组编辑的小样本图像生成、运动一致性提升的视频卡通化生成、基于动态早退的图像描述生成、基于迭代修正检索的对话式跨模态组合检索四个方面与大家阐述了相关任务定义、研究思想和框架以及技术落地的成果,最后,从通用化的内容属性可控编辑和下游任务的适配框架、长序列文本、视频的理解与持续生成等前沿方向对未来发展趋势做出展望,并和其他参会嘉宾探讨了理解和生成两项任务之间的关联,分析了可控内容生成应用于小目标检测等计算机视觉领域难点问题的可能性。

四、计算仿声学:音频AIGC赋能元宇宙的理论基础

中国传媒大学媒体融合与传播国家重点实验室研究员,数据科学与智能媒体学院副院长叶龙教授介绍了作为音频AIGC赋能元宇宙的理论基础的计算仿声学,首先阐释了元宇宙中的声音的几大特点,包括沉浸、构想、交互、互连、智能、延展六大特点,涉及到元宇宙环境中的声音随位置变化,真实空间与虚拟空间的声音的虚实共生,人物声音、环境音效的生成,声音随时间地点的变化等现实问题。继而引出计算仿声学作为音频AIGC赋能的理论基础。接着从空间、角度、频谱、时间四大维度介绍了计算仿声学的难点与应用,还展示了如沉浸声音合成、环境声音去噪等应用成果。最后展望了未来基于全声函数的声源合成、双耳渲染等应用。之后还和其他嘉宾讨论了反噪音生成和生成的可控生成。

五、ChatGPT对多模态通用生成模型的重要启发

中国人民大学高瓴人工智能学院教授,博士生导师卢志武分享了ChatGPT对多模态通用生成模型的重要启发。卢志武教授首先点明了促成chatGPT成功的特点:坚持大模型加大数据,坚持大模型加推理,坚持大模型和人类意识对齐。接着详细介绍了多模态通用生成模型的最新进展,如多模态对话模型framingoBkip-2kosmos-1palm-eGot-4等,继而介绍了图文结合的GPT模型如visual chatgptUniDiffuser等,分别介绍了他们的结构,创新点与不足之处。然后介绍了卢志武教授团队研发的chatimg,其由真实用户驱动,在社会治理、机器人等真实场景落地,同时公布了未来的chatimg2.0更新计划,增加了语言视频输入和嵌入机器人等功能和实践。最后总结chatGPTGPT-4带来了研究范式革新,需要积极应对,多模态方向还有很大开发潜力,多模态通用生成模型的设计还需要继续探索。

最后各位嘉宾就视频文字相结合的通用大模型的前景、难点进行了热烈讨论,同时提到了北京政府致力于整合算力打造超大规模AI模型训练平台的公示,对AIGC赋能元宇宙的未来发展充满了信心。