走进企业-【总结】CCF-MM走进企业系列活动美团专场

产业合作

【总结】CCF-MM走进企业系列活动美团专场

中国计算机学会多媒体技术专业委员会

走进企业系列活动

CCF-MM走进美团

多模态生成技术赋能AIGC数字人新生态

在生成式人工智能（AIGC）飞速迭代、多模态大模型持续突破的时代浪潮下，数字人已成为智能交互与内容创作的核心载体。为促进学术界与产业界在多模态AIGC领域的深度交流，推动技术创新与场景落地的双向赋能，中国计算机学会多媒体技术专业委员会（CCF-MM）携手美团公司，于2025年12月11日在美团展示中心成功举办“多模态生成技术，赋能AIGC数字人新应用”主题沙龙。来自北京大学、清华大学、中国科学技术大学、中央民族大学等高校的研究学者，航天宏图、华为、阿里巴巴、北京三星通信技术研究有限公司等企业技术专家，与美团技术团队共30余位嘉宾齐聚一堂，围绕多模态生成技术的前沿研究、数字人产品化实践等关键议题展开深度探讨，共绘智能交互新时代的发展蓝图。

一、活动伊始

本次活动由中国科学技术大学特任教授、CCF-MM专委会副秘书长刘武主持。

刘武老师主持活动

活动伊始，嘉宾们集体参观了美团展示中心，全方位了解了美团在“零售+科技”战略下的技术创新成果与业务生态布局，随后合影留念，为本次深度交流奠定了良好基础。

美团展厅参观交流

MM专委走进美团沙龙参会嘉宾合影

二、嘉宾致辞

美团高级研发总监方建平代表企业对与会专家学者表示热烈欢迎，并分享了美团在技术研发与场景落地方面的探索初心。他指出，多模态生成技术是驱动数字人从“形似”走向“神似”的核心动力，美团始终聚焦本地生活服务场景，致力于通过技术创新优化用户交互体验与内容生产效率。本次与CCF-MM专委会的合作，为企业搭建了链接顶尖学术资源的重要桥梁，期待以产学研深度融合破解技术瓶颈，推动AIGC数字人在更多场景的规模化应用。

美团高级研发总监方建平致辞

CCF-MM专委会副主任、航天宏图高级副总裁王涛博士代表专委会致辞。他介绍了专委主办的中国多媒体大会，走进高校、走进企业，论文导读等品牌活动，回顾了CCF-MM长期以来推动产学研协同创新的发展历程，强调在人工智能技术快速演进的当下，多模态生成与数字人融合应用已成为产业升级的重要方向。王涛博士表示，美团作为科技零售领域的标杆企业，在技术落地与场景创新方面积累了宝贵经验，希望通过本次活动促进学术研究与产业实践的精准对接，实现“产学研用”多方共赢。

CCF-MM 专委会副主任王涛老师致辞

三、特邀报告

本次活动邀请到高校专家与企业技术领军者联袂带来精彩报告，涵盖多模态技术研究前沿与数字人应用实践，内容丰富且极具启发意义。

彭宇新

《基于多模态大模型的视觉内容理解与生成》

北京大学二级教授、博雅特聘教授、国家杰青彭宇新以《基于多模态大模型的视觉内容理解与生成》为题，核心围绕“理解与生成协同优化”展开。他指出当前多模态大模型存在两大局限性：视觉理解粒度粗（如 GPT-5 无法识别 “绿胁绿霸鹟” 的细粒度类别、Qwen3 遗漏局部细节等）、视觉生成效果差（如 Sora 2 生成的酒杯摔碎视频不符合物理规律等）。针对上述局限性，彭宇新教授聚焦“视觉内容理解与生成”，介绍了团队最新研究进展：在视觉理解上，研发了细粒度图像识别大模型、多轮迭代检索大模型和图像思考大模型，通过强化对象-类别对齐、视觉-文本多轮交互等核心技术，增强大模型在细粒度分类、多轮交互推荐、小目标感知等场景下的能力；在视觉生成上，团队研发了图像、视频、3D和海报广告生成技术，提高AIGC的真实性、合理性。最后，彭宇新教授展望了多模态大模型、AIGC技术的未来发展方向，指出理解与生成两者应相互促进、协同优化。报告为数字人、智能交互等场景的落地提供了从痛点分析到技术落地的完整路径，为产业实践提供了学术支撑。

刘烨斌

《手物交互及其世界模型》

清华大学自动化系长聘教授、国家杰青刘烨斌带来《手物交互及其世界模型》的主题报告。针对灵巧手操作这一人形机器人核心挑战，团队构建了以 4D 高斯溅射为核心的世界模型，通过无标定摄像机重建 3D 高斯、推演场景并计算动作，实现当前帧重建、下一帧预测与动作生成的一体化能力。为支撑技术落地，团队搭建 “视频 - 仿真 - 真机” 三层数据基座，并发布 TACO 大规模手物交互数据集；同时提出两项关键方案：一是基于 diffusion 的手物交互运动生成，实现复杂交互位置精准对应；二是视频动作共生技术，通过闭环反馈保障视频真实感与动作合理性。报告指出，人手视频数据是具身智能预训练基座，4D 高斯世界模型是核心方向，未来需聚焦规模化 4D 数据与实时模型，实现多模态架构的一体化能力，为数字人交互、机器人操作等场景提供技术支撑。

刘旭东

《多模态生成技术在美团直播数字人的应用与思考》

美团平台数字人直播与AIGC研发负责人刘旭东分享了《多模态生成技术在美团直播数字人的应用与思考》。作为本地生活领域最大的数字人直播应用平台，美团数字人直播日均万级场，通过AIGC、LLM等技术，在运营成本（更低）、时长（7×24 小时）、效率（运营 Agent 辅助）等维度优于真人直播，已实现显著交易额增长。其核心 AI 技术涵盖六方面：形象 / 环境生成、素材生成、唇形驱动、智能讲解 / 问答、智能运营。当前技术仍面临形象写实度、人景交互真实度等难点。未来美团将推进 “定制化、高表现力、千人千面” 的下一代数字人直播，助力本地生活商家实现低成本、个性化的直播运营。

美团视觉智能部高级技术专家张勇以《虚拟人视频生成大模型》为题，分享了美团在虚拟人视频生成领域的技术探索与研究成果。其研究聚焦虚拟人建模的多维度对象（人脸、人体、人 + 场景、多人对话），核心任务是基于文本、对话语音输入，生成多人对视视频，并实现三大关键能力：语音驱动人体建模、多路语音与多人物绑定、指令控制人 - 物 - 场景交互。针对当前技术痛点 —— 语音与肢体强耦合、内容重复、长视频误差累积等问题，团队提出“LongCat-Video-Avatar”解决方案：通过探究多任务训练模式避免任务冲突，为参考帧加位置编码缓解重复问题，引入跨 chunk latent 减少 VAE 反复编解码的误差，有效提升虚拟人视频的自然度与一致性。该成果为美团虚拟人直播的高表现力、长时稳定输出提供了技术支撑，也为行业虚拟人视频生成的效率与质量优化提供了实践路径。

此外，美团科研合作部高级经理孙喆介绍了美团产学研合作体系与开放合作理念，表达了美团持续链接高校与科研机构、共同推动技术创新的决心。美团科研合作致力于搭建美团技术团队与高校、科研机构、智库的合作桥梁和平台，依托美团丰富的业务场景、数据资源和真实的产业问题，开放创新，汇聚向上的力量，围绕机器人、人工智能、大数据、物联网、无人驾驶、运筹优化等领域，共同探索前沿科技和产业焦点宏观问题，促进产学研合作交流和成果转化，推动优秀人才培养。面向未来，也期待能与更多高校和科研院所的老师和同学们进行合作。

四、总结交流

在讨论环节，嘉宾们与参会人员围绕交互式数字人的技术实现路径展开了热烈讨论，深入探讨了世界模型与数字人融合的前景，以及未来数字人产业生态的演进趋势。此外，大家还就如何构建高效的产学研协同创新模式进行了积极探讨。与会嘉宾们畅所欲言，分享了各自的科研心得与实践经验，提出了诸多具有前瞻性的观点和建议。来自美团算法、产品和工程团队的代表也结合自身实践，深入剖析了当前产业界在数字人技术发展过程中面临的主要技术难题，并分享了应对这些挑战的创新思路和解决方案。

在总结环节，美团高级研发总监方建平与美团数字人直播与AIGC研发负责人刘旭东分别进行总结发言。方建平指出，多模态生成技术特别是AI数字人的视频理解与生成具有深远的产学研合作意义，此次活动为技术落地与理论突破提供了重要契机，展现了学术界与产业界协同创新的巨大潜力。刘旭东强调，美团将持续开放场景资源与技术平台，深化与学术界的合作机制，通过汇聚多模态领域的前沿智慧，加速AIGC数字人技术在业务场景中的创新突破与规模化应用。

本次CCF-MM走进美团活动的成功举办，不仅促进了多模态生成技术领域的知识共享与思想碰撞，更夯实了产学研协同创新的合作基础。未来，CCF-MM专委会将持续搭建学术与产业的沟通桥梁，推动更多前沿技术从实验室走向产业赛场，为“人工智能+”时代的高质量发展注入源源不断的创新动力。

产业合作

【总结】CCF-MM走进企业系列活动 美团专场

【总结】CCF-MM走进企业系列活动 美团专场

多媒体技术专业委员会

【总结】CCF-MM走进企业系列活动美团专场

【总结】CCF-MM走进企业系列活动美团专场