三维虚拟人在数字时代扮演了重要的角色,但是创建一个三维虚拟人的过程非常复杂,包括体型生成,具体外观生成,以及动作序列的生成等。该过程涉及到图像处理技术、图像生成技术和深度合成技术等,并且这些技术需要成对的图像数据来进行有监督的训练,这不仅限制了生成的丰富性,而且使生成过程的灵活性降低。

与图像数据相比,自然语言作为友好的控制信号,可以更方便地控制三维虚拟人生成及动作合成。视觉语言模型CLIP是一种使用大规模图像-文本对训练的视觉语言预训练模型。通过对图像的直接监督,CLIP 在零次学习文本驱动的图像生成方面取得了巨大成功。

基于这一特性,南洋理工大学在读博士洪方舟等人提出了一个文本驱动的三维虚拟人创建框架AvatarCLIP。该框架结合大规模预训练模型CLIP,根据文字描述身体形状、外观和动作来生成三维虚拟人,使非专业出身的用户能够自定义三维虚拟人的体型和外观 。此外,利用在运动 VAE 中学习的先验知识,洪博等人还提出了一种零次学习文本引导的动作合成方法,用于三维虚拟人动作合成。

9月19日晚7点,「AI新青年讲座」第159讲邀请到南洋理工大学MMLab在读博士洪方舟参与,主讲《零次学习文字驱动的三维虚拟人生成与动作合成》。

讲者

洪方舟,南洋理工大学MMLab实验室在读博士,导师为刘子纬教授,此前在清华大学软件学院获得学士学位,2021年获得谷歌博士奖学金;研究兴趣为三维计算机视觉,尤其是三维表达学习及其与计算机图形学的交叉。

讲座介绍

主题

零次学习文字驱动的三维虚拟人生成与动作合成

提纲

1、基于文本生成方法的背景介绍
2、文本驱动的三维虚拟人创建框架AvatarCLIP
3、基于视觉语言预训练模型CLIP的体型及外观生成
4、零次学习文本引导的动作合成

直播信息

直播时间:9月19日19:00
直播地点:智东西公开课知识店铺

论文成果

论文名称:《AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars》、
论文地址:https://arxiv.org/abs/2205.08535
代码地址:https://github.com/hongfz16/AvatarCLIP