序文

目前元宇宙热潮下,AI数字人也开始涉及众多领域,包含文娱、服务、教育、营销等,市面上出现的AI数字人包括功能型AI数字人如虚拟助手、虚拟导游、虚拟客服等;陪伴型AI数字人,如虚拟伴侣、虚拟家属等;社会型AI数字人,如虚拟主播、虚拟偶像、虚拟教师、虚拟医生、虚拟导购等。

(浦发银行的首位银行业数字员工“小浦”)

(虎牙AI数字人晚玉)

(搜狐新闻客户端联合搜狗推出的首个明星“AI数字人”主播)

为了实现虚拟数字人的多域化渗透,让更多AI数字人的场景落地,FACEGOOD决定将语音驱动口型的算法技术正式开源,这是AI虚拟数字人的核心算法,技术开源后将大程度降低AI数字人的开发门槛。FACEGOOD表示元宇宙底层技术需要更多的开发者共同携手支撑,技术的发展离不开广大开发者的推动,与开发者们共同探索、建设全新的数字人领域的技术生态,未来愿与广大开发者共同分享、一起拓新。开源项目地址:https://github.com/FACEGOOD/FACEGOOD-Audio2Face

项目背景

2019年第十届中国国际新媒体短片节组委会和FACEGOOD联合发布陆川导演AI数字人。

(图为陆川导演AI数字人形象)

(图为中国国际短片节现场AI数字人陆川与观众实时交流)

观众可以和AI数字陆川面对面互动交流,为观众带来打破虚拟空间和现实空间次元壁的实时实感交流互动体验。为了能达到实时交互的效果,FACEGOOD 开发了一套数字人实时语音交互系统,实现了语音到表情动画的实时转换,今日FACEGOOD宣布将全套语音驱动表情的技术代码开源,无偿提供给广大数字人开发者使用。该技术可以将语音实时转换成表情blendshape动画。这样做的原因是在现行的产业中,用BS去驱动数字形象的动画表情仍然是主流。方便动画艺术家对最终动画产出最艺术调整,传输的数据量小,方便动画在不同的数字形象之间进行传递等等。基于这一些实际生产中的需求,对输入和输出数据做了相应的调整,声音数据对应的标签不再是模型动画的点云数据而是模型动画的blendshape权重。最终的使用流程如下图一所示:

图一

在上面的流程中,FACEGOOD主要完成Voice2Face部分,ASR,TTS由思必驰智能机器人完成。如果你想用自己的声音,或者第三方的ASR,TTS可以自行进行替换。当然FACEGOOD Audio2Face部分也可根据自己的喜好进行重新训练,比如你想用自己的声音或其它类型的声音,或者不同于FACEGOOD使用的模型绑定作为驱动数据,都可以根据下面提到的流程完成自己专属的动画驱动算法模型训练。

那么Audio2Face这一步的Framework是什么样呢?我们怎么去制作自己的训练数据呢?

图二

如图二所示。

常规的神经网络模型训练大致可以分为三个阶段:数据采集制作,数据预处理,数据模型训练。

第一阶段,数据采集制作。这里主要包含两种数据,分别是声音数据和声音对应的动画数据。

声音数据主要是录制中文字母表的发音,以及一些特殊的爆破音,包含尽可能多中发音的文本。而动画数据就是,在maya中导入录制的声音数据后,根据自己的绑定做出符合模型面部特征的对应发音的动画。

第二阶段,主要是通过LPC对声音数据做处理,将声音数据分割成与动画对应的帧数据,及maya动画帧数据的导出。

第三阶段就是将处理之后的数据作为神经网络的输入,然后进行训练直到loss函数收敛既可以。

开源是FACEGOOD团队初心,未来FACEGOOD会坚持践行开源运动,推动行业技术发展,为开发者带来更多好用的技术,推动建设FACEGOOD开发者社区。

欢迎广大同行咨询及探讨,共同分享、学习、交流。开源技术交流可加FACEGOOD官方微信 FACEGOOD_CHINA