(国网四川省电力公司检修公司 610000)
语音驱动人脸动画合成的研究是自然人机交互领域的重要内容。目前,还没有一个较好的方法来实现语音同时驱动人脸口型动画和面部姿势,这就使得生成的虚拟人的表情木讷、呆滞,从而降低了人机交互的可理解性和认知度。因此,我们的目标是探索研究一种语音可视化新方法,并建立一个基于汉语的虚拟人语音动画合成系统。我们提出一种基于混合模型的语音可视化协同发音建模方法,该方法可以使语音同时驱动虚拟人唇部、头部、眼睛和眉毛等部位从而合成更为细腻、生动的动画。通过该项目的研究,可以实现语音对整个面部和头部的驱动,使虚拟人具有更加丰富、真实的表情。
关键词:人脸语音动画;语音可视化建模;口型动画
1 引言
语音驱动人脸动画合成的研究是自然人机交互领域的重要内容。语音驱动人脸动画合成是对一个人的声音进行处理,使之在人脸头像上合成与语音对应的口型动画(lip animation)和面部表情(facial expressions)。目前,这方面的研究主要集中在合成同步、精确的口型动画,以及通过语音分析实现对面部表情的分类上,还没有一个较好的方法来实现语音同时驱动虚拟人的口型动画和面部姿势(facial gestures or visual prosody)。所谓面部姿势是指头部动作(head movements)、眼睛动作(eye movements)和眉毛动作(eyebrow movements)等非语言信息。相对于口型动画与语音有明显的关联关系,面部姿势跟语音的关联关系比较微弱,因此获得比较准确的面部姿势比较困难,这就使得语音驱动人脸动画的表情木讷、呆滞,没有较为丰富的信息反馈,从而降低了人机交互的可理解性和认知度,这是语音驱动人脸动画领域必须解决的瓶颈。
2 语音可视化建模
为了实现语音同步驱动人脸口型和面部姿势,语音可视化建模是必不可少的一步。语音可视化建模是语言信息与合成人脸的接口,是驱动人脸产生语音动画的核心结构。语音可视化模型通过分析语音信息,建立音素到视素的映射,将音素信息转换成视素信息,将语音学上的协同发音体现到视觉效果上。如何建立语音与口型、语音与面部姿势的映射关系,如何通过一个简单而完全自动化的方法来获得协同发音模型参数,使得虚拟说话人动画的生成完全自动化,并且具有一定的真实感,是我们的主要研究内容。
3 采用KNN与 HMM的混合模型实现语音可视化建模
本项目采用KNN与HMM相结合的混合模型去实现语音可视化建模。其中,使用KNN分类器将分好类的声韵母与口型进行映射;用HMM模型将人脸的六个基本动作(眯眼与凝视,扬眉与皱眉,点头与摇头)进行建模。
为了降低口型关键帧合成的复杂度,我们在当前汉语语言学和心理学研究成果的基础上,根据汉语拼音中各个声母和韵母口型动作的不同,将视素分为16类,如表1所示。
表1 视素分类表
图3 使用KNN分类器实现语音信号与口型的分类
根据KNN原理,求取输入信号与训练资料的相似度,相似度最大的那一个口型帧就是与语音信号相匹配的口型帧。
我们用HMM模型将语音信号与人脸表情进行建模。首先用HMM将脸部动作分为六种类型:眼睛运动(眯眼和凝视)、眉毛运动(扬眉和皱眉)、头部运动(点头和摇头),如表2所示。这样我们就可以通过脸部的各种动作组合来表达不同的表情。
表2 脸部姿势类型
我们用HMM对面部姿势进行建模,将提取的语音信号的音高和音强,与人脸六种基本面部姿势进行训练和识别。
训练阶段:首先,从录制的语料库中选取部分语料,使所选语料能够覆盖所有面部姿势类型且保证一定的出现概率;提取出语音信号的特征参数和面部姿势的特征参数,接着把语音特征参数作为观察值序列,通过Baum-Welch重估算法训练各相应的HMM,然后用Viterbi算法搜索并记录下语音特征参数所对应的最优状态序列;用HMM建模将面部姿势六种类型的特征参数与语音特征参数所对应的最优状态序列建立对应关系。
识别阶段:对新输入的语音信号进行特征提取,分析其音高和音强,然后根据训练好的HMM,将新的语音特征参数作为HMM的观察值序列,通过Veterbi算法搜索并获取最优状态序列;由于相似或然率反映了语音信号与人脸面部姿势的相似概率,因此需要计算新输入语音信号与训练库中的图像观察值序列中的各个人脸面部姿势的相似或然率P(O|M);找出最大相似或然率,对应的HMM即为与新输入的语音信号相匹配的人脸面部姿势。
经过以上分析,通过KNN与HMM混合模型的语音可视化建模,基本解决语音与人脸口型、面部姿势的同步关联问题,使语音可以同时驱动虚拟人唇部、眼睛、眉毛、头部等部位做出一整套相应的动作,从而可以使虚拟人面部表情更加逼真、自然。
参考文献:
[1]C. Bregler,M. Covell,and M. Slaney,“Video rewrite:Driving visual speech with audio,” in Proc. ACM SIGGRAPH,Los Angeles,USA,Aug. 1997,pp. 353-360.
[2]M. Brand,“Voice puppetry,” in Proc. ACM SIGGRAPH,Los Angeles,USA,Aug.1999,pp. 21-28.
[3]A. Do and S. King,“Creating emotional speech for conversational agents,” in International Workshop on Digital Media and Digital Content Management,Hangzhou,China,May 2011,pp. 107-110.
[4]Y. Chen,F. Huang,S. Guan,and B. Chen,“Animating lip-sync characters with dominated animeme models,” IEEE Trans. Circuits and Systems for Video Technology,vol. 22,no. 9,pp. 1344-1353,Sep.2012.
[5]周维,汪增福. 与语速相关的人脸语音动画合成及其评估.中国图象图形学报.14(7):1399-1405. 2009.
[6]杨逸,侯进,王献. 基于运动轨迹分析的3D唇舌肌肉控制模型. 计算机应用研究. 2013.
论文作者:米辉辉,董捷
论文发表刊物:《河南电力》2018年22期
论文发表时间:2019/6/21
标签:语音论文; 口型论文; 面部论文; 姿势论文; 动画论文; 建模论文; 信号论文; 《河南电力》2018年22期论文;