三维人脸的口型合成研究

三维人脸的口型合成研究

王跃[1]2014年在《基于汉语协同发音模型的文本驱动三维口型动画合成研究》文中认为随着计算机动画技术的不断发展,人们对三维虚拟模型情感表达的真实感提出了更高的需求,三维口型动画就是其中的一个重要部分。论文根据汉语协同发音规律对口型合成的影响,提出了一种基于汉语协同发音模型的三维口型动画驱动方法,使得三维口型动画的合成更流畅、更平滑、更接近人们真实发音时的口型。本文的研究内容如下:(1)完成声母和韵母的聚类,构建汉语可视化协同发音模型,解决协同发音对汉语连续发音时口型的影响。(2)利用MPEG-4中“中性人脸”和“FDP”的定义规范化三维模型,并建立基本口型库。(3)利用连续文本驱动合成口型动画,实现口型间的平滑过渡。本文的创新点如下:(1)改进基于汉语的协同发音模型。首先,为每一类不同的声母和韵母增加不同的“影响等级”和“受影响等级”属性,并综合考虑口型发音姿态,改进声母和韵母聚类方法。其次,增加考虑音节间元音的相互影响,构建协同发音模型,提高模型的表达能力。(2)提出了一种基于连续文本驱动口型动画合成方法。利用改进的协同发音模型,实现输入的所有发音音素的优化,输出新的口型序列。通过改进对插值生成过渡帧的控制,生成更具真实感的口型动画。实验表明,论文提出的方法能充分模拟汉语协同发音对发音口型的影响,可以合成自然流畅的口型动画。基于文本驱动的真实感三维人脸动画在影视、游戏、社会生活、教育等多个领域都具有极其广阔的应用前景。

蔡涛[2]2000年在《三维人脸的口型合成研究》文中指出具有真实感的人脸模拟是计算机图形工作者长期以来所追求的目标,三维人脸的口型合成是其重要组成部分。该技术可以应用于通信技术,辅助教学,虚拟现实,医疗研究,电影制作,游戏娱乐等诸多方面。 本文主要在基于文本的口型合成,行为驱动的口型合成,交互式人脸编辑合成系统的设计和实现等方面进行了研究和探讨。 对于文本驱动的汉语口型合成,本文通过归纳汉语拼音发音基本规律,用七种基本口型及其时间分配比例,完成了基于汉语拼音文本的特定人口型合成的设计实现,并且使显示速度达到了30帧/秒,基本满足实时显示的需要。 对于视频图像口型行为驱动的口型合成,本文将Kriging估值算法引入唇部模型变形中,设计了一种可行的变形方案,能够较真实地反映特定人的运动特征。根据视频图像中提取的唇部特征点的位置信息,计算出唇部模型特征点的运动信息,应用Kriging方法,驱动唇部模型的运动。 最后本文将上述技术和算法组合到交互式人脸编辑合成系统中,实现了可以进行交互式编辑,可以实时显示三维人脸唇部动画的人脸合成系统,为三维人脸图象库的建立提供了一个方便的编辑工具。本文所阐述的技术和算法,在数字通信,计算机辅助教学以及三维游戏等方面都将会有广阔的应用前景。

周维[3]2008年在《汉语语音同步的真实感三维人脸动画研究》文中研究表明具有真实感的语音同步人脸动画是当今计算机图形学领域的一个热点问题。它在人机交互、娱乐、影视制作和虚拟现实等方面有着非常多的应用。在过去的三十年中,相关领域取得了长足的发展与进步,但仍存在许多问题亟待解决。其中,如何获得具有高真实感的语音同步人脸动画是一个富于挑战性的课题。该课题涉及个性化人脸的运动学和动力学建模和表示、协同发音机制的建模和表示以及语音驱动人脸动画的主客观评估等诸问题。本文从以下几个方面对语音驱动人脸动画这一富于挑战性的研究课题进行了重点研究。首先,本文在Waters肌肉模型的基础上提出了一种新的嘴唇肌肉模型。针对Waters模型过于简单,不能对复杂的面部动作进行有效建模的问题,本文参考面部解剖学的相关研究成果,提出了一种能够精确描述嘴唇运动的新的嘴唇肌肉模型。该模型将嘴唇的整体运动分解为若干个子运动,并通过各子运动之间的线性组合来表示嘴唇的整体运动。为了合成说话人脸,首先在嘴唇上标记出一些特征点并通过这些特征点获取一组用来描述嘴唇运动的参数。在此基础上,建立嘴唇的运动模型。然后,利用上述嘴唇运动模型和与之相关联的线性肌肉模型,合成各种说话口型。实验结果表明,该嘴唇模型计算代价低、实用性强,是一种有效的嘴唇模型。利用该模型可以合成具有一定真实感的口型动画。其次,在汉语普通话三音子模型和协同发音相关研究成果的基础上,本文提出了一种上下文相关的可视语音协同发音模型。该模型将基于规则集的方法和基于学习的方法进行结合,充分利用两种方法的优点来获得具有真实感的人脸语音动画。我们的模型关注于汉语普通话协同发音的视觉效果。为了得到关键的合成口型,建立了可视语音的协同发音规则集。各音子的相应视位权重可由量化的规则集计算得出。在此基础上,可以合成对应于各音子的口型序列。然后,利用基于学习的方法,从所有的可能选择中获得合成的两音子间的过渡口型,最终得到具有真实感的人脸语音动画。此外,本文还提出了一种新的与语速相关的嘴唇运动模型。在连续语流状态下语速对嘴唇运动的速度和幅度都有很大的影响。研究表明,一些说话人在保持运动速度相对不变的条件下通过增大嘴唇运动幅度来达到增加语速的效果,而另一些人则在保持嘴唇运动幅度不变的前提下通过增大运动速度来实现提高语速的目的。也有一些人通过同时调节嘴唇的运动幅度和运动速度两种参数实现对语速的控制。这表明,在不同的语速条件下,不同人的唇动策略有所不同。基于上述背景知识,本文提出了一种新的具有高度自然度和个性化特征的、与语速相关的嘴唇运动模型。这里,将嘴唇肌肉区域看作一个独立的粘弹性系统,根据EMG信号与语速以及肌肉收缩力之间存在的观测数据得到皮肤肌肉组织和语速以及肌肉收缩力之间的定量关系。依据该嘴唇运动模型,我们构建了一个汉语普通话人脸动画系统。最后,为了对所构建的语音同步人脸动画系统的质量进行评估,本文提出了一种用于汉语可视语音动画质量评估的系统化方法。该方法主要由两种测试步骤构成:可接受性测试与可理解性测试。在可接受性测试中,使用了诊断的可接受性测量方法,并添加进了测试和客观评估相结合的方法。在可理解性评估中,提出了一种新的可视汉语改进押韵测试方法。在该方法中,通过引入“惩罚”与“原谅”因子以模拟人们对于说话人脸的感知。综合两种测试方法可以得到对所提出的三维人脸语音动画系统的总体评估。在前述研究的基础上,我们设计并实现了一个汉语三维人脸语音动画演示系统。该演示系统可以根据所输入的语音和特定人的三维人脸模型生成具有真实感的个性化说话人脸动画。

李蓓[4]2013年在《汉语文本驱动的人脸动画演示系统设计》文中指出近年来逼真的三维人脸动画系统的研究已成为计算机领域的热门话题,并在人工智能、影视制作、多媒体教学、远程会议和计算机游戏等方面得到广泛的应用。但是,目前国内对于三维动画系统的研究还处于初级阶段,如何针对特定的人脸建立逼真的三维模型,并运用汉语文本驱动人脸动画模型,三维动画关键帧之间的自然过渡,且与实际生活中人在说话时的嘴型相符都是目前的研究重点与难点。本文在分析研究了三维人脸建模、三维动画和汉语文本分析的关键技术和难点问题的基础上,采用基于形变模型的人脸重建方法,完成了特定三维人脸模型,并对汉语文本进行了系统的分析,归纳了汉语发音口型中的协同发音现象,实现了在连续语流中关键帧模型之间的口型过渡,最后设计实现了本文中汉语文本驱动的人脸动画演示系统。其主要内容如下:(1)在阐述了MPEG-4标准动画原理的基础上,选取特定人脸作为系统的三维人脸模型;设计了汉语文本驱动人脸动画演示系统的总体框架,分析了实现文本驱动三维动画系统的难点以及本文研究实现的重点。(2)讨论了标准人脸和特定人脸的三维人脸建模的优缺点,选用了基于形变模型的三维人脸重建方法,并选择单张正面人脸图片标定特征点,与形变模型的原始二维图像进行匹配,通过求解最小欧氏距离,得到重建模型的二维人脸图像,再将纹理映射到三维网格模型上,得到个性化的三维人脸模型。(3)通过分析汉语输入文本,对应查找汉语拼音对照表,得到输入汉字的拼音表示。并总结了汉语语音的发音规则,将汉语拼音的基本口型依据视位的不同分成了12类,并生成相应的三维口型关键帧。(4)分析讨论了人在说话过程中普遍存在的协同发音问题,通过分析基本元音、辅音发音口型之间的相互影响程度,对前后发音口型关键帧设置权值,在关键帧动画之间插入过渡帧,使得各关键帧口型之间的过渡更加自然。(5)完成了本文汉语驱动的人脸动画演示系统的功能设计,采用基于OpenGL库的VC++6.0编程实现了以汉语文本作为驱动,将输入文本转换成汉语拼音音子的三维人脸动画演示系统。

王恺[5]2009年在《基于MPEG-4的三维人脸动画合成研究》文中研究说明人脸的计算机模拟长期以来一直是计算机图形学以及人机交互中非常活跃的研究领域,逼真的面部合成是计算机图形学中最根本的问题之一,同时也是最困难的问题之一。随着计算机图形学在建模、渲染和动画等方面的发展,人脸建模和人脸动画在电影、广告、远程会议、视频电话、数字娱乐、人机交互、虚拟现实、计算机辅助教学、医疗诊断等领域得到了广泛的应用。因此,作为当前计算机视觉和计算机图形学领域的研究热点,人脸动画不但具有理论研究意义,同时也具有极大的应用价值。在人脸动画研究的三十多年中,众多学者做出许多创造性的研究工作,并实现了一些人脸建模和动画系统。但在算法的复杂度、获取三维数据的易用性、实现可变姿态的便捷性和鲁棒性等方面还存在许多需要进一步研究和改进的地方。本文结合国内外关于计算机三维人脸动画的研究现状,主要研究基于MPEG-4标准的人脸动画生成算法以及融合口型和表情多种面部运动元素的人脸动画合成方法,力求在标记文本的驱动下,通过较低复杂度的实时计算,获得富于变化的真实感人脸动画。在基于MPEG-4标准的动画合成方面,本文主要研究了人脸建模和FAP(Facial Animation Parameters)数据提取的方法。利用工具建模,转换成分部件描述的VRML格式,并对FDP(Facial Definition Parameters)进行手工设定,得到了兼容于MPEG-4标准的人脸模型。在数据采集方面,本文提出了一种FAP分析提取算法,通过对视频序列中人脸标记点位移进行分析计算来求解FAP值,得到了可以再现真实面部运动的FAP参数。在实现具有丰富面部动作的人脸动画方面,本文针对汉语语言发音的特点,建立了FAP参数序列表示的三维口型库。通过对JAFFE人脸表情数据库的统计研究,总结出基本表情的情感组合模型,并用于对采集的原始基本表情进行校正,完成人脸基本表情库的建立。最后,本文基于FAP参数的特点,提出了一种口型动画和表情动画的融合模型,实验表明,该融合模型可以真实的模拟人脸非线性的复杂复合运动,同时计算可以满足实时性的要求。

米辉辉[6]2014年在《与汉语语音同步的三维人脸动画的研究》文中研究指明与汉语语音同步的三维人脸动画合成的研究是自然人机交互领域的重要内容。将任意的声音与一个“虚拟人”重新结合起来可能是语音合成中最重要的进步之一。人们相信,视觉合成语音将会被证明比听觉合成语音更有价值。合成视觉语音可以为精神物理学和心理学的问题提供更细微的评估,这是自然语言无法提供的,并且加入视觉信息后可以显著提高可懂度。目前,还没有一个较好的方法来实现符合汉语发音习惯的人脸语音同步动画。因此,本文的目标是探索研究一种语音可视化新方法,并建立一个与汉语语音同步的三维人脸动画系统。该技术能够广泛应用于新闻播报、对话系统、虚拟主持人、虚拟会议、电影制作、3D游戏娱乐等领域。针对汉语的发音习惯以及语音可视化技术中对口型动画自然、连续的要求,本文提出了一种符合汉语发音习惯的三维人脸语音同步动画的方法。本文主要分为三部分:三维人脸建模的研究,协同发音建模研究,语音与人脸动画同步的研究。第一部分,根据对人脸运动解剖学的研究,构建一个基于肌肉模型与运动几何学模型的三维人脸控制模型,为了达到逼真的效果,建立舌头、牙齿等模型来配合发音器官的发声。通过数据结构的形式去控制肌肉模型和运动几何学模型实现人脸的运动,从而实现各种口型和表情的变化。第二部分,为了解决汉语发音习惯的问题,设计了语音可视化协同发音模型,该方法通过分析相邻音子间视素的影响权重,可以描述辅音与元音之间,元音与元音之间相互影响的视位表达,从而产生符合汉语发音习惯的口型动画。第三部分,为了解决人脸动画的语音同步问题,提出了一种语音流与动画流匹配的方法。首先,通过对汉语文本的分析,来获取中文可视音素;其次,通过对语音基本口型的时间定位,将语音和人脸动画相结合,并且在时间轴上保证语音流与动画流的匹配;最后通过插值算法合成与语音同步的三维人脸动画。该方法提高了人脸语音动画的连贯性和合理性。在上述研究的基础上,本文开发了一种基于汉语文本的三维人脸语音同步动画系统,该系统可以根据输入的文本,通过语音可视化技术,产生与语音同步的三维人脸动画。为了有效地评估三维人脸语音动画系统,用主、客观评价的方式进行实验对比和分析,实验结果表明:本文方法产生的口型动画更为逼真,且符合汉语发音的习惯。

毕永新[7]2012年在《基于综合加权算法的汉语语音同步三维口型动画研究》文中提出近年来,随着多媒体技术和人机交互技术的快速发展,人们越来越希望能够跟计算机进行自然流畅的交流。人类面部在交流过程中传递着大部分的沟通信息,如心情、精神状态等。因此,人脸表情动画的研究在近年的计算机动画研究中受到了广泛的关注,而口型动画是人脸表情动画中非常关键的一部分。本文主要工作是基于MPEG-4标准的面部动作编码对人脸口部区域进行提取编码,并针对汉语发音特点进行发音口型分类,并以此基本口型分类应用综合加权算法驱动汉语发音同步的口型动画。本论文基于MPEG-4标准和中文语言学理论,以SAPI5.0提供的文本语音合成(TTS)引擎、OGRE三维虚拟仿真引擎作为主要的开发工具,实现了一个基于综合加权算法的汉语语音同步的动画系统。该系统主要由三部分组成:文本分析系统;语音合成系统;语音与口型动画同步系统。系统的执行流程是:首先,文本分析系统针对输入的汉语文本进行分析,将汉字拆分为不同的汉语可视化音素,并将这些因素发送到语音合成系统合成为基本的可视化音素流;其次,基于MPEG-4标准建立具有真实感的参数人脸模型,使用可视化音素动画帧参数驱动模型的形变,从而实现人脸口型动画;最后将合成的汉语语音与人脸口型动画同步,实现较为逼真的人脸口型动画。从而有效的解决汉语语音发音与口型动画的同步问题。由于本系统主要是针对汉语发音口型建立的动画模型,在动画驱动过程中主要研究了人脸口部区域的动画变化,并没有考虑到整个的人脸动画的驱动,如表情动画,舌头动画等。这将是论文进一步研究的研究点。本文提出的口型动画方案具有很广泛的应用前景,可以应用在服务行业中的虚拟服务员、低频带的网络通讯和视频会议、电影、游戏和广告中的角色模拟等许多领域,增强多媒体虚拟现实的真实感。另外,本研究可以很好的推动可视化的语音动画合成的发展。

荣传振[8]2010年在《汉语可视文语转换系统研究与实现》文中研究表明随着计算机技术的进步和其他相关学科的发展,语音合成技术有了迅猛的发展,涌现了大量的新理论和新技术。与此同时人们对语音合成提出了更高要求。人类对语言的理解是多模态的,不仅听语音,而且用眼睛去观察说话人的面部表情。如果在合成语音的同时能给出一个“讲话的头”,即可表现说话者面部各器官动作的头像,可进一步提高人机交互的友好性和方便性。本文的重点主要放在三维人脸模型的构建和汉语语音视位的研究两个方面。首先利用第三方软件建立人脸模型,在VC++条件下使用OpenGL(Open Graphics Library),即开放性图形库编程完成模型的读取与重现。对于三维建模工具数据量较大的情况,采用细节层次算法进行简化,删除不必要的边、线、面,得到人脸的最初模型,并在该模型的基础上建立本文所需要的标准人脸模型。得到人脸模型后,给人脸模型加上纹理,使模型具有皮肤、眼睛、头发等人脸特征,提高人脸的真实性。在语音的可视化方面,本文根据汉语拼音的构成及发音时的唇动特点,首先定义一个基本口型集,包括11个基本口型(10个韵母口型和1个声母口型),再根据该基本口型集,衍生一个韵母口型库,使每一个汉字在发音时都对应着相应的口型。为了口型描述的通用性和灵活性,采用了MPEG-4所定义的FAP参数来描述基本口型。通过对人类发音的研究,选择了其中24个与发音有直接关系的FAP参数来描述基本口型。得到口型的FAP参数值后,利用FAP参数值驱动三维人脸模型就可以得到相应的口型,从而得到所需的汉语口型库。为了验证合成质量与效果,本文构建了一个可视文语转换系统(Text-To-Visual Speech Synthesis System, TTVS),并进行了计算机仿真。通过听音测试,该系统的自然度较高。在视觉效果上,口型间的过渡比较自然,使得人机交互更加友好。

张思光[9]2008年在《韵律文本驱动的三维口型动画研究》文中提出合成真实准确的可视语音动画一直是虚拟人领域一个艰难而有趣的研究方向。它在增强嘈杂环境下的语言可懂度,教育培训,电影甚至医疗方面都有着广泛的应用。通过机器学习的方法,一段可视语音动画可以通过同步捕获的音频和唇动数据来进行驱动。这种方法的好处是动作的韵律信息已经隐含在驱动数据当中,因此使唇动模拟富于变化。在本文的合成系统中,三维口型动画是由一种带有韵律信息的文本来驱动的。由于文本具有灵活、易修改和高压缩比的性质,因此在国际互联网上被广泛应用。但是却很难通过分析普通文本得到音调、音长和强调等轻易能从音频中取得的信息。由于缺乏韵律信息,以往的合成系统效果会显得很呆板。在本文中,设计了一种新的文本驱动的方法来生成三维口型动画。基本思想是:由用户借助一种韵律标记语言给普通文本添加携带韵律信息的标签,而合成系统则将标签转化为控制动画曲线的参数值,从而达到利用韵律信息来合成动画的目的。本文的技术借鉴行为驱动的方法,利用一种新的面向减小合成错误率的方法来生成三维动态视位。在参考已有对韵律研究的基础上,定义了一种汉语韵律标记语言来将普通文本转化为韵律文本。通过分析视频中发音的特征,建立了基于分段指数函数的参数模型,它将已得到的三维动态视位和韵律信息作为输入,输出则为生动的口型动画。实验结果显示:(1)依赖不同的韵律信息,系统可以合成出不同的结果;(2)此技术相对于以往方法可以减少生成动画时所用的数据量。合成真实准确的可视语音动画一直是虚拟人领域一个艰难而有趣的研究方向。面向汉语的三维口型动画的研究具有重要的理论意义和应用价值。能够利用宝贵的网络资源,使其应用的环境不局限于PC机,也包括PDA等移动设备。该技术具有广泛的应用前景,可以用于多种场合,例如:聋哑人教学、网页手语导播等领域,为制作准确的口型动画大大减少手工劳动的负担。

刘波[10]2009年在《文本驱动的可视语音合成技术研究》文中研究指明近年来随着计算机图形学及多媒体技术的飞速发展,具有高度真实感的可视语音动画已成为计算机领域的研究热点,它在聋哑人教学、电子商务、影视特效、人机接口、医学手术等方面都有着广泛的应用。本文重点研究了文本驱动的可视语音合成技术,旨在对输入的文本信息进行特征分析,从中提取出语音、表情以及时间等控制信息,通过改进的三维人脸模型模拟出真实自然的语音人脸同步动画。首先,在对人脸建模方法进行深入分析的基础上改进特定人脸模型,进而减少网格点和可编辑面数量,以降低运算复杂度缓解系统压力。其次,提出运用网格模型对人脸重点部位的肌肉进行抽象化的方法。该方法借鉴人脸生理组织结构的相关知识,总结出说话过程中面部肌肉群的运动规律,用以克服传统方法中网格模型形变僵硬、网格顶点不易控制的缺点。此外,针对输入文本信息的多种特征进行研究,提出嵌入表情标签的方法为后续合成人脸动画提供表情和时间等控制参数。并依据汉语普通话发音规律估算出连续语流中每个字的发音时长,以此做为可视语音人脸动画的同步控制条件。最后,分析汉语中元音与辅音发音口型之间的相互影响关系,对其进行等级划分。改进汉语协同发音模型,再辅助以表情/口型帧融合过渡处理、人脸动画等技术,实现同步的语音人脸动画。

参考文献:

[1]. 基于汉语协同发音模型的文本驱动三维口型动画合成研究[D]. 王跃. 山东财经大学. 2014

[2]. 三维人脸的口型合成研究[D]. 蔡涛. 北京工业大学. 2000

[3]. 汉语语音同步的真实感三维人脸动画研究[D]. 周维. 中国科学技术大学. 2008

[4]. 汉语文本驱动的人脸动画演示系统设计[D]. 李蓓. 武汉理工大学. 2013

[5]. 基于MPEG-4的三维人脸动画合成研究[D]. 王恺. 北京工业大学. 2009

[6]. 与汉语语音同步的三维人脸动画的研究[D]. 米辉辉. 西南交通大学. 2014

[7]. 基于综合加权算法的汉语语音同步三维口型动画研究[D]. 毕永新. 山东财经大学. 2012

[8]. 汉语可视文语转换系统研究与实现[D]. 荣传振. 山东大学. 2010

[9]. 韵律文本驱动的三维口型动画研究[D]. 张思光. 北京工业大学. 2008

[10]. 文本驱动的可视语音合成技术研究[D]. 刘波. 哈尔滨工程大学. 2009

标签:;  ;  ;  ;  

三维人脸的口型合成研究
下载Doc文档

猜你喜欢