语音自动识别技术(ASR)及其软件实时实现

语音自动识别技术(ASR)及其软件实时实现

盛青[1]2001年在《语音自动识别技术(ASR)及其软件实时实现》文中指出本文主要研究普通计算环境下语音自动识别(ASR)技术的软件实时实现。基于语音识别的基本原理和过程,介绍了语音端点检测,线性预测编码(LPC)倒谱系数,语音建模及模型相似性判断的基本原理和计算方法。在MATLAB环境下开发了部分ASR程序,通过仿真计算,比较分析了多种常用算法的特性及参数选取的方法,给出了一种利用语音码本列向标准差的简化建模与识别方法。在上述工作的基础上,本文在VC环境下建立了一套语音识别系统及其演示软件。大量实验表明,该系统对特定人小词汇表情况有较高的识别率和一定的实时性。

杨晓海[2]2017年在《基于语音端点检测的移动设备无障碍出行服务助手的研究与实现》文中指出目前信息技术和智能手机的发展日新月异,人们日常生活中主要通过移动互联网获取服务。视障人群由于视觉方面的缺陷,在使用手机等移动设备时存在许多障碍,无法像健全人一样正常地获取服务,只能依靠听觉和触觉反馈等获取信息,通过说话来进行交流。视障人士的出行生活需求随着生活水平提高而增加。现在市场上的出行导航应用很少遵循"信息无障碍"开发规范,视障用户使用十分不便。所以为了满足视障人士对无障碍出行和生活服务的需求,开发一款无障碍的出行辅助助手就具有特别的意义。本文首先针对视障人群用户主要通过听觉和语音交流的特点,设计了一种基于语音端点检测改进算法的实时语音助手。该助手通过自动检测音频信号中的有效语音信号,通过语音识别服务将语音命令转换成文字,由关键字触发相应的任务,并经过语音合成将信息通过听觉反馈给用户。本文首次提出了将多帧频带方差比率和短时能量结合判决语音端点的算法,不需要点击按钮启动语音识别,而是自动检测有效语音的起点和终点,不仅大大减少了点击操作复杂程度,而且能提升用户的操作效率。此外在其他交互界面,增加了专为视障人士设计优化的语音反馈提示,帮助用户更直观地理解信息。其次,针对视障人群出行难的问题,本文设计了以定位、导航为基础功能的无障碍出行功能。为了方便视障用户出行以及建立自己的感知地图,用户可以对地点添加文本描述进行标记,再次到达此位置系统自动播报该描述,本文对搜索过程作了优化,对定位频率作了动态自适应调整,以增加搜索的效率。用户可以根据当前位置查询周围的地点环境。同时设计了生活场所无障碍友善度的评价系统,任何残疾人用户可以在出行时对某地点评价,本文利用层次分析法和威尔逊区间法设计了权重确定和评分计算方法,也能根据名称、类别等查询相应的地点及其友善度评分,方便视障用户出行时选择更友好的场所生活,丰富完善感知地图的细节和数据。最后,本文在以上研究的基础上实现了 Android平台的基于语音端点检测改进算法的无障碍出行服务助手,与传统的一些实现方法做了对比实验和分析。

赵欢[3]2010年在《面向嵌入式计算平台的自动语音识别关键技术研究》文中研究说明在未来几十年,先进通信将迅速改变人们的生活和工作方式,随时、随地使用一定范围内的设备进行实时通信和实时数据处理将逐渐成为现实,基于嵌入式计算平台的自动语音识别(Automatic Speech Recognition, ASR)是关键技术之一。许多在实验室表现优异的ASR系统,一旦应用到复杂的实际噪声环境就马上变得不稳定;另一方面,鲁棒性高的识别系统往往依赖于高计算量,只适合运行于PC平台甚至高性能服务器。如何降低ASR系统的计算复杂度使之适合嵌入式平台,并提高其在复杂噪声环境下的鲁棒性,是嵌入式ASR研究的重点和难点。目前,嵌入式ASR应用系统多为分布式结构,即在目标设备上装载语音识别前端,将复杂的语音识别后端放置在服务器。本文着重研究基于嵌入式计算平台的自动语音识别前端关键技术。作为ASR的第一步,有效的语音端点检测可减少系统后续处理时间,排除无声段噪声干扰,提高语音识别准确率。本文提出了两种语音端点检测新方法。其一,将时域对数能量特征与频域谱熵特征相结合,提出基于对数能量谱熵的端点检测方法,由于其计算简单可应用于中低端嵌入式平台;其二,针对抗噪性能优良但计算稍复杂的非线性语音特征端点检测,提出基于样本熵的语音端点检测方法,有望应用于高端嵌入式平台。仿真实验表明,两种新方法在低信噪比环境下,比传统的能量法、谱熵法、能量谱熵法、对数能量法等都具有更好的鲁棒性,能更好地区分语音和噪声,检测准确率更高。语音增强是从含有噪声的语音信号中尽可能消除噪声,还原出纯净语音信号。完全消噪是不可能的,实际系统中的语音增强以抑制背景噪声、保护和提高感知语音质量为目的。基于短时谱估计的语音增强算法由于计算简单最适宜嵌入式平台,但有时会造成语音失真。本文分析比较了几种典型短时谱估计算法计算复杂度,针对其中乘加计算量最小的RL算法进行改进,引入人耳掩蔽效应,提出基于Bark域的RL改进算法,并进一步降低了计算量。实验表明,改进后的算法能显着抑制噪声,并有更好的语音质量,有效减少了语音失真。语音特征提取是ASR前端的最后一个环节也是最重要的环节,特征提取质量对识别结果起决定性作用。美尔频率倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)以其良好的性能成为ASR系统标准前端,本文针对标准MFCC提取过程进行了两点改进:一是调整了汉明窗系数,提高窗函数性能;二是将子带频谱质心(Subband Spectrum Centroid, SSC)加入MFCC过程。传统语音特征提取利用了语音幅度信息却忽略了频谱信息,由于各频带频谱峰值位置受背景噪声影响相对较小,具有更好的鲁棒性,而SSC非常接近频谱中的峰值位置,本文将SCC引入MFCC,提出基于美尔子带频谱质心(Mel Subband Spectrum Centroid, MSSC)的语音特征提取新方法。HTK仿真实验表明,新汉明窗及MSSC语音特征提取新方法与传统MFCC法比较,低信噪比环境下的识别率平均提高了17.13%。将上述语音端点检测算法、语音增强算法和语音特征提取算法集成为一个ASR前端实验系统。本文选择ADI公司的多媒体高性能ADSP-BF533作为嵌入式平台,将该前端系统进行优化并成功移植,验证了其在嵌入式平台上实现的可行性。最后,将上述部分研究成果用于移动学习平台原型系统设计,并进一步研究了教学资源知识表示技术,提出了一种本体概念相似度计算新方法;研究了AMR-WB编码器优化技术,提出了一种快速固定码本搜索方法。该原型系统在中山读书郎公司的儿童早教机、学生掌上电脑和数码读书机系列产品中得到成功应用,产生了巨大的经济效益。产品开发的实践证明,本文研究成果可广泛应用于嵌入式计算平台。

阮兴[4]2014年在《基于语音识别的盲人家居辅助系统的设计与实现》文中认为在过去的叁十年中,图形用户界面作为人与机器之间的通信接口取得了很大的进展,但使用图形用户界面需要用到视觉与手的操作,对于盲人以及肢体残疾等这一特殊群体来说存在着诸多的不方便之处。而在智能家居的交互式控制中应用语音用户界面,能够充分地利用了语音这一人类进行信息交流最直接、最方便和最有效的工具来进行人与机器之间的通信,将能大大方便盲人的独立生活。本论文的最终研究目标是实现一个基于语音识别技术的盲人家居辅助系统。采用ARM嵌入式系统技术和语音识别技术,以及软件工程结构化设计方法。本论文主要完成了以下工作:1、功能需求分析,从用户角度出发,分析用户对本系统的功能需求;2、关键技术研究,包括提高语音识别技术准确率以及如何在嵌入式系统中使用语音合成技术;3、系统的硬件电路设计,设计内容包括:主控制电路设计、语音识别电路设计、GSM通信电路设计、开关控制电路设计以及电源电路设计;4、系统的软件设计,设计内容包括:主程序设计、语音识别模块软件设计以及GSM通信模块软件设计。本系统将能够在更大程度辅助盲人的生活,给盲人的独立家居生活带来方便。本论文具有非常实用的应用价值,并且对于今后开发类似产品也具有一定的参考价值。

刘敏[5]2013年在《嵌入式平台语音识别技术的研究》文中提出目前,在嵌入式平台,像手机、平板、穿戴数码、汽车电子等,语音识别方案受嵌入式设备计算速度和存储能力的限制,大多选用云语音识别方案,例如Google云语音识别、科大讯飞云语音识别等,而云语音识别效果又与嵌入式平台网络状况以及云语音识别服务器计算能力相关。因此,针对嵌入式平台来说,基于云的语音识别方案存在识别延时大、识别结果情景相关性不强的问题。本论文主要工作是研究适合嵌入式平台的语音识别方案,达到高精度、快速度的语音识别效果,并具备一定的口音抗拒能力,满足嵌入式平台语音识别的应用需求。论文针对嵌入式平台语音识别面临的4个核心问题(计算能力、词汇量、识别速度、说话者口音),从现有的3种语音识别解决方案(专用语音识别芯片级、语音识别开发平台级、云语音识别级)着手,提出了基于专用语音芯片的本地语音识别和云语音识别辅助的混合语音识别方案。论文分别研究了嵌入式平台下,基于LD3320的本地语音识别方案和基于Google的云语音识别方案的性能。测试结果表明:单纯基于LD3320的本地语音识别平均识别准确率为87.2%,但识别指令个数不能超过50,而单纯基于Google的云语音识别准确率受说话者口音及语音词汇频度影响很大,而且识别延时不稳定且依赖网络状况。WIFI网络状况下识别延时0.3s~3s,而手机2G网下延时4s~14s不等。针对嵌入式平台本地语音识别和云语音识别的特点,提出利用“动态多场景切换”机制解决识别指令个数限制,利用“近音映射”机制解决说话者口音问题,组建以基于LD3320的本地语音识别为主、Google云语音识别为辅的混合语音识别系统。最后,通过智能安防机器人平台测试,验证了混合语音识别方案的可行性以及语音识别效果的鲁棒性。测试结果显示:该混合语音识别系统较单纯基于LD3320芯片的语音识别方案性能要好,识别率从87.2%提高到95.8%。

龚媛[6]2008年在《基于自然语言处理的语音识别后文本处理》文中指出目前对语音识别后处理的研究正呈现出多样化,语言学知识在研究过程中越来越受到重视,应该更加深入地应用语言学知识,应用自然语言理解方面的各种现有及正在兴起的方法来改善语音识别系统的性能。本课题以此为指导,主要针对“奥运多语言综合信息服务”项目的典型示范系统“CityGuide”,研究语音识别后语句检错纠错方法。将采用基于自然语言理解方法,即主要从语法、语义和语用叁个方面出发,重点关注语用信息对识别正确率提高的贡献。本文的主要研究工作和成果有:1,在智能移动终端的语音识别引擎之后引入基于自然语言理解模块,特别需要指出的是,在原有算法(包括语法、语义算法)基础上增加了语用算法和一些辅助算法,使语音识别的正确率约从52%提高到70%。2,目前该演示系统已完成在智能手机上的实验性设计、实现与测试,并尝试引入智能移动平台的语音引擎,实现语音识别及识别后利用自然语言理解方法来进行纠错。目前系统主要支持单句语音输入,所支持语种为中文/英文两种语言。3,提出了一种基于元搜索技术的在线语料知识库采集、学习、构建和更新优化方案,特别针对语言本身存在一定的模糊性和不确定性的特点,探讨了模糊理论在文本分类中的应用,提出了一种梯形隶属度函数法将分类结果模糊化,以及引入模糊熵的概念来评估文本模糊化分类的性能,克服了原有实验系统语料库规模小、领域局限性大、来源不够丰富、缺乏时效性的缺点。

程常清[7]2002年在《UMS中的TTS/ASR技术研究》文中提出本文以作者参与“中鸿讯统一消息服务系统(ZHX-UMS)”设计与开发工作为背景,在讨论有关UMS的体系结构、关键技术和实现方法等方面问题的基础上,重点讨论了文本-语音转换技术(TTS)和自动语音识别技术(ASR)的现状及其在UMS系统中的应用与开发。 本文反映的工作可以概括为两大部分:ZHX-UMS系统的总体规划设计和与TTS/ASR相关技术的研究与开发。在总体规划设计中,本论文首先从消息服务系统的发展历程出发,分析了从分离的消息服务系统向统一消息服务系统进化的必然性以及后者在技术上的优势,探讨了UMS的应用前景,从而论证了ZHX-UMS项目开发的合理性和使用价值。在分析、总结了国外UMS在体系结构特点的基础上,本项目组提出了ZHX-UMS的3层体系结构,本文也较为详细的讨论了这一结构,作为对相关系统研究与开发的基础。 作者在论文中反映的工作重点是对与TTS/ASR相关技术的研究,并以此为基础实现了相关子系统,与其他同学一道共同完成了ZHX-UMS样机系统的开发工作。论文从UMS所涉及的各种语音技术出发,引出了本文讨论的重点——TTS/ASR技术;分析了TTS/ASR技术的基本结构、基本要素、性能评价指标,以及该技术所使用到的语法规则;针对ZHX-UMS对TTS/ASR技术应用需求以及在设计中必须考虑的关键问题,结合开发实践提出了自己的看法与体会。 本文第4章重点讨论了ZHX-UMS中与TTS/ASR相关模块开发问题,较详细地介绍了模块功能的实现;第5章进一步讨论如何以面向对象的方法为基础对模块进行封装(封装成ActiveX控件),以解决模块间通信的问题和与其他子系统间的信息交换问题。 ZHU-UMS的开发环境为Windows NT,与TTS/ASR有关的开发,借用了微软公司的语音开发包Microsoft Speech SDK。 尽管目前的ZHX-UMS还只是一个试验样机系统,由于时间关系也尚未对系统进行严格的功能和性能测试,系统本身还有待改进和优化,但该项工作已经为后期的开发和产品化,取得了有益的经验,奠定了良好的基础。

吴华玉[8]2008年在《基于ASR的呼叫中心实现及客户分类研究》文中提出随着中小型企业实施客户关系管理(CRM)的进程,呼叫中心作为企业与客户的统一接触点,建立功能完善的呼叫中心是增强企业竞争力的重要手段之一,其中交互式语音应答(IVR)系统是呼叫中心的重要组成部分。为了增强系统可扩展性,交互式语音应答(IVR)系统采用与具体工作流程无关的开发方案,建立了IVR系统设计框架。框架采用TreeView控件显示工作流程,该控件由节点集组成,每一个节点表示工作流程的一步操作。结构设计模块实现了节点的添加、删除;内容设计模块指定了各个节点的操作类型和操作参数;执行模块将由TreeView控件表示的工作流程转换成语音卡控制程序;管理模块对多个工作流程进行管理。对酒店信息管理系统功能进行分析,实现了入住登记、结账、酒店信息查询与修改等功能,并在上述设计框架上实现了酒店呼叫中心的功能,包括电话留言、迷你酒吧、叫醒服务及房间状态更新。针对用户通过电话按键与IVR系统交互的不足,研究了基于离散隐马尔可夫(DHMM)的孤立词ASR算法。在语音端点检测研究中,分析了短时自相关函数最大值和LPC距离对有声段和无声段的区分度,实验结果证明前者能更好地区分有声段和无声段,实现了基于短时自相关函数的双门限端点检测算法;研究了两种常用的语音特征参数线性预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)的提取方法;详细分析了基于DHMM的孤立词识别系统的训练和识别过程。最后给出试验结果及分析,并将ASR算法应用于IVR系统中,实现了具有语音识别功能的IVR系统。CRM的核心是以客户为导向,针对不同的客户提供个性化的服务,客户分类是实施CRM的关键技术。呼叫中心为企业收集和积累了大量客户数据,利用客户现有数据可进行客户分类。本文提出了一种基于粗糙集和遗传算法的改进的BP神经网络算法,该算法首先对原始数据进行属性约简,优化BP神经网络的输入变量;然后利用遗传算法全局搜索的特点,优化BP神经网络的初始权重和阈值。最后将改进的BP神经网络用于客户分类,取得了良好的分类效果。

俞科峰[9]2018年在《自动语音识别技术在中国电信多媒体客服系统中的应用》文中进行了进一步梳理为更好地提升中国电信客户服务的体验感知,通过利用人工智能应用技术中的自动语音识别技术贯穿热线服务的全流程,研究通过语音识别(ASR)应用、自然语言理解(NLU)应用、语音合成(TTS)应用结合大数据分析应用,分析了通过人工智能技术的应用融合服务实践推动客户服务运营的智慧化,实验探讨自动语音识别技术应用于客户服务,从多维度提高服务质量,提升客户体验感知的实践。

邱全庆[10]2018年在《面向机器人的言语交互系统设计》文中指出随着机器人技术的日趋成熟,服务机器人已经逐步走向千家万户。语音作为最方便、最快捷的输入方式,有着无与伦比的优越性,具有语音交流功能的服务机器人越来越受到用户的欢迎和喜爱,研发适合走进家庭的言语交互机器人成为服务机器人发展的必然趋势。言语交互机器人的开发难点在于语音识别,尤其是带有口音的语音识别。因此,本课题在建立自发口语语音识别模型的基础上,设计了面向机器人的言语交互系统。主要研究工作和成果如下:(1)概述了言语交互的基础理论。首先,对人机交互技术进行了概述;然后,对语音识别技术进行了详细的分析,阐述了声学模型和语言模型的建模方法;最后,对语音切分技术进行了叙述。(2)提出了面向机器人的言语交互系统设计方案。首先,根据项目开发需求,分析了系统的总体目标,并对系统进行了功能性和非功能性需求分析;然后,根据需求分析,进行了系统概要设计,包括系统框架和系统流程;最后,研究了系统的开发和运行环境,分析了系统的安全性问题。(3)实现了言语交互系统。首先,对自发口语语音识别模块进行建模,采用最大相似度原则训练基于GMM-HMM的声学模型,包括单音素模型和叁音素模型的训练,并采用大量的日常生活用语文本语料建立基于N-gram的统计语言模型;其次,利用信号的时域特征分析和单音素语音模型实现自动切分技术,解决口语发音中的不连贯、犹豫停顿的识别问题,并利用多线程解码技术提高语音识别效率;然后,实现了客户端登录、注册、录音和特征提取功能的设计;最后,根据系统架构,实现了服务端的详细设计,包括信息管理模块、解码器、在线对话模块和文件存储模块。实验结果表明,本言语交互系统在复杂噪声背景下有很好的识别效果,具有很好的鲁棒性、安全性和实时性,为智能服务机器人平台提供了核心模块。

参考文献:

[1]. 语音自动识别技术(ASR)及其软件实时实现[D]. 盛青. 西北工业大学. 2001

[2]. 基于语音端点检测的移动设备无障碍出行服务助手的研究与实现[D]. 杨晓海. 浙江大学. 2017

[3]. 面向嵌入式计算平台的自动语音识别关键技术研究[D]. 赵欢. 湖南大学. 2010

[4]. 基于语音识别的盲人家居辅助系统的设计与实现[D]. 阮兴. 电子科技大学. 2014

[5]. 嵌入式平台语音识别技术的研究[D]. 刘敏. 哈尔滨工业大学. 2013

[6]. 基于自然语言处理的语音识别后文本处理[D]. 龚媛. 北京邮电大学. 2008

[7]. UMS中的TTS/ASR技术研究[D]. 程常清. 西南交通大学. 2002

[8]. 基于ASR的呼叫中心实现及客户分类研究[D]. 吴华玉. 大连理工大学. 2008

[9]. 自动语音识别技术在中国电信多媒体客服系统中的应用[J]. 俞科峰. 移动通信. 2018

[10]. 面向机器人的言语交互系统设计[D]. 邱全庆. 南昌航空大学. 2018

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

语音自动识别技术(ASR)及其软件实时实现
下载Doc文档

猜你喜欢