基于语音识别技术的交互绘图系统的设计与实现

基于语音识别技术的交互绘图系统的设计与实现

陈志刚[1]2003年在《基于语音识别技术的交互绘图系统的设计与实现》文中研究指明CAD绘图交互方式的便捷程度对CAD技术的应用普及起着决定的作用。当前,语音识别关键技术的突破使得采用语音方式进行人机交互成为现实。实现一个具有语音交互绘图功能的CAD系统将使CAD的操作向更符合人类自然习惯的方向迈进。 本论文讨论了语音交互CAD系统的总体设计方案,结合语音识别、XML、面向对象、图形处理等技术的应用,着重论述了语音与Windows消息的映射、特定系统语音识别率的提高以及语音交互命令的规范等关键问题的解决方法。此外,论文还介绍了一个语音开发平台的搭建方法,运用此平台可以明显缩短语音交互应用程序的开发周期。 将语音识别技术应用于CAD的研究还刚刚起步,论文的研究内容是在这方面的初步尝试,开发的系统雏形运行结果则表明采用语音进行人机交互绘图的解决方案是可行且实用的。

王爽[2]2008年在《基于多通道交互技术的几何学习系统研究与实现》文中指出多通道交互技术利用人的多个感知通道和控制行为的并行性,扩展了输入输出的带宽,提高了交互的自然性和灵活性。本文对多通道交互技术在教学中的应用进行了研究和探索,提出了在几何教学中将笔输入、语音与鼠标键盘相结合的构想,并最终通过一个原型系统——面向中小学的几何学习系统的开发,深入研究了应用这些技术的若干问题和实现方法。当前教师在利用电子白板等手段进行电子化教学时,大多使用的还是传统的WIMP(Window,Icon,Menu,Point Device)界面。本文在多通道交互相关理论的指导下,以手写屏、麦克风、电子白板等工具,开发了更适合多通道交互的软件系统。该系统按照PIBG范式(Physical,Icon,Button,Gesture)设计,利用中科院笔输入平台和微软语音软件开发包开发,将语音与笔输入结合,使之成为笔交互的有效辅助手段。在系统设计中,我们将以用户为中心的场景设计方法,引入到多通道人机界面的设计当中,为可用性软件的开发做了一定的探索。此外,本文对信息的融合策略从任务结构描述、并行处理方面做了研究。本文的另一项主要工作是将几何图形识别完全融合到笔输入系统当中,使汉字识别、图形手势和命令手势识别结合。几何识别过程中几何特征与笔画数目、顺序无关。本文受到国家863高技术项目(2006AA01Z328)和中科院计算机科学国家重点实验室开放基金(SYSKF0704)资助。

苟鹏程[3]2016年在《基于Android的语音识别设计及应用》文中研究指明微电子技术的不断发展,计算机的效率越来越快,这加快了其他技术的发展,尤其是语音识别的发展。语音识别作为20世纪新出现的技术,正在慢慢的改变人们的生活。语音识别技术的探索与研究,具有广阔的未来市场和广泛的应用前景。论文首先对国内外各汽车厂商车载平台下语音控制车载系统进行了广泛的调研与分析,总结了目前车载语音识别开发存在的难点问题,包括算法复杂、硬件要求高、控制功能单一化等问题。为了解决以上问题,提出了在ARM+Android架构下的基于LD3320语音芯片的离线语音识别以及基于百度语音云服务的在线语音识别的设计方案,并详细论述了其在车载平台以及控制无人机方面具体控制应用实现。在车载整体架构及功能实现上,采用ARM+Android架构,结合外围模块和接口电路,设计并实现了在线离线多模态语音识别功能的智能车载信息系统。其中基于LD3320专业语音芯片离线语音识别专用于控制蓝牙电话,基于移动互联网百度语音云服务在线语音识别用于控制歌曲播放和导航软件。该系统支持导航软件应用的自助升级和维护,打破了传统车载系统升级的垄断。其次,在语音控制无人机方面,采用Android系统平板下设计并实现一个无人机语音控制软件。语音识别方面同样采用基于移动互联网百度语音云服务的在线语音识别,将采集到的操作员语音命令通过Socket通信发送到无人机地面站,实现数据包的打包--发送--解包。数据包解码之后,通过已经搭建好的语音指令库进行信息对比分析,取得具体控制信息,最后通过地面站发送无人机飞行命令,使无人机执行动作。实验结果表明,该多模态语音识别与控制车载系统成本低、效率高,功能强大、界面友好操作简便,真正意义上释放了操作员的双手,提高了驾驶操作的安全性。

唐辉[4]2017年在《基于Web的机器人交互与推送系统实现》文中研究表明近年来移动互联网技术发展迅猛,越来越多的家用电器和智能设备可以通过Web进行远程控制。基于Web的远程控制扩大了操作距离,降低了操作门槛,越来越受到人们的欢迎。Web技术在机器人领域中的使用,使得基于Web的机器人交互与推送系统这一概念应运而生。基于Web的机器人交互与推送系统,一方面是让用户可以通过手机等智能终端远程控制机器人,另一方面是机器人也可以把获取或分析的数据主动推送到用户的智能终端上,从而实现双向交互。作为机器人控制理论、远程通信、网络传输、视觉设计等的交叉学科,基于Web的机器人交互与推送系统拥有非常广阔的应用前景和市场价值。本文主要研究了基于Web的机器人交互与推送系统实现的相关问题。和常见的双层架构不同,本系统采用了浏览器端、服务器端、机器人控制端的叁层架构。浏览器端负责显示控制界面,获取用户操作数据和语音数据并发送给服务器端;服务器端负责请求的处理,数据的存储和中转;机器人控制端负责命令的执行(包括动作执行和传感器数据获取等)并将执行结果返回给服务器端。系统采用的叁层架构把硬件控制和用户请求处理分开,扩大了系统的兼容性,增强了扩展性,同时便于系统移植。基于本系统的叁层架构,本文设计了一种具有较好扩展性的机器人通用控制方案。与以往机器人交互系统采用的端口监听方案不同,本方案采用了服务器端统一触发的方式。利用此方案实现了机器人行走控制、视频监控、温度获取等功能,验证了方案的可行性。机器人在运行过程中会获取各种数据,为了把这些数据实时传输到浏览器端,本文引入了一种跨终端的Web数据推送技术。除此之外,研究中针对数据推送部分进行了优化,不仅减少了资源占用,可以在同一时间处理更多任务,而且提升了处理速度,保证了用户体验。本系统通过接入讯飞开放平台和face++,实现了语音交互和身份认证功能。这两个功能的加入,降低了机器人的操作门槛,提升了整个系统的安全性。

邢双秋[5]2004年在《虚拟家居设计系统中笔式交互的应用与实现》文中认为本文以虚拟家居设计系统为应用目标,以笔式交互在虚拟家居设计系统中的应用为主要研究内容,将基于笔交互的自由勾画技术和概念设计过程中的草图设计技术相结合,并利用已有的手势识别技术,系统研究了虚拟家居系统中笔式交互的交互任务、交互过程模型和交互技术,具体包括:建立了手势知识库;研究了虚拟家居系统中从草图绘制到叁维漫游过程中的约束求解技术等。本文为笔式交互在家居设计系统中应用提供了参考原型,基于笔交互的虚拟家居设计展示系统已经投入使用,并取得较好的效果。 主要工作和内容总结如下: 1.分析了虚拟家居系统应用过程中交互的重要性,总结了虚拟家居系统中的交互任务,研究了系统信息构造过程中用户的思维模型和对象模型,分析了基于语音和笔的多通道交互草图CAD系统界面模型的优点和不足,针对叁维形状信息提出了叁维交互雕刻范式,并研究了雕刻范式和笔纸范式的关系,针对笔纸范式提出了基于眼睛和笔的多通道草图CAD系统界面模型和实现体系。 2.分析了虚拟家居系统中应用笔式交互的优势,提出了系统中的交互任务,研究了虚拟环境中相关的交互技术:包括手势识别技术、约束求解技术和实时反馈技术,并给出了手势识别和约束求解的算法;分析了系统中的叁维实时反馈技术,研究了系统叁维反馈和渲染和实现过程,研究了实时交互的实现策略及相关技术。 3.作为以上研究的验证。本文开发了一个家居设计展示系统Decorator1.0。该系统目前已经投入市场。

宋保华[6]2003年在《面向产品概念设计的智能草图研究》文中研究说明计算机支持的草图设计技术在手绘创意草图和计算机辅助详细设计之间架起一道桥梁,是对传统CAD技术的完善和重要发展,也是计算机辅助工业设计(CAID)的关键技术,它真正实现了计算机技术对设计全过程的支持。本文主要面向产品概念设计阶段,就计算机支持的智能草图理论与方法展开深入系统研究。它主要包括草图理论基础与技术方法体系的构建,以及笔式草图表达与交互界面,草图智能识别,基于草图的产品几何建模等几个方面,最终实现一个具有广泛应用前景的草图工具原型软件系统ISID。本文主要研究内容和成果概述如下: (1)草图研究与智能草图技术方法体系 研究总结出草图绘制习惯、行为特征,以及草图绘制活动与设计活动、思维活动之间的内在关系,确定了计算机环境下的草图绘制模式,为计算机支持的智能草图设计提供了必要的理论基础。给出了实现计算机环境下的智能草图的基本原理,它包括五个方面的关键技术,共同构建出一个完整的智能草图技术体系框架。 (2)笔式草图交互界面 包括笔式草图绘制技术和单笔划手势界面技术。笔式草图绘制技术,采取笔划(Stroke)的输入模式,通过一个笔划类实现,一支输入笔即可完成各种草图绘制任务。将基于笔划的手势交互技术引入到草图技术,由简单的手势笔划替代产品草图绘制过程中各种烦琐复杂的交互操作命令。手势交互界面主要包括笔划识别技术,手势笔划集设计和手势交互界面实现技术。采用网格编码的手势识别方法,对匹配算法做了改进,使得手势笔划识别起来简单易行,并初步设计一套手势集。 (3)笔式草图的智能识别 作为草图技术的核心,采取了分步逐层的草图识别方法,包括从笔划的在线识别,到几何层次上的草图规整,到语义层次上的草图理解,逐步解决草图的模糊性和不确定性。 笔划的在线识别主要是将原始笔划转换为规则的基本几何线元,即直线条,圆弧,和样条曲线。对不同类型的线条应用不同的识别方法,特别是将改进的Freeman链码应用到复合线条的分割。草图规整通过一个带有黑板结构的知识库系统来实现,它主要包括线元空间关系分析和约束施加两部分。通过分析总结草图线元关系即草图文法,构建了草图文法知识规则库,在此基础上通过获取草图上下文内容来推理捕捉设计师的意图,确定线条之间可能的几何关系,施加相应约束,使凌乱的线元得到规整。面向具体领域的草图理解仍然通过一个知识库系统来实现。构建了产品领域知识库,包括产品元素模式规则库、产品元素几何特征库和产品模板映射器,定义了产品元素模式类和几何特征类,通过一会模式匹配机制和约束施加机制,实现对草图元素设计层的解释和规整。(4)基于草图的几何建模 基于草图的几何建模技术包括二维草图和叁维模型的集成,基于笔输入方式的叁维建模;以及基于模板的集成建模等技术,它们被应用在具体的造型技术中,如用户向定义的雕刻造型技术,切分技术和锥面造型技术。另外还提出基于草图理解的几何建模方式,针对具体产品领域,与前面草图理解结合,提出具有叁层结构组成的领域知识模板,并通过一套参数化驱动机制和特征关联机制,推理先成二维草图到叁维模型的快速构建。 (5)草图l二具原型系统ISID 基于面向对象的思想方法开发实现的原型草图工具软件系统ISID,是有关智能草图技术的应用和验证。给出了草图工具的体系结构和基本数据模型,并介绍了它具山的一些基本功能,以及强大的建模功能,它可以迅速完成从草图绘制到实体概念模型构建,并能和一般CAD系统实现数据交换。最后给出了应用I引])完成的一些二维草图和概念产品模型实例,并与一些商品化软件做了对比分析,探讨了该草图工具及其用到的智能草图技术将来的丁程应用前景。 创新点主要包括: 1.构建了一个计算机环境下的智能草图理论方法与技术体系; 2。将笔界面特别是单笔划手势界面应用到草图设计工具中,改进了匹配 识别算法;并初步设计一套面向草图设计工具的手势集; 3.实现一个分步逐层的草图智能识别技术方案和相应算法,包括笔划在 线识别技术,基于上下文的草图规整技术(几何层)和基于领域知识 的草图理解技术(语义层),有效解决了草图的模糊性和不确定性; (.基十草图的快速儿们建模技术,以及基于草图理解的产品建模技术 坐 YJ D

杨蒙[7]2008年在《HTA应用研究及其多通道工具的设计实现》文中研究指明HTA(Hierarchical Task Analysis),即层次任务分析。它是HCI领域的核心技术,被誉为“几乎可以用于任何环境”及“最着名”的任务分析技术,是一种描述目标及其子目标层次体系的方法,通常用于分析人类要完成的目标或者机器系统要完成的任务,已经被广泛研究和应用了近40年。本文围绕HTA的应用以及HTA的计算机辅助工具展开了一系列工作,主要有:首先,本文对HTA方法及其应用研究现状进行了梳理、总结及简要介绍。在此基础上,分析了HTA计算机辅助工具的用户群以及HTA多通道工具的必要性。其次,本文就HTA方法在UI可用性评估领域中的应用进行了深入研究。结合HTA在该领域的应用研究现状,针对低保真原型以及一些因实验条件有限无法进行正式的用户测试或满意度评估的系统,本文给出了一种基于HTA的UI可用性评估方法:HUGE,并以包裹单填写系统为例实践验证了HUGE,实践在一定程度上表明了HUGE的可行性及有效性。在HUGE实践过程中,本文根据评估结果对包裹单填写系统原UI进行了升级,新UI经评估具有较好的可用性。由于HUGE利用HTA层次图输出对UI可用性评估中的用户满意度及有效性进行了量化,故该实践也间接说明了HTA对于用户满意度及有效性的可用性评估在一定程度上是有效的。最后,根据对HTA方法的研究,结合HTA计算机辅助工具的相关分析,本文设计了纸笔隐喻界面与桌面隐喻界面相结合的HTA多通道工具UI,并据此实现了一个支持HTA方法的多通道工具原型。它既通过笔和语音输入、人类熟悉的命令手势完成HTA层次图以拓宽人机(HTA分析人员与计算机)交互带宽,又通过网络远程沟通以增强人与人(HTA分析人员与被分析对象)之间的信息交流带宽。原型系统支撑HTA方法,而HUGE是以HTA为理论基础的应用研究,故原型系统也支持HUGE中HTA层次图的制作。

童红[8]2009年在《孤立词语音识别系统的技术研究》文中研究指明语音识别是近年来十分活跃的一个研究领域,随着技术的深入研究,目前已经得到了广泛的使用,在这些实际应用中,孤立词占据着及其重要的位置。孤立词语音识别系统主要应用于自动控制,如驾驶、机器人操纵、仪器设备操纵以及收集拨号、智能玩具、家用电器操纵,尤其当人手已被占用或无法使用的情况下必须进行声音控制时,更可以起到不可替代的作用。本文在基于MATLAB GUI的基础上以DTW算法为主要原理对孤立词语音命令识别系统进行了研究和实现。按照孤立词语音识别系统的处理过程,文章从语音信号的前端处理开始,分别详细的介绍了每个步骤,包括数字采样频率的选择、预加重、分帧加窗直到后来的特征参数的特点和选取、以及识别算法的选择。最终实现了一个小词汇量的孤立词识别系统,并在MATLAB上面以用户图形界面(GUI)的方式展现了主要相关的过程和结果,这个是系统是基于实时录入语音,并有着良好性能的界面。端点检测是是继语音信号的预处理之后的首个对识别产生重要影响的阶段,有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的性能。本文在应用中对传统的双门限检测算法的基础上进行改进,作了延长可容忍静音的改进,有效的检测了多于一个字的孤立词语音信号的语音区间,为后续的识别打下了良好的基础。目前表征语音信号的特征参数主要有LPCC(线性预测倒谱系数)和MFCC(Mel频标倒谱参数)两种,由于MFCC充分模拟了人的听觉特性,具有较高的识别性能和抗噪能力,因为选择它作为识别参数。实际应用中采用了MFCC以及它的一阶差分系数。在语音识别算法中,DTW(动态时间弯曲)和HMM(隐马尔可夫模型)是主流技术,由于本文是小词汇量孤立词识别系统,所以采用DTW就能取得较好的效果。同时,针对DTW,本文从提高算法识别率和提高算法执行效率两个角度对DTW进行了改进,提出了松弛起点终点和改进局部判决函数的算法,节省了执行的时间和计算量,提高了效率。最后,在MATLAB的环境下,借助GUIDE这个良好的开发工具,以GUI的形式展现了整个识别系统中的相关过程,包括对实时语音的录入和回放、语音的实时端点检测及回放以及最后的基于DTW的识别结果的输出。整个系统中的相关过程以图形界面的方式清晰的展现在我们目前,达到视听的双重效果!

俸文[9]2003年在《多通道人机交互技术的研究》文中研究指明本文对多通道人机交互技术中的几个重要问题进行了研究,其中包括多通道人机系统的模型描述、整合算法、系统构架等。同时也对系统实现中所产生的一些特定于多通道系统的问题进行了研究和解决。通过一个原型系统——多通道军事态势标绘系统的实现深入研究了这项技术及其实现方法,提出了一个面向任务的多通道界面模型描述方法,实现了一个多通道整合算法,并针对该算法的不足进行了改进;同时,本文也提出了一个可移植通用整合功能模板的思想。通过对多通道系统语义的通用描述模型的研究,面向开发人员提供可重用多通道整合模板的支持,这本身就是应用软件系统所追求的目标之一,在多通道技术中实现这个思想有着更大的意义,本文给出了一个具体的实现方法。最后,本文对多通道人机技术的研究方向和前景进行了展望。

万科[10]2013年在《手势识别系统研究及应用》文中研究表明随着人机交互技术在国内外的发展,计算机虚拟现实技术通过模拟人的肢体语言等自然交流方式,将人的肢体语言等信号化,从而作为人机交互的驱动指令。操作方便灵敏、以交互者为中心的人机交互模式是未来人机交互技术的发展方向和需求,而基于视觉的手势识别是实现下一代人机交互技术中一项关键技术,由于手势几何形状的不确定性以及在时空上的差异性等特点,使此研究方向成为一个具有挑战性和技术性的多学科交叉研究课题。本文在针对原上海世博会“360度虚拟互动体验区”项目的动作感应模块存在的反应延迟以及精确度低等问题下,深入研究和分析国内外手势识别相关研究,在使用单目摄像头的情况下,完善和扩展动作感应阶段的功能及应用。本文通过研究复杂背景下的手势分割、手势跟踪、边缘增强、特征提取以及利用Surf特征算子和形状特征对静态手势进行识别,在此基础之上建立自然手势识别系统,在识别指尖和静态手势的基础上来进行驱动应用。本系统设计了多个人机交互应用,包括手势模拟鼠标、指尖数检测和手势浏览图片,视频播放,指尖绘图等,实现了手势与计算机实时动态交互。通过采集静态图片和视频文件作为样本来测试系统稳定性,经过数据分析得到手势识别具有好的识别率,达到预期的实验效果。本课题的主要研究内容如下:(1)本文在采用人脸检测基础之上,通过分类器检测脸部区域,提取脸部肤色在YCbCr颜色空间的颜色分量的分布情况,并作为人体肤色的动态分割阈值,并结合运动检测来去除环境中的类肤色块的干扰。(2)在基于运动检测和肤色信息基础上提取手部图像后,采用Kalman滤波和Camshift算法来预测和跟踪手势位置,通过提取手势轮廓的凸包、角点、外接圆直径、周长等参数,结合Surf特征算子来进行静态手势识别。(3)本文提出结合角点检测、凸包及凸缺陷来进行指尖检测,其基本思想是:首先提取二值化手部图像的角点,利用轮廓提取凸包及凸缺陷并结合手部几何特征提取最优化的角点,从而将指尖提取出来。本文研究的特色主要体现在以下两个方面:(1)结合运动分析和肤色模型进行肤色分割,该方法在YCbCr颜色模型下根据脸部肤色采集分析设定动态分割阈值范围,根据手部运动分析确定手部位置,并利用形态学处理去除孤立噪点,从而分割出人手。(2)结合角点检测、轮廓凸包、重心和手部的几何特征,从而提取出手指,通过拟合手部的多边形特征和Surf特征算子进行手势识别。

参考文献:

[1]. 基于语音识别技术的交互绘图系统的设计与实现[D]. 陈志刚. 大连理工大学. 2003

[2]. 基于多通道交互技术的几何学习系统研究与实现[D]. 王爽. 西北大学. 2008

[3]. 基于Android的语音识别设计及应用[D]. 苟鹏程. 天津大学. 2016

[4]. 基于Web的机器人交互与推送系统实现[D]. 唐辉. 西安电子科技大学. 2017

[5]. 虚拟家居设计系统中笔式交互的应用与实现[D]. 邢双秋. 湖南大学. 2004

[6]. 面向产品概念设计的智能草图研究[D]. 宋保华. 西北工业大学. 2003

[7]. HTA应用研究及其多通道工具的设计实现[D]. 杨蒙. 西北大学. 2008

[8]. 孤立词语音识别系统的技术研究[D]. 童红. 江苏大学. 2009

[9]. 多通道人机交互技术的研究[D]. 俸文. 南京理工大学. 2003

[10]. 手势识别系统研究及应用[D]. 万科. 广东工业大学. 2013

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于语音识别技术的交互绘图系统的设计与实现
下载Doc文档

猜你喜欢