一、语音识别开发工具包SRDK的研究与开发(论文文献综述)
程高峰,颜永红[1](2022)在《多语言语音识别声学模型建模方法最新进展》文中进行了进一步梳理随着多媒体信息和通信技术的快速发展,网络上的多语言语音数据日益增多。语音识别作为语音分析与处理的核心技术,如何快速地把中文和英文等少数多资源主要语言处理能力推广到更多的低资源语言,是当前识别技术迫切需要突破的瓶颈。文中试图总结声学模型建模领域的最新进展,探讨传统语音识别技术从单语言向多语言跨越过程中可能面临的困难。并在此基础之上,探索了最新的端到端语音识别技术在关键词检索系统构建上的作用,以进一步改善系统的整体效果。最后总结了如下最新研究进展:1)基于模型参数共享的多语言声学建模;2)基于语种分类信息的多语言声学建模;3)基于帧级别对齐的端到端关键词检索技术。
余本国,郇晋侠,刘晓峰,高伟涛[2](2021)在《语音识别系统在山西方言中的实现与应用》文中研究说明目前山西的语音识别系统多数为普通话识别,对于该地区方言识别的准确率并不理想。针对这一问题,采集山西地方方言语音和语料建立语音库,根据山西各地方言发音的特点,构建山西地方方言的语音识别系统,以山西声韵母为基元,提取Mel倒谱系数(MFCC)的特征参数,选择隐马尔可夫模型(Hidden Markov Model,HMM),实现山西当地方言的语音识别系统。实验结果显示,针对差别小的小区域方言识别,HMM的识别率有很好的稳定性。
张四维,武永泉,秦涛,彭冲,赵彦杰,焦良葆[3](2021)在《面向电力线路巡检的语音指令识别系统研究和应用》文中提出为解决电力线路巡检时传统人工查询的低效和费时等问题,以及通用语音识别工具针对电力专业指令识别率低的问题,文章提出了面向电力线路巡检的语音指令识别系统。首先针对电力专业词汇,建立相应的基础语料库;在语音信号识别引擎建模中,基于电力专业指令的短时依赖性选择时延神经网络-隐马尔可夫模型(TDNN-HMM)构建特征提取网络和初级网络(STT);最后根据电力指令的专用语法结构和词汇库,提出了N元模型(N-gram)的指令纠错矫正方法,最终实现了低错误率的指令识别。实验结果表明,基于专用电力指令基础语料库的训练,TDNN-HMM识别网络,以及基于N-gram模型的指令纠错矫正方法均提升了识别准确度,所设计的专用识别引擎满足了工程实际需求。
胡文轩,王秋林,李松,洪青阳,李琳[4](2021)在《基于端到端的多语种语音识别研究》文中进行了进一步梳理端到端语音识别模型无需发音词典进行训练,可以大幅降低开发新语种语音识别系统的负担。本文利用端到端模型的这一优势,建立了一种语种无关的端到端多语种语音识别系统。该模型使用基于字符的建模方法进行训练,同时构建多语种输出符号集,使其包括所有目标语言中出现的字符。模型训练生成单一模型,其网络参数为所有语种共享。在OLR竞赛提供的10个语种数据集上,相较于单语种语音识别系统,本文提出的多语种语音识别系统在所有语言上的表现都更加优秀。
苏比·艾依提,努尔麦麦提·尤鲁瓦斯,黄浩,吾守尔·斯拉木[5](2021)在《基于多任务学习的端到端维吾尔语语音识别》文中进行了进一步梳理维吾尔语是黏着语,词汇量较多,容易出现未登录词问题并且属于低资源语言,导致维吾尔语的端到端语音识别模型性能较低。针对上述问题,该文提出了基于多任务学习的端到端维吾尔语语音识别模型,在编码器层使用Conformer并与链接时序分类(CTC)相连接,通过BPE-dropout方法形成鲁棒性更强的子词,以子词和字作为建模单元,同时进行多任务训练和解码。实验结果分析发现,子词作为建模单元能有效解决未登录词问题,多任务学习模型能在低资源环境下较充分利用数据,学习到丰富的时序语音特征信息,进一步提升模型的识别性能。在公开的维吾尔语语音数据集THUYG-20上与基线相比把子词错误率和字错误率分别降低7.3%和3.8%。
张琼瑶,王晟,陈礼团[6](2021)在《智能语音技术在门诊电子病历中的应用实践》文中指出目的:在门诊电子病历系统中展开智能语音技术的深度应用。方法:在我院搭建智能语音云平台,构建大规模医学知识图谱与语音服务引擎。采集大量脱敏医疗数据和医生的音频数据,通过深度学习技术,全面优化语言与声学模型。结果:门诊所有科室开展语音应用,语音识别准确率达98%,医生工作效率与临床智能化水平大幅提升。结论:智能语音技术在医疗领域有较好的应用前景,能够提供操作简便、实用高效的应用服务,辅助临床医疗工作,明显提高诊疗效率。未来可进一步与业务系统深度对接,开展专科语音助手的拓展应用。
司超增,张铁山[7](2021)在《语音识别技术在医院病理业务智能化管理中的应用》文中研究表明介绍了语音识别的发展历史和技术原理,并对语音识别的应用架构进行了分析。结合国务院和国家卫生健康委对医院信息化建设的指导意见,将语音识别技术应用到临床业务场景中。在病理报告录入流程中,将语音录入技术与病理信息系统紧密结合,通过语音识别技术优化信息处理流程,进一步提升病理业务智能化管理效率,最终达到了减负增效的目的。
郑海斌,陈晋音,章燕,张旭鸿,葛春鹏,刘哲,欧阳亦可,纪守领[8](2021)在《面向自然语言处理的对抗攻防与鲁棒性分析综述》文中研究表明随着人工智能技术的飞速发展,深度神经网络在计算机视觉、信号分析和自然语言处理等领域中都得到了广泛应用.自然语言处理通过语法分析、语义分析、篇章理解等功能帮助机器处理、理解及运用人类语言.但是,已有研究表明深度神经网络容易受到对抗文本的攻击,通过产生不可察觉的扰动添加到正常文本中,就能使自然语言处理模型预测错误.为了提高模型的鲁棒安全性,近年来也出现了防御相关的研究工作.针对已有的研究,全面地介绍自然语言处理攻防领域的相关工作,具体而言,首先介绍了自然语言处理的主要任务与相关方法;其次,根据攻击和防御机制对自然语言处理的攻击方法和防御方法进行分类介绍;然后,进一步分析自然语言处理模型的可验证鲁棒性和评估基准数据集,并提供自然语言处理应用平台和工具包的详细介绍;最后总结面向自然语言处理的攻防安全领域在未来的研究发展方向.
魏巍,冯蓬勃,陈峥廷,迟昭娟[9](2021)在《增强现实辅助装配技术综述》文中研究指明目的增强现实技术是一种将虚拟信息与真实环境相融合的技术,增强装配是指将增强现实技术应用到装配领域,旨在提高装配效率与质量、降低装配培训成本。方法对增强现实辅助装配技术进行了介绍,并对增强现实三大关键技术(跟踪配准技术、实时交互技术、虚实融合技术)及其在辅助装配系统中的实现方法进行了详细阐述,然后分类介绍了增强现实辅助装配实例,最后提出了在实际应用中面临的问题。结论增强现实技术在辅助装配时充分发挥作用的前提是必须要有完善的装配信息模型;目前受硬件的限制,头戴式显示器只能在便携性与图形性能之间取一个平衡;增强装配引导系统的最终使用对象是工人,因此构建一个用户友好型增强装配系统十分重要。
李艳,孙丹,杜娟,魏雄鹰[10](2021)在《大概念视角下初中“人工智能基础”单元设计及应用策略探索》文中指出国内青少年人工智能教育的实践和研究尚处于起步和摸索阶段。研究表明,单元设计以学科大概念为核心有利于促进学科核心素养的落实,基于此,本研究尝试开展大概念视角下的"初中人工智能基础"单元设计及应用策略探索。首先,剖析了当前国内青少年人工智能教育实践的现状及存在的问题;其次,介绍了大概念和单元设计的概念及内涵,以2020年浙教版初中信息技术教材中"人工智能基础"单元为例,开展了大概念视角下的单元设计;最后,研究提出了初中"人工智能基础"单元设计在教学实施中的应用策略。
二、语音识别开发工具包SRDK的研究与开发(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、语音识别开发工具包SRDK的研究与开发(论文提纲范文)
(1)多语言语音识别声学模型建模方法最新进展(论文提纲范文)
1 引言 |
2 基于模型参数共享的多语言声学建模 |
3 基于语种分类信息的多语言声学建模 |
(1)在输入层或者隐含层中拼接语种向量。 |
(2)在输出层预测语种。 |
4 基于帧级别对齐的端到端关键词检索 |
结束语 |
(2)语音识别系统在山西方言中的实现与应用(论文提纲范文)
1 引言 |
2 山西方言概括 |
2.1 山西方言的作用 |
2.2 山西方言的特色 |
2.3 当前研究方言现状与应用 |
2.3.1 研究现状 |
2.3.2 应用 |
3 山西方言语音识别概括 |
3.1 语音识别原理 |
3.2 预处理 |
3.3 特征参数 |
3.4 声学模型 |
3.5 语言模型 |
4 HTK工具基本介绍 |
5 方言语音识别的设计与实现 |
5.1 语音库建立 |
5.1.1 科学的划分区域 |
5.1.2 音语料的设计 |
5.1.3 注 |
5.2 特征参数提取 |
5.3 模型训练 |
5.4 模式识别与分析 |
5.6 实验结果分析 |
6 结语 |
(3)面向电力线路巡检的语音指令识别系统研究和应用(论文提纲范文)
0 引 言 |
1 语音识别原理 |
(1) 特征的提取: |
(2) 声学模型的训练: |
(3) 语言模型的训练: |
(4) 字典与解码: |
2 电力指令专用语料库建立及其分析 |
2.1 语料数据库建立 |
(1) 语音工具ASR的设计: |
(2) 文本语料库的准备: |
(3) 文本数据库的建立: |
2.2 电力指令语音数据分析 |
3 电力智能语音识别系统的构建 |
3.1 电力语音识别引擎 |
(1) TDNN的网络结构: |
(2) TDNN子采样: |
3.2 基于N-gram的电力语音识别后文本矫正 |
(1) 基于N-gram的模型: |
(2) TF/IDF权重 |
4 实验结果及分析 |
4.1 评估指标 |
(1) 词错误率(Word Error Rate, WER): |
(2) 句错误率(Sentence Error Rate, SER): |
(3) 时间复杂度: |
4.2 实验平台的搭建 |
4.3 识别模型性能对比 |
5 结束语 |
(4)基于端到端的多语种语音识别研究(论文提纲范文)
1 引言 |
2 端到端多语种语音识别模型 |
2.1 连接时序分类(CTC) |
2.2 注意力(Attention)机制 |
2.3 混合CTC/Attention模型 |
2.3.1 多任务学习 |
2.3.2 联合解码 |
3 语种无关架构 |
3.1 扩增字符集 |
3.2 结合语种标签进行联合训练 |
4 多语种语音识别实验 |
4.1 实验设置 |
4.2 评价指标 |
4.3 对比实验 |
5 实验结果与分析 |
6 结论 |
(5)基于多任务学习的端到端维吾尔语语音识别(论文提纲范文)
1 引言 |
2 模型结构及方法介绍 |
2.1 Conformer模型 |
2.2 链接时序分类(CTC) |
2.3 建模单元 |
2.4 多任务学习模型 |
3 实验配置 |
3.1 数据集 |
3.2 模型配置参数 |
3.3 对比实验 |
3.4 评价指标 |
4 实验结果及分析 |
5 结论 |
(6)智能语音技术在门诊电子病历中的应用实践(论文提纲范文)
1 私有化智能语音服务云平台搭建 |
1.1 平台逻辑架构设计 |
1.2 平台与系统搭建 |
1.3 终端应用部署 |
1.4 语音设备选型 |
2 临床应用中的难点 |
2.1 专业性强 |
2.2 中英文混合识别 |
2.3 口音及方言 |
2.4 环境噪声 |
2.5 需求差异化 |
3 门诊智能语音服务应用与实践 |
3.1 医学知识图谱构建 |
3.2 语言模型优化 |
3.3 声学模型优化 |
3.4 中英文混合识别优化 |
3.5 采音效果优化 |
3.5.1 麦克风选型 |
3.5.2 麦克风优化 |
3.6 前端的智能化应用 |
3.6.1 智能语音模板 |
3.6.2 智能纠错 |
3.6.3 智能后处理 |
4 临床应用效果 |
4.1 整体应用效果 |
4.2 应用中存在的不足 |
4.2.1 不同场景对麦克风设备的特殊需求 |
4.2.2 可能导致患者隐私泄露 |
4.2.3 部分医生对新的工作模式需要适应过程 |
5 讨论 |
(7)语音识别技术在医院病理业务智能化管理中的应用(论文提纲范文)
1 引言 |
1.1 研究背景 |
1.2 研究现状 |
2 语音识别技术 |
2.1 技术原理 |
2.2 技术应用架构 |
3 病理业务流程 |
4 语音识别技术在病理业务中的应用 |
4.1 引入语音识别系统后的病理报告录入流程 |
4.2 病理报告智能语音系统设计 |
5 应用效果评估 |
5.1 语音识别系统使用量分析 |
5.2 语音录入系统贡献占比分析 |
5.3 语音录入系统准确率提升分析 |
6 结语 |
(8)面向自然语言处理的对抗攻防与鲁棒性分析综述(论文提纲范文)
1 面向NLP的模型 |
1.1 Word2vec模型 |
1.2 Seq2Seq模型 |
1.3 Attention模型 |
1.4 ELMo模型 |
1.5 Transformer模型及其变体 |
1.5.1 Vanilla Transformer模型 |
1.5.2 Universal Transformer模型 |
1.5.3 GPT模型 |
1.5.4 BERT模型 |
1.5.5 Transformer-XL模型 |
1.6 XLNet模型 |
2 面向NLP的攻击方法 |
2.1 字符级攻击 |
2.2 单词级攻击 |
2.2.1 单词级白盒攻击 |
2.2.2 单词级黑盒攻击 |
2.2.3 其他攻击 |
2.3 句子级攻击 |
3 面向NLP的防御方法 |
3.1 基于对抗训练的防御 |
3.2 文本的隐私保护防御 |
3.3 基于对抗检测的防御 |
4 可验证鲁棒性分析与评估基准 |
4.1 NLP的可验证鲁棒性方法 |
4.1.1 基于随机平滑的可验证鲁棒 |
4.1.2 鲁棒边界验证方法 |
4.1.3 基于IBP的鲁棒验证 |
4.1.4 面向RNN的鲁棒量化方法 |
4.2 NLP的鲁棒评估基准数据集 |
5 应用平台和工具包 |
5.1 应用平台 |
5.2 工具包 |
6 未来研究方向 |
6.1 面向NLP攻击方法的展望 |
6.2 面向NLP防御及鲁棒增强的展望 |
(9)增强现实辅助装配技术综述(论文提纲范文)
1 增强现实辅助装配 |
2 跟踪配准技术 |
2.1 基于自然特征的跟踪配准 |
2.2 其他跟踪配准方法 |
3 实时交互技术 |
4 虚实融合技术 |
4.1 装配信息建模 |
4.2 虚拟信息自动推送 |
5 增强现实辅助装配实例 |
6 结语 |
(10)大概念视角下初中“人工智能基础”单元设计及应用策略探索(论文提纲范文)
一、引言 |
二、我国青少年人工智能教育实践现状 |
三、大概念和单元设计的概念与内涵 |
(一)大概念的内涵与研究现状 |
(二)大概念视角下的单元设计 |
四、大概念视角下的初中“人工智能基础”单元设计 |
(一)初中“人工智能基础”单元的教材内容分析 |
(二)初中“人工智能基础”单元大概念的选择依据 |
(三)大概念视角下的初中“人工智能基础”单元设计三阶段 |
1. 明确预期的学习目标 |
2. 确定恰当的评估办法 |
3. 规划相关教学过程 |
五、初中“人工智能基础”单元设计的应用策略 |
四、语音识别开发工具包SRDK的研究与开发(论文参考文献)
- [1]多语言语音识别声学模型建模方法最新进展[J]. 程高峰,颜永红. 计算机科学, 2022(01)
- [2]语音识别系统在山西方言中的实现与应用[J]. 余本国,郇晋侠,刘晓峰,高伟涛. 计算机与数字工程, 2021(10)
- [3]面向电力线路巡检的语音指令识别系统研究和应用[J]. 张四维,武永泉,秦涛,彭冲,赵彦杰,焦良葆. 信息化研究, 2021(05)
- [4]基于端到端的多语种语音识别研究[J]. 胡文轩,王秋林,李松,洪青阳,李琳. 信号处理, 2021(10)
- [5]基于多任务学习的端到端维吾尔语语音识别[J]. 苏比·艾依提,努尔麦麦提·尤鲁瓦斯,黄浩,吾守尔·斯拉木. 信号处理, 2021(10)
- [6]智能语音技术在门诊电子病历中的应用实践[J]. 张琼瑶,王晟,陈礼团. 中国数字医学, 2021(08)
- [7]语音识别技术在医院病理业务智能化管理中的应用[J]. 司超增,张铁山. 中国数字医学, 2021(08)
- [8]面向自然语言处理的对抗攻防与鲁棒性分析综述[J]. 郑海斌,陈晋音,章燕,张旭鸿,葛春鹏,刘哲,欧阳亦可,纪守领. 计算机研究与发展, 2021(08)
- [9]增强现实辅助装配技术综述[J]. 魏巍,冯蓬勃,陈峥廷,迟昭娟. 包装工程, 2021(14)
- [10]大概念视角下初中“人工智能基础”单元设计及应用策略探索[J]. 李艳,孙丹,杜娟,魏雄鹰. 现代远距离教育, 2021(04)