一、N-gram语言模型中的插值平滑技术研究(论文文献综述)
吴湘平[1](2021)在《图像文本识别的关键技术研究》文中进行了进一步梳理图像文本识别主要利用机器学习算法对图像上出现的印刷体或者手写体进行识别,然后转录为计算机能读取识别的文字。图像文本识别在机器自动化、人机交互、自动驾驶等领域具有广泛的应用,一直是计算机视觉领域的研究热点。近年来,随着深度学习的发展,深度神经网络在场景文本识别和手写识别等方面取得了巨大的成功。然而,图像文本识别仍是一个棘手的问题,主要面临以下挑战:1)对于复杂场景的字符识别,现有方法容易丢失字符结构信息和引入背景噪声;2)对于词识别,现有模型大多依赖词典驱动,难以应用到资源匮乏的语言上;3)对于文本行识别,存在序列过长导致识别性能下降的问题;4)对于具有大字符集的语言,模型复杂、参数庞大,难以应用到存储和计算受限的设备中。本文针对以上问题,主要从图像文本识别的关键技术:识别技术和压缩技术开展研究,其中识别技术包括图像中不同粒度的文本即字、词、句子的识别,最后使用压缩技术对识别模型进行优化,主要研究内容包括以下几个方面:第一,针对复杂场景字符识别中,容易丢失字符结构信息和引入背景噪声等问题,提出了基于语义分割的复杂场景字符识别方法。为了减少字符类标数量,该方法首先设计了一种基于五笔汉字编码的新类标编码方法,将汉字的字形和结构信息编码为140位类标,从而大大减轻了对大字符集类别进行识别的计算和存储需求。其次,采用有效的语义分割模型进行逐像素预测,并利用条件随机场模块来学习类五笔编码的约束规则。最后,在三个公开评测数据集上的实验结果表明,该方法在复杂场景字符识别任务达到了最新水平,并且对于遮挡、超低分辨率、超低对比度等复杂的场景具有鲁棒性。第二,针对词识别模型依赖词典驱动和外部语言资源的问题,提出了基于位置向量的无约束手写单词识别方法。该方法首先生成位置向量,并将位置向量作为单词相对应的字符序列的索引;接着,将提取到图像特征与每个位置向量相结合,送入序列识别网络用于识别相应的字符。最后,在两个国际公共语料库上均取得了最佳结果。实验结果表明,在没有任何语言资源的情况下,该方法的性能与集成丰富语言资源的模型相近,证明了该方法对其他资源匮乏语言识别的有效性和潜在能力。第三,针对文本行识别模型存在序列过长导致识别性能下降的问题,提出了基于自适应超图神经网络的手写文本行识别方法。该方法通过一种基于标签向量的自动超图学习机制来自动建模字符间的关系。首先,将字符标签当做超图的节点,一条超边连接两个或多个节点,表示字符之间的某种关系,使用标签向量来构造自适应超图。其次,使用语义解耦模块和超图神经网络来探索特征与语义之间的相互作用,以提高文本行识别性能。最后,为了验证模型的泛化性,将自适应超图神经网络扩展到多标签图像分类任务上。结果证明,提出的自适应超图神经网络具有建模语义依赖关系的能力。第四,针对大字符集的识别模型参数庞大,难以应用到资源有限设备上的问题,提出了图像文本识别模型的全连接层压缩方法。该方法引入压缩因子来压缩全连接层的神经元,这不仅可以消除特征冗余,而且可以共享分类神经元。它打破了输出神经元数量必须与分类网络中类别数量相一致的局限性,在一定程度上缓解了大类别分类的问题。与其他需要预训练模型和微调的方法相比,该方法可以直接在基线模型上构造和压缩网络以实现端到端的训练。最后,在手写汉字识别,复杂场景字符识别和图像分类等多个任务的实验结果表明,所提出的方法可以大大减少模型参数,同时保持最新的识别性能,特别是对于大类别分类任务。综上所述,本文围绕图像文本识别的关键技术进行深入研究和讨论。针对图像中不同粒度的文本即字、词、句子存在的问题,分别提出基于语义分割的复杂场景字符识别方法,基于位置向量的无约束手写单词识别方法和基于自适应超图神经网络的文本行识别方法。最后针对共同存在的大字符集识别问题,提出基于全连接层的参数共享方法对图像文本识别模型进行参数压缩。本文将所提出的方法在多个国际公开数据集上进行实验,最终均取得优异的性能。
更太加[2](2020)在《融合形态结构与语法关系的藏语语言模型》文中进行了进一步梳理语言是现实生活中最主要的信息交流方式。语言模型是语言研究中的一项基础工作,能够提供有效的词表征以及词序列的概率化表示,可以应用于语音识别、机器翻译、手写体识别和句法分析等相关研究。目前,语言模型在英语、汉语和日语等语料相对充足语言领域已经取得了比较理想的效果。而针对藏语的相关研究仍处在初级阶段,由于藏语语料资源的匮乏和研究人员的稀少,严重制约了藏语语言模型的研究发展。在此背景下,本文从藏语自身的语言特点着手:一方面构建了藏语语料库,以验证本文研究结果的合理性;另一方面是从藏语形态结构出发,解决在有限的语料中获取更加有效的信息来补充资源缺乏的问题。藏语作为资源匮乏的语言之一,目前没有公开的、标准的音频和文本数据资源。根据藏语拉萨方言的特点和藏语文本的特殊性,本文考虑了音素平衡以及文本域问题,构建了藏语的音频和文本语料库。基于藏语句子中一些虚词接续错误和低频词问题,本文重点关注了藏语中后缀对虚词的影响,以及形态动词对低频词的影响。在上述基础上,首先,本文提出了藏语静态形态结构关系的语言模型。与其他语言不同,藏语中特有的静态形态结构关系(即后缀对虚词接续关系)会严重影响藏语句子的语义理解。具体地,除了字本身的信息之外,字的后缀信息能够使其更加准确接续正确的虚词。因此,本文将静态形态结构融入到字的信息中,以纠正句子中一些语法错误,从而使句子语义能够准确表达。其次,本文提出了藏语动态形态结构关系的语言模型。我们发现在语料中有一些动态形态结构关系(即藏语中的形态屈折变化词),这类词比较特殊且重要,对句子的语义会产生重要影响,尤其是在语音识别中的同音字,预测错误的可能性较大。由于词类中候选词越多,其对应的候选词权重越低,被选中的概率就越低。为此,我们对藏语中的形态动词进行加权,使其不但能够被分配到更高的词类中,而且能更加准确地表示句子语义。最后,本文提出了融合静态和动态形态结构的藏语语言模型。经统计发现,静态形态结构关系可以纠正句子中语法错误的问题,而动态形态结构可以使句子中形态动词的权重发生变化,这两种结构具有互补的关系,能够进一步增强对藏语句子语义的理解。我们有效融合了静态和动态形态结构,不仅考虑到后缀对虚词的影响,而且对形态动词进行了加权以增强句子的语义理解,比仅考虑单个特性的模型在性能上有所提升。综上所述,通过构建藏语语料库以及对其分析,我们发现语法和低频词问题。进而将后缀对虚词的语法问题以及形态动词对低频词的影响应用于藏语语言模型的研究中,可以有效提升藏语句子的识别和理解能力。除了语音识别,本文的工作还可被应用到手写体识别、机器翻译和句法分析等藏语自然语言处理的不同任务上,希望该工作能为藏语信息处理研究做出一点绵薄之力。
王琼[3](2020)在《基于铁路车务语境的语音识别后文本处理研究》文中研究指明语音识别技术为人们的生活提供了极大的便利,它在人机交互中扮演着不可替代的角色。由于各方面因素,如环境噪音、说话人口语化、语音识别引擎缺乏领域知识等,导致语音识别技术在特定领域难以应用。目前语音识别技术在铁路车务语境中尚未普遍应用,由于铁路车务术语表述要求标准化、专业化,部分字母数字发音具有特殊要求,导致铁路车务术语的语音识别正确率较低。因此本文主要针对上述问题,采用自然语言处理的方法对语音识别后文本进行处理,利用查错和纠错的方法优化识别结果,从而减少铁路车务语境下的语音识别后文本中的字词错误,实现语音识别技术在该领域的应用。主要有以下的研究内容及成果:(1)构建铁路车务语境下的n-gram模型和核心词语搭配术语库实现查错。首先训练语料构建bi-gram模型和tri-gram模型,并制定抽取规则获取语料中核心词语的搭配,构建核心词语搭配术语库;然后提出一种基于n-gram模型的加权分配法计算文本中词语的语境和谐度,实现文本的局部语境内初次查错,并结合核心词语搭配术语库计算词语的搭配聚合度,实现文本远距离语义层二次查错,最后采用双层递进式联合查错方法,准确定位语音识别错误点。(2)基于混淆集的纠错方法研究。采用一种拼音模糊匹配和精确匹配法结合散串重组策略,构建车务语境下的真词混淆集和拼音混淆集,用于文本中的真词纠错和散串纠错,并以语境和谐度和语义相似度的融合概率值作为混淆词支持度,选取支持度最大词为最优纠错建议输出。(3)基于关键字规则表的字母数字纠错方法研究。针对铁路车务用语中特殊发音字母和数字形成的散串错误,对具有特殊发音的字母数字构建关键字规则表,并基于关键字规则表利用规则匹配法实现字母数字纠错。(4)语音识别后文本查错和纠错方法的应用及结果分析。将本文提出的铁路车务语境下的语音识别后文本查错和纠错方法应用于铁路车务接发车培训系统,经实验验证,本文提出方法可有效提高铁路车务术语的语音识别正确率12.77%。该方法对语音识别技术在铁路车务领域的应用具有重要意义。
周锦程[4](2020)在《中文语法自动纠错系统的研究与实现》文中认为在全球化的背景下,汉语成为全球最受欢迎的语言之一,对于汉语学习者而言,学习者不具有丰富的系统化的语法知识,加之在母语的影响下,难以准确地识别和修正语法错误,故中文语法纠错系统就变得十分有必要。在出版业,电子文档数量显着增加,日益趋于丰富,人工纠错方式需要消耗较多的时间和精力,利用中文语法纠错系统,可以在很大程度上降低人力成本。本文针对中文语法纠错任务,提出了一种基于混合模型的语法纠错方案。错误分为低级别语法错误和高级别语法错误,针对低级别语法错误的纠正采用N-gram与CRF模型进行纠错,面对高级别的语法错误纠正,可以将纠错任务交给深度神经网络模型来解决,中文语法纠错系统的核心在于纠错功能的实现,这主要依赖于多种深度模型的运用,rnn_attention、rnn_crf、conv_seq2seq、seq2seq_attention、Transformer、BERT,各模型可独立运行。实验所用到的纠错数据集源自2018 NLPCC公开的训练语料,通过预处理得到平行语料,取三万条句子当作测试集,剩下的作为训练语料,划分方法采用随机划分的方式,将各个句子和与之对应的正确语句构成样本对,将该语料用于训练深度神经网络模型,此外,各模型均可独立的预处理数据、训练、预测,语法错误的纠正效果显着。完成了中文语法纠错系统核心模块的构建与优化,在交互功能的实现方面的基础上,实现了B/S模式的中文语法自动纠错系统,运用到了Flask框架,Flask是轻量级可指定框架。本课题所构建的中文语法自动纠错系统可以实现加载自定义混淆集,关闭字粒度纠错等功能,可以纠正中文文本中常见的语法错误。
张蕾[5](2020)在《中文文本的词语纠错方法研究》文中指出当今世界,中国经济蓬勃发展、国际竞争力不断提高,汉语的语言魅力吸引了越来越多的外国学习者进行学习,本文针对外国学习者学习汉语这一主题展开中文文本纠错的探究。中文文本的词语纠错方法研究是确保学习者在学习和交流时准确性的重要探究,是预估文本中错误存在与否并选取正确纠错字的关键技术手段,是中文自然语言处理研究领域中的重要课题。本文旨在辅助学习者纠正其在学习过程中产生的错误,同时也为减轻汉语教师的辅导压力。中文文本纠错研究从利于模型构建的角度出发,将纠错任务分成两大类:中文拼写纠错和中文语法纠错,分别构建模型进行纠错。在经由一系列详实的调查,概括了文本拼写问题的形成因素和类别,在N-gram语言模型基础上采用基于字的N元切分文本并统计其概率,引入混淆集和动态规划提高模型纠错效率,并使用平滑技术应对数据稀疏问题,提出了结合中文分词、二元模型和三元模型的算法,构建了基于N-gram的中文拼写纠错组合模型。针对中文语法纠错,本文将语法问题分为四大类:用词冗余、缺少词语、用词错误、词序错误。针对传统的基于统计的N元语言模型无法应对邻接词未登录以及长距离语法错误的问题,本文采用神经语言模型双向长短期记忆网络(BiLSTM)来建模,通过双向上下文信息来评测句子正误,此外,又引入了条件随机场(CRF)进行序列标注,并在嵌入层加入词性特征与词向量相结合作为BiLSTM输入,构建了基于BiLSTM-CRF的中文语法纠错模型,进一步优化了模型的纠错性能。利用开发评测数据集进行的实验结果表明,本文提出的基于N-gram的中文拼写纠错组合模型和基于BiLSTM-CRF的中文语法纠错模型在各自针对的错误领域内都取得了良好的效果。
郭杨[6](2020)在《基于神经网络的藏语语言模型研究》文中提出现阶段是信息化的时代,也是科技化的时代。随着云计算、大数据、人工智能等诸多领域的快速发展,神经网络语言模型也在跟随时代前进的脚步,在语音识别、光学识别技术、自然语言处理等方面也彰显着神经网络语言模型特有的性能和效果,从而在一定含义上超过了基于语法、语义的语言模型建模,也超过了基于统计的、传统的N元文法语言模型建模,成为现阶段最主要的前沿点。但在藏语方面,作为少数民族语言来说,研究条件的缺乏和训练数据的匮乏等诸多影响因素给研究造成了困难,使得传统的N元文法语言模型在藏语研究方面占据很重要的位置。本论文在已了解语言模型理论知识的前提下,结合对神经网络理论知识的认识,对藏语语种进行语言模型的构建,构建基于神经网络的藏语语言模型,通过对神经网络的细节研究实验,例如:改变模型参数等方法来实验,来了解和验证神经网络语言模型的效果性和性能性,选取传统的基于统计的N元文法语言模型作为比对,构造基于N元文法、神经网络下的藏语语言模型,目的是得到性能更好、效果更佳的藏语语言模型。同时,在研究的进行过程中,为了匹配提出的方法的有效性、严谨性,本论文不仅使用语言模型的直接评判标准困惑度作为指标来评价语言模型,还将语言模型应用于具体的应用上,通过实验藏文文本校对上的字级别字正确率来间接观察语言模型的好坏。实验中通过改变神经网络语言模型中隐藏层神经元个数和利用上下文字向量等特征来进行实验,解决了基于统计的语言模型不能获取长距离约束的问题。同时在文本校对实验中,也同样通过调整隐藏层神经元个数等特征来训练模型。最后,在实验结果中发现,与传统的N元文法语言模型相对比,使用神经网络语言模型,困惑度降低了许多,改变隐藏层的神经元个数,也不同程度地影响了语言模型的困惑度。在此基础上,通过嵌入字向量特征,发现语言模型困惑度降低了,语言模型性能相应地提高。在后续的自然语言处理任务中,神经网络语言模型在具体的文本校对上对字级别的字正确率也提高了。实验结果表明,实验优化后的藏语神经网络语言模型性能和效果要优于传统的基于统计的N元文法模型,同时也提高了在具体应用文本校对上的关于藏语语言模型的性能和效果。
潘嘉[7](2020)在《深度学习语音识别系统中的自适应方法研究》文中指出语音是最快速、便捷的人机交互方式,语音识别技术是人工智能的重要组成部分。随着深度学习技术的进步,语音识别在多数场景中取得了接近人类的识别准确率,但是在说话人带有方言和口音、复杂环境噪声和专业领域等特殊场景下,语音识别的准确率会显着下降,影响用户的使用体验。语音识别自适应技术是提升特殊场景下语音识别准确率的有效手段之一,因此一直是语音识别领域的研究热点。相比传统语音识别系统中的自适应技术,深度学习语音识别系统中的自适应存在着模型参数庞大,而数据量相对较少等特点,这使得深度学习语音识别系统中的自适应成为一个研究难题。本文针对这些难题,在声学模型在线自适应、低资源下声学模型离线自适应、无监督声学模型离线自适应和语言模型自适应方面开展了研究工作,并将研究成果应用于实际语音识别系统中。本文的研究工作依托科大讯飞股份有限公司所承担的科技部国家重点研发计划重点专项课题《未知场景下的语音识别与意图理解》(课题编号:2018AAA0102204)进行。本文的具体研究内容包括:研究了声学模型在线自适应技术。针对声学模型在线自适应对于实时性要求极高,并且因缺乏自适应训练数据而导致自适应效果有限等问题,本文提出了基于注意力机制的声学模型在线自适应方法。利用预先训练好的说话人识别模型抽取海量说话人的特征表达并进行聚类,得到一组说话人特征基向量作为外部记忆单元;利用注意力机制实时快速的从记忆单元中挑选与当前语音段最相近的说话人基向量,并加权得到当前语音帧所对应的说话人特征表达,用于声学模型在线自适应。在此框架的基础之上,我们引入了固定大小顺序遗忘编码机制,同时提出了多级门控连接机制、说话人分类目标辅助训练和残差向量说话人特征表达,进一步的提升了声学模型在线自适应的效果。我们分别在中文和英文语音识别两个代表性数据集上进行了实验,实验结果证明了该方法能够在基本不增加语音识别计算复杂度的情况下,大幅提升声学模型在线自适应的效果。研究了低资源下声学模型离线自适应技术。针对低资源下声学模型离线自适应容易过拟合而导致泛化能力差的问题,本文提出了基于多任务学习的说话人编码方法,以及基于奇异值分解和矢量量化的自适应方法。首先,针对传统基于说话人编码的自适应方法进行了分析并指出了其中的不足;其次,针对性的引入了额外的说话人分类目标对说话人编码向量进行多任务学习,以提升该方法对于新说话人的泛化能力;然后,将说话人编码向量扩展成说话人编码矩阵以增强自适应的作用,并使用基于奇异值分解的自适应参数初始化。同时,为了能够充分压缩自适应的参数量,引入了矢量量化技术,并同步进行矢量量化训练与自适应,以减少矢量量化所带来的效果损失。在真实的语音识别数据集上,这两种方法在低资源情况下均取得了更好的自适应效果。研究了无监督声学模型离线自适应技术。针对无监督声学模型离线自适应相比有监督自适应效果损失严重的问题,本文首先提出了利用人机交互过程中的用户确认文本来帮助提高自适应数据机器标注准确率的方法;然后提出了一种基于确认模型的声学置信度方法,通过设计多种统计特征用于置信度模型的训练,直接判断当前词是否识别正确,从而显着增强了置信度与语音识别准确率之间的相关度,使得通过该置信度方法可以更好的进行自适应数据的挑选,提升机器自动标注的准确率;最后,本文跳出了传统无监督自适应方法的束缚,提出了一种基于元学习的无监督自适应方法,直接以无监督自适应后的模型在测试集上的效果为训练目标,来对通用模型进行调整,使得经过元学习后的通用模型按照预设的自适应方法能够在测试集上获取最优的效果。实验结果表明,本文提出的方法均能大幅提升无监督声学模型自适应的效果。研究了语言模型自适应技术。针对语言模型自适应数据稀疏、缺乏有效的自适应方法的问题,本文提出了基于用户修改词的N-gram语言模型自适应方法,通过从用户修改行为中挖掘用户关键词并在解码过程中进行动态激励,实现了N-gram语言模型高效快速的自适应。在保证低误触发率的前提下,该方法大幅提升了用户关键词的识别准确率。针对领域信息未知情况下的神经网络语言模型的自适应难题,本文提出了基于无监督聚类的神经网络语言模型自适应方法,通过无监督聚类对训练文本数据进行划分并训练类别专属语言模型,并利用隐层共享机制缓解类别专属语言模型训练数据稀疏的问题。在解码过程中,通过动态挑选多个类别专属语言模型的输出概率进行加权,达到提高语言模型输出概率可信度的目的。在真实的语音识别数据集上验证了本文提出的方法的有效性。在上述研究工作的基础上,介绍了自适应技术在真实深度学习语音识别系统中的应用情况。针对语音输入法场景,本文设计了语音识别云服务中声学模型自适应的服务架构,包括声学模型的自适应训练模块和自适应后声学模型的解码模块。同时,设计了“即修即改”的语言模型快速自适应功能,使得系统在语音识别错误被用户修正后可以迅速学习改进。
徐昊[8](2019)在《基于俄语军事新闻语料的神经网络语言模型研究》文中研究指明语言模型是语言知识的主要表现形式,语言模型的研究成果必将有助于提升自动文摘、语音识别、机器翻译等多种自然语言处理系统结果的可读性、准确性。为了对军事俄语情报进行智能化处理,研究军事俄语的语言模型具有重要的学术探索意义。近年来,随着深度神经网络技术的成熟,神经网络语言模型在解决数据稀疏和长时依赖能力上,表现出优越于传统语言模型的性能。因此本文采用基于神经网络的训练方法构建军事俄语语言模型,以研究神经网络语言模型在军事俄语信息处理中的应用效果。本研究尝试通过对俄语军事领域新闻文本数据进行挖掘分析,采用基于神经网络的训练方法构建军事俄语语言模型,并从困惑度和参数数量两个方面,对比基于神经网络和基于传统统计方法的两种军事语言模型的性能,对比基于一般领域语料和基于俄语军事新闻语料两种俄语神经网络语言模型在军事俄语文本上的困惑度,以及计算预训练语言模型BERT在军事俄语文本上的困惑度。在实验研究中,以俄语军事新闻文本语料作为军事俄语数据集,将其划分为训练集、验证集和测试集,首先在训练集上分别使用传统的n-gram模型和长短时记忆结构(LSTM)的神经网络模型进行俄语语言模型的训练,并观察验证集困惑度,采用提前终止的方法防止神经网络模型过拟合,最后在测试集上计算困惑度。实验结果表明,与传统的n-gram模型相比,俄语军事新闻的神经网络语言模型的参数数量增加了93%,困惑度降低了36.3%。而相比一般领域俄语语料训练的神经网络语言模型,针对俄语军事新闻的模型困惑度降低高达92%。另外,使用谷歌开源的预训练语言模型BERT在俄语军事新闻测试集上进行困惑度计算,发现即使利用针对俄语进行微调的RuBERT模型,在俄语军事新闻上的困惑度计算效果仍不理想。但是基于LSTM的军事俄语语言模型相比传统模型效果出色,说明采用基于神经网络的训练方法构建军事俄语语言模型,一定程度上有助于提升各项军事俄语智能化处理任务的效果。
毛丽旦·尼加提,古丽尼尕尔·买合木提,艾斯卡尔·艾木都拉[9](2019)在《不同维度下维吾尔语N-gram语言模型性能分析》文中研究说明针对当前维吾尔语语言模型存在的语料库数据稀疏问题以及困惑度较高等问题,在SRILM和MITLM两种工具生成的2-gram,3-gram,…,9-gram语言模型做了对比实验,试图找出在一定规模的维吾尔语语料条件下使困惑度最低的N-gram语言模型。通过对比分析最终得出结论,对于基于维吾尔语句子的N-gram模型,维度N取在介于3~5之间较宜,困惑度和计算复杂度等因素考虑N=3为较优。这一结论将有助于维吾尔语自然语言处理的发展。
杨宁[10](2019)在《基于RNN的藏语语言模型的研究与实现》文中进行了进一步梳理随着互联网的迅速普及和信息的快速更新,人工智能已成为未来科技发展的重要方向。语音识别是人工智能研究的一个重要分支,其目的是让机器与人之间能够通过语音互相交流,实现人机交互。目前语音识别在英、汉等大语种方面已经取得了较高的识别率,而在藏语等小语种方面的研究却相对缺乏。语言模型是语音识别中的重要模块,也是语言事实关系的主要表现形式,很大程度上影响了语音识别系统的最终效果。除语音识别外,语言模型也广泛使用在机器翻译、自动分词、句法分析等研究中。本文主要研究基于循环神经网络Recurrent Neural Network,(RNN)语言模型和传统的N-gram统计语言模型,构建相关藏语语言模型并测试模型性能,通过改变参数,添加优化方法等实验对比两者困惑度,目的是得到识别性能更好的藏语语言模型,以便能够在后续藏语语音识别系统中,可以结合声学模型得到更准确的识别率。传统的N-gram语言模型是一种浅层模型,随着数据量增多、数据结构复杂性增强,会造成数据稀疏等问题,其建模能力也会下降。而循环神经网络RNN作为较深层次的模型,具有比N-gram模型更好的学习和建模能力。本研究通过改变RNN藏语语言模型隐层神经元的数目、在输出层添加类别层加速运算以及利用上下文词向量特征和LSTM进行训练,有效解决梯度消失等造成的标准语言模型不能获取长距离约束的问题。实验结果表明,优化后的藏语RNN语言模型性能优于传统N-gram语言模型,但是训练时间相对较长且过程复杂。
二、N-gram语言模型中的插值平滑技术研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、N-gram语言模型中的插值平滑技术研究(论文提纲范文)
(1)图像文本识别的关键技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题的研究背景及意义 |
1.2 图像文本识别方法研究现状 |
1.2.1 字符识别研究现状 |
1.2.2 单词识别研究现状 |
1.2.3 文本行识别研究现状 |
1.2.4 模型压缩研究现状 |
1.3 论文的研究内容及创新点 |
1.3.1 研究内容概述 |
1.3.2 主要创新点 |
1.4 论文的组织结构 |
第2章 基于语义分割的复杂场景字符识别方法 |
2.1 引言 |
2.2 相关技术简介 |
2.2.1 语义分割方法 |
2.2.2 类标编码方法 |
2.3 基于语义分割的字符识别模型 |
2.3.1 FCN-ResNet50模块 |
2.3.2 类五笔类标编码模块 |
2.3.3 CRF模块 |
2.3.4 损失函数 |
2.4 实验与分析 |
2.4.1 数据集 |
2.4.2 实验设置 |
2.4.3 对比的方法 |
2.4.4 CTW数据集的实验结果和分析 |
2.4.5 ICDAR2019-ReCTS数据集的实验结果和分析 |
2.4.6 HIT-OR3C数据集的实验结果和分析 |
2.5 本章小结 |
第3章 基于位置向量的无约束手写单词识别方法 |
3.1 引言 |
3.2 相关技术简介 |
3.2.1 长短期记忆网络 |
3.2.2 位置向量 |
3.3 基于位置向量的无约束单词识别模型 |
3.3.1 特征提取模块 |
3.3.2 位置向量 |
3.4 实验与分析 |
3.4.1 手写单词数据集 |
3.4.2 模型训练 |
3.4.3 实验结果 |
3.4.4 消融实验 |
3.4.5 识别样例分析 |
3.5 本章小结 |
第4章 基于自适应超图神经网络的手写文本行识别方法 |
4.1 引言 |
4.2 相关技术简介 |
4.2.1 图神经网络简介 |
4.2.2 超图神经网络简介 |
4.3 基于自适应超图神经网络的文本行识别模型 |
4.3.1 自适应超图的构建 |
4.3.2 通过HGNN进行特征-语义交互 |
4.3.3 序列识别 |
4.4 手写文本行识别的实验 |
4.4.1 手写文本行数据集与评价指标 |
4.4.2 实验设置 |
4.4.3 对比方法 |
4.4.4 实验结果 |
4.4.5 识别样例分析 |
4.5 多标签图像分类的扩展实验 |
4.5.1 优化 |
4.5.2 评价指标 |
4.5.3 多标签数据集 |
4.5.4 实验设置 |
4.5.5 对比方法 |
4.5.6 实验结果 |
4.5.7 消融实验 |
4.5.8 可视化与分析 |
4.6 本章小结 |
第5章 图像文本识别模型的全连接层压缩方法 |
5.1 引言 |
5.2 相关技术简介 |
5.3 基于参数共享的全连接层压缩方法 |
5.3.1 顺序分支结构 |
5.3.2 混洗分支结构 |
5.3.3 紧凑型网络参数压缩分析 |
5.4 实验与分析 |
5.4.1 模型压缩实验数据集 |
5.4.2 实验设置 |
5.4.3 实验对比方法 |
5.4.4 实验结果及分析 |
5.4.5 不同压缩模型结果对比 |
5.5 消融实验与分析 |
5.5.1 分支效果 |
5.5.2 压缩因子效果对比 |
5.5.3 训练和测试阶段的速度表现 |
5.5.4 PSFC和传统FC层的训练收敛性比较 |
5.5.5 可视化分析 |
5.6 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(2)融合形态结构与语法关系的藏语语言模型(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 研究的现状 |
1.3 研究的内容和创新点 |
1.4 章节关系和安排 |
第2章 语言模型概述 |
2.1 语言模型的简介 |
2.1.1 N-gram语言模型 |
2.1.2 语言模型自适应方法 |
2.1.3 循环神经网络语言模型 |
2.2 藏语语言模型以及相关研究 |
2.2.1 资源丰富的语言 |
2.2.2 藏语以及藏语语言模型 |
2.2.3 藏语语言模型的研究与存在的问题 |
2.3 评价标准 |
2.3.1 困惑度 |
2.3.2 语音识别的词错误率 |
2.4 本章小结 |
第3章 藏语语料的构建和测试 |
3.1 拉萨方言语音数据库构建和测试 |
3.1.1 拉萨方言语音数据库构建 |
3.1.2 藏语音频语料库在不同音素集声学模型上的测试 |
3.2 藏语文本数据库构建和测试 |
3.2.1 藏语文本数据库构建 |
3.2.2 基于形态结构的组合基字藏语语言模型的测试 |
3.3 本章小结 |
第4章 基于静态形态结构的藏语语言模型 |
4.1 藏语虚词及相关研究 |
4.1.1 藏语虚词 |
4.1.2 现有研究中问题及贡献 |
4.2 藏语后缀对虚词的影响 |
4.2.1 藏语字符形态结构 |
4.2.2 后缀的作用以及语义影响 |
4.3 考虑后缀的藏语建模 |
4.3.1 标准的RNNLM |
4.3.2 藏文后缀特征融合 |
4.4 实验结果与分析 |
4.4.1 数据 |
4.4.2 结果 |
4.4.3 分析 |
4.5 本章小结 |
第5章 基于动态形态结构的藏语语言模型 |
5.1 引言 |
5.2 相关研究 |
5.3 藏语中形态动词的作用 |
5.3.1 藏语形态动词 |
5.3.2 基于类的藏语语言模型 |
5.4 基于形态动词的藏语语言模型 |
5.4.1 藏语语言模型中形态动词的重要性 |
5.4.2 离线学习通过字频率重新调整 |
5.4.3 在线调整权重 |
5.5 实验结果与分析 |
5.5.1 实验准备 |
5.5.2 结果 |
5.5.3 分析 |
5.6 本章小结 |
第6章 有效融合静态和动态形态结构的藏语语言模型 |
6.1 引言 |
6.2 语法关系和形态动词 |
6.2.1 藏语语法关系 |
6.2.2 形态动词对句子的影响 |
6.3 考虑语法和形态动词的藏语语言模型 |
6.3.1 RNNLM |
6.3.2 语法关系影响藏语语言模型 |
6.3.3 形态动词相关的藏语语言模型 |
6.3.4 静态和动态结构相结合的语言模型 |
6.4 实验结果与分析 |
6.4.1 困惑度评价 |
6.4.2 ASR evaluation |
6.4.3 分析 |
6.5 本章小结 |
第7章 总结与展望 |
7.1 研究工作的总结 |
7.2 未来展望 |
参考文献 |
附录 |
发表论文和参加科研情况说明 |
致谢 |
(3)基于铁路车务语境的语音识别后文本处理研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 语音识别技术发展概论 |
1.3 语音识别后处理研究现状 |
1.4 本文的主要思路及工作 |
1.4.1 语音识别后文本错误分析 |
1.4.2 主要工作 |
1.5 论文结构及安排 |
2 语音识别后处理相关理论概述 |
2.1 自然语言处理技术介绍 |
2.2 中文分词技术 |
2.3 语言模型 |
2.3.1 n-gram语言模型 |
2.3.2 数据平滑技术 |
2.3.3 语言模型的评估 |
2.3.4 互信息 |
2.4 本章小结 |
3 语音识别后查错算法研究 |
3.1 查错思想 |
3.2 基于n-gram语言模型的查错 |
3.2.1 n-gram模型的构建及数据平滑算法的选取 |
3.2.2 语境和谐度计算 |
3.3 基于核心词语搭配术语库查错 |
3.3.1 核心词语搭配术语库的构建 |
3.3.2 词语搭配聚合度计算 |
3.4 基于n-gram模型和核心词语搭配术语库的联合查错 |
3.5 本章小结 |
4 语音识别后纠错算法研究 |
4.1 纠错思想 |
4.2 混淆集的构建 |
4.2.1 真词混淆集的构建 |
4.2.2 拼音混淆集的构建 |
4.3 基于混淆集的纠错算法 |
4.3.1 支持度计算 |
4.3.2 基于混淆集纠错算法设计 |
4.4 特殊字母数字的纠错算法 |
4.4.1 关键字规则表的构建 |
4.4.2 基于关键字规则表的规则匹配算法纠错 |
4.5 本章小结 |
5 实验验证及系统应用 |
5.1 实验及结果分析 |
5.1.1 实验数据 |
5.1.2 参数确定 |
5.1.3 实验结果界面显示 |
5.1.4 查错实验结果及分析 |
5.1.5 纠错实验结果及分析 |
5.2 语音识别后处理系统应用 |
5.3 实现过程及结果分析 |
5.4 本章小结 |
结论 |
致谢 |
参考文献 |
攻读学位期间的研究成果 |
(4)中文语法自动纠错系统的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
创新点摘要 |
第一章 绪论 |
1.1 课题背景和研究意义 |
1.1.1 课题背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 论文组织结构 |
第二章 中文语法自动纠错的问题描述与分析 |
2.1 中文语法自动纠错问题定义 |
2.2 中文语法纠错主流原理与方法分析 |
2.3 词嵌入 |
2.4 离散式表示方法 |
2.5 分布式表示方式 |
2.5.1 Word2vec |
2.5.2 NNLM |
2.5.3 跳字模型 |
2.5.4 连续词袋模型 |
2.5.5 负采样 |
2.5.6 层序Softmax |
2.6 中文语法自动纠错存在的不足 |
第三章 基于N-gram与 CRF的语法纠错设计 |
3.1 语言模型设计 |
3.1.1 语言模型 |
3.1.2 语言模型的计算 |
3.2 纠错算法设计 |
3.2.1 基于N-gram的纠错算法设计 |
3.2.2 基于CRF的纠错算法设计 |
3.3 实验验证 |
3.3.1 预处理 |
3.3.2 语法纠错训练样本的建立 |
3.3.3 实验分析 |
第四章 基于深度神经网络的中文语法纠错设计与研究 |
4.1 深度神经网络模型的研究 |
4.1.1 多层感知器 |
4.1.2 循环神经网络 |
4.1.3 长短时记忆网络 |
4.1.4 双向长短时记忆网络 |
4.1.5 Elmo模型 |
4.2 基于Seq2Seq纠错模型的设计与构建 |
4.3 基于Transformer模型的中文语法纠错设计 |
4.4 基于BERT模型的中文语法纠错设计 |
4.5 基于混合神经网络模型的中文语法纠错设计 |
第五章 中文语法自动纠错系统的设计与研究 |
5.1 业务场景分析 |
5.2 中文纠错数据集的构建 |
5.2.1 训练数据 |
5.2.2 测试数据 |
5.3 实验验证 |
5.3.1 纠错模型实验结果比对 |
5.3.2 混合模型的语法纠错实验分析 |
5.4 语法纠错系统的实现 |
5.4.1 面向用户的系统构建 |
5.4.2 系统功能展示 |
5.4.3 前端界面展示 |
结论 |
参考文献 |
攻读硕士期间发表的文章目录和科研成果 |
致谢 |
(5)中文文本的词语纠错方法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 课题背景和意义 |
1.2 国内外研究现状分析 |
1.2.1 英文纠错研究现状 |
1.2.2 中文纠错研究现状 |
1.3 本文主要工作及研究框架 |
1.3.1 主要工作 |
1.3.2 研究框架 |
2 相关原理阐述与技术介绍 |
2.1 中文文本错误分类 |
2.2 中文分词 |
2.3 语言模型 |
2.3.1 语言模型分类 |
2.3.2 数据平滑 |
2.4 序列标注 |
2.4.1 词向量化 |
2.4.2 CRF模型在序列标注中的应用 |
2.5 本章小结 |
3 基于N-gram的中文拼写纠错组合模型设计 |
3.1 问题描述 |
3.2 N-gram模型概述 |
3.3 N值的选定 |
3.4 基于N-gram的拼写纠错组合模型设计 |
3.4.1 模型建立 |
3.4.2 数据平滑 |
3.4.3 动态规划 |
3.4.4 定义得分函数 |
3.5 基于N-gram的组合模型构建 |
3.6 实验与分析 |
3.6.1 实验环境 |
3.6.2 实验数据集 |
3.6.3 评测标准 |
3.6.4 实验结果与分析 |
3.6.5 实验错误分析 |
3.7 本章小结 |
4 基于BiLSTM-CRF的中文语法纠错模型设计 |
4.1 问题描述 |
4.2 BiLSTM-CRF模型介绍 |
4.3 基于BiLSTM-CRF的模型设计 |
4.3.1 嵌入层 |
4.3.2 BiLSTM中间层 |
4.3.3 CRF层 |
4.3.4 BiLSTM-CRF模型构建 |
4.4 实验与分析 |
4.4.1 实验环境 |
4.4.2 实验数据集 |
4.4.3 数据预处理 |
4.4.4 错误类型与评估 |
4.4.5 实验结果与分析 |
4.5 本章小结 |
5 全文总结与研究展望 |
5.1 全文总结 |
5.2 展望 |
参考文献 |
攻读硕士学位期间的主要研究成果 |
致谢 |
(6)基于神经网络的藏语语言模型研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 选题背景及意义 |
1.1.1 选题背景 |
1.1.2 研究意义 |
1.2 国内外语言模型研究现状 |
1.2.1 国内外语言模型研究现状 |
1.2.2 国内外藏语语言模型的研究现状 |
1.3 论文主要研究目标和研究内容 |
1.4 论文结构与安排 |
第二章 语言模型理论基础 |
2.1 语言模型 |
2.2 N-gram语言模型 |
2.2.1 模型概述 |
2.2.2 数据稀疏问题及平滑方法 |
2.3 神经网络 |
2.4 神经网络语言模型 |
2.4.1 Word2Vec语言模型 |
2.4.2 循环神经网络语言模型 |
2.5 语言模型的评价指标 |
2.5.1 困惑度 |
2.5.2 语言模型在NLP任务处理中的应用 |
第三章 藏语语言模型研究 |
3.1 藏语简介 |
3.2 数据集及预处理 |
3.3 基于N-gram的藏语语言模型训练 |
3.4 基于循环神经网络的藏语语言模型训练 |
3.5 困惑度及分析比较 |
第四章 基于预训练的藏语语言模型 |
4.1 基于预训练的藏语神经网络语言模型 |
4.1.1 模型构建 |
4.1.2 模型的训练 |
4.1.3 困惑度分析 |
4.2 藏文文本校对的实验 |
4.2.1 实验数据 |
4.2.2 基于N-gram语言模型的文本校对 |
4.2.3 基于RNN语言模型文本校对 |
4.2.4 实验结果对比分析 |
第五章 总结和展望 |
5.1 工作总结 |
5.2 工作展望 |
参考文献 |
攻读硕士学位期间的研究成果 |
致谢 |
(7)深度学习语音识别系统中的自适应方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 深度学习语音识别技术研究现状 |
1.2.2 声学模型自适应技术研究现状 |
1.2.3 语言模型自适应技术研究现状 |
1.3 本文主要内容及组织结构 |
第2章 声学模型在线自适应方法研究 |
2.1 引言 |
2.2 基于注意力机制的声学模型在线自适应方法的基本框架 |
2.2.1 主体神经网络 |
2.2.2 外部记忆单元 |
2.2.3 注意力模块 |
2.2.4 连接模块 |
2.3 基于注意力机制的声学模型在线自适应方法的改进方案 |
2.3.1 基于音素信息的记忆向量构建方式 |
2.3.2 基于变长编码的说话人信息收集方式 |
2.3.3 基于多级门控机制的说话人向量连接方式 |
2.3.4 基于辅助说话人分类任务的信息增强方式 |
2.4 实验结果及分析 |
2.4.1 实验数据及基线配置介绍 |
2.4.2 在线自适应方案的实验验证 |
2.5 本章小结 |
第3章 低资源下的声学模型离线自适应技术研究 |
3.1 引言 |
3.2 基于多任务学习的Speaker Code方法 |
3.2.1 SpeakerCode自适应方法介绍和分析 |
3.2.2 基于多任务学习的Speaker Code方法 |
3.3 基于SVD和VQ的自适应方法 |
3.3.1 基于SVD的模型自适应 |
3.3.2 矢量量化及训练 |
3.4 实验及分析 |
3.4.1 实验数据集及基线模型概述 |
3.4.2 基于多任务学习的Speaker Code方法实验 |
3.4.3 基于SVD和VQ的自适应方法实验 |
3.5 本章小结 |
第4章 无监督声学模型离线自适应技术研究 |
4.1 引言 |
4.2 机器自动标注准确率提升方法 |
4.2.1 基于用户确认文本的机器标注准确率提升方法 |
4.2.2 基于确认模型的声学置信度方法 |
4.3 基于元学习的自适应方法 |
4.3.1 MAML技术介绍 |
4.3.2 基于MAML的无监督说话人自适应 |
4.4 实验及分析 |
4.4.1 实验数据集及基线模型概述 |
4.4.2 基于用户确认文本的机器标注方法相关实验 |
4.4.3 基于确认模型的置信度方法相关实验 |
4.4.4 基于MAML的自适应方法相关实验 |
4.5 本章小结 |
第5章 语言模型自适应方法研究 |
5.1 引言 |
5.2 基于用户修改词的N-gram语言模型自适应 |
5.2.1 基于用户行为分析的用户词挖掘 |
5.2.2 用户词动态激励 |
5.3 基于聚类的神经网络语言模型自适应 |
5.3.1 无监督自聚类 |
5.3.2 多类联合语言模型 |
5.4 实验及分析 |
5.4.1 实验数据集及基线模型概述 |
5.4.2 基于用户修改词的N-gram语言模型自适应相关实验 |
5.4.3 基于聚类的神经网络语言模型自适应相关实验 |
5.5 本章小结 |
第6章 语音识别自适应的应用 |
6.1 引言 |
6.2 声学模型自适应的应用 |
6.3 语言模型自适应的应用 |
6.4 本章小结 |
第7章 总结 |
7.1 本文的主要贡献与创新点 |
7.2 后续的研究工作 |
参考文献 |
在读期间发表的学术论文与取得的研究成果 |
致谢 |
(8)基于俄语军事新闻语料的神经网络语言模型研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 统计语言模型技术的发展 |
1.4 针对俄语的神经网络语言模型研究 |
1.5 军事领域的俄语语言模型 |
1.6 研究的问题与难点 |
1.6.1 数据规模与数据稀疏问题 |
1.6.2 领域依赖问题 |
1.6.3 参数规模问题 |
1.6.4 运算速度问题 |
1.7 研究方法 |
1.8 论文创新及结构 |
第二章 传统的统计语言模型算法 |
2.1 n-gram语言模型 |
2.2 决策树语言模型 |
2.3 最大熵模型 |
2.4 本章小结 |
第三章 基于循环神经网络的语言模型 |
3.1 循环神经网络结构 |
3.2 长短时记忆网络结构 |
3.3 词向量 |
3.4 Softmax |
3.5 本章小结 |
第四章 语言模型的迁移学习技术 |
4.1 预训练语言模型 |
4.1.1 词嵌入 |
4.1.2 ELMo |
4.1.3 微调语言模型 |
4.2 Transformer网络结构 |
4.2.1 自注意力机制 |
4.2.2 位置编码 |
4.2.3 解码过程 |
4.3 本章小结 |
第五章 针对俄语军事新闻的语言模型对比实验 |
5.1 语言模型的评价标准 |
5.1.1 参数数量 |
5.1.2 困惑度 |
5.2 实验语料 |
5.2.1 俄语军事新闻语料 |
5.2.2 一般领域俄语语料 |
5.3 实验工具 |
5.3.1 SRILM |
5.3.2 Tensorflow |
5.3.3 RuBERT |
5.4 运行环境 |
5.5 俄语军事新闻的n-gram语言模型 |
5.6 俄语军事新闻的LSTM语言模型 |
5.7 RuBERT在俄语军事新闻上进行困惑度计算 |
5.8 实验结果与分析 |
5.8.1 n-gram模型的实验结果 |
5.8.2 LSTM模型的实验结果 |
5.8.3 RuBERT模型的实验结果 |
5.9 本章小结 |
第六章 总结与展望 |
致谢 |
参考文献 |
作者简历 |
(9)不同维度下维吾尔语N-gram语言模型性能分析(论文提纲范文)
1 N-gram语言模型与度量标准 |
1.1 N-gram语言模型 |
1.2 度量标准 |
1.2.1 交叉熵 |
1.2.2 困惑度 |
2 维吾尔语形态特性与平滑算法 |
3 实验 |
3.1 数据准备 |
3.2 实验工具 |
1) SRILM |
2) MITLM |
3.3 实验结果与分析 |
4 结语 |
(10)基于RNN的藏语语言模型的研究与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 引言 |
1.2 研究背景及意义 |
1.3 国内外研究现状 |
1.4 论文组织结构 |
1.5 小结 |
第2章 基于传统N-gram的语言模型研究 |
2.1 传统N-gram语言模型 |
2.2 N-gram模型的参数估计 |
2.3 N-gram语言模型中的平滑方法研究 |
2.3.1 加法平滑算法 |
2.3.2 回退平滑算法 |
2.3.3 插值平滑算法 |
2.4 小结 |
第3章 神经网络语言模型研究 |
3.1 神经网络语言模型 |
3.2 RNN语言模型 |
3.2.1 RNN语言模型的特点 |
3.2.2 循环神经网络训练算法BPTT |
3.2.3 RNN语言模型结构 |
3.2.4 梯度优化 |
3.3 基于词向量特征的RNN语言模型 |
3.3.1 词向量的获取 |
3.3.2 词向量模型 |
3.4 LSTM |
3.5 小结 |
第4章 RNN藏语语言模型实现及实验结果分析 |
4.1 环境搭建 |
4.2 数据准备 |
4.3 语言模型评测标准 |
4.4 语言模型实现及实验结果分析 |
4.4.1 N-gram模型建立实验 |
4.4.2 RNN语言模型训练流程 |
4.4.3 RNN语言模型实现及结果分析 |
4.5 小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
四、N-gram语言模型中的插值平滑技术研究(论文参考文献)
- [1]图像文本识别的关键技术研究[D]. 吴湘平. 哈尔滨工业大学, 2021(02)
- [2]融合形态结构与语法关系的藏语语言模型[D]. 更太加. 天津大学, 2020(01)
- [3]基于铁路车务语境的语音识别后文本处理研究[D]. 王琼. 兰州交通大学, 2020
- [4]中文语法自动纠错系统的研究与实现[D]. 周锦程. 东北石油大学, 2020(03)
- [5]中文文本的词语纠错方法研究[D]. 张蕾. 江西财经大学, 2020(12)
- [6]基于神经网络的藏语语言模型研究[D]. 郭杨. 西藏大学, 2020(02)
- [7]深度学习语音识别系统中的自适应方法研究[D]. 潘嘉. 中国科学技术大学, 2020(01)
- [8]基于俄语军事新闻语料的神经网络语言模型研究[D]. 徐昊. 战略支援部队信息工程大学, 2019(02)
- [9]不同维度下维吾尔语N-gram语言模型性能分析[J]. 毛丽旦·尼加提,古丽尼尕尔·买合木提,艾斯卡尔·艾木都拉. 现代电子技术, 2019(10)
- [10]基于RNN的藏语语言模型的研究与实现[D]. 杨宁. 西北民族大学, 2019(02)