中文统计自然语言处理隐马模型的研究

中文统计自然语言处理隐马模型的研究

陈波[1]2003年在《中文统计自然语言处理隐马模型的研究》文中研究指明自然语言处理,相对其它领域,如编程语言,具有特殊的因难,主要表现在知识的获取与使用上。早期自然语言处理的知识几乎都是人工总结的,如机器翻译词典、各种文法等。然而,语言是社会发展的产物,不是简单的可以由"专家"总结和收集的;人工收集知识存在表达不一致、过于武断、代价高昂、不适应应用领域变化等缺点。Internet的发展和各种数字资源的丰富,使得应用统计方法来收集NLP(Natural Language Processing)知识成为可能。这种方法无须先验知识、适应性强、知识获取成本低,近年来获得了很大发展,尤其在语音识别、OCR等领域的应用获得了较大成功。本文以隐马尔可夫Trigram模型为核心,研究中文的统计语言建模问题,包括单语语料库收集与整理、模型选择、训练、平滑、压缩等问题,并开发出一套通用的、面向对象的中文统计语言建模工具箱。论文对原有Trigram的HMM统计模型进行改进,使其具有更多的长距依存能力, 促进统计语言模型在中文自然语言处理领域的应用。论文主要贡献如下:首先,本文根据中文自然语言处理的特点,重新考察了应用于西方语言的语料库收集、模型训练、平滑、压缩方法,分别研究它们的特点以及对中文Trigram模型性能的影响。通过实验找出使中文Trigram模型性能最大化的组合方法。 其次,本文针对HMM Trigram模型只能表达短距依存的缺点进行改进,通过对现代汉语各种依存现象的研究,引入新的长距依存方法,提出一种改进模型LP-Trigram。同时,本文对原有HMM Trigram的Viterbi算法进行扩充,在保证原有模型的尺寸及速度不发生重大变化的情况下,使模型具有长距依存能力,排除了部分歧义,使得模型的性能得到局部改善。 然后,本文以中文拼音-汉字转换系统为应用实例,测试改进系统的性能,即音-字转换的正确率。实验证明,改进的模型排除了原有模型的一些转换错误,能使长距依存现象在HMM Trigram模型中得到正确的表达。最后,对全文的工作进行总结,并指出有待进一步完成的工作。

孙晓[2]2009年在《中文词法分析的研究及其应用》文中研究说明在机器翻译和其他自然语言处理任务中,对于中文和日文等亚洲语言,词的识别和处理是一个最为关键的基础性步骤,而其中存在的问题至今仍然没有得到完善的解决,从而影响了机器翻译以及其他自然语言处理任务的精度和效率。在中文词法分析任务中,除了中文分词,还包括词性标注,未登录词(或新词)的识别和词性标注等基础性步骤,这些也是影响中文词法分析性能和精度提高的难点所在。首先,针对中文词法分析存在的问题,提出了一种新的融合单词和单字信息的基于词格的中文词法分析方法。该方法利用系统词表,构建包含所有分词和词性标注候选路径的词格,同时对候选未登录词及其词性进行同步识别并加入到词格中,降低了未登录词识别的运算复杂度,然后利用基于词的条件随机域模型,结合定义在整条输入路径上的全局特征模板,在词格中选择最终的分词以及词性标注结果。基于词的条件随机域的解码速度要高于基于单字的条件随机域,并降低了标注偏置问题和长度偏置的影响,在SIGHAN-6等开式和闭式语料上进行测试,获得了令人满意的结果。另外,为了进行对比,对基于单字的中文分词模型也进行了进一步的研究,在其中引入多个外部词典,并增加了相应的特征,进一步提高了基于单字的中文分词模型的分词精度;同时,为了满足高效率的中文词法分析需求,提出了基于最长次长匹配算法的一体化的中文词法分析方法,因为是基于隐马尔可夫进行编码和解码,因此具有较高的训练和词法分析速度。其次,针对中文词法分析中的未登录词识别和标注问题,提出了隐藏状态的半马尔可夫条件随机域模型(Hidden semi-CRF), Hidden semi-CRF模型可以同步识别未登录词及其词性。Hidden semi-CRF模型结合了隐藏变量动态条件随机域模型(LDCRF)和半马尔可夫条件随机域模型(semi-CRF)的优势,相对semi-CRF模型具有更低的运算代价和更高的识别精度。通过Hidden semi-CRF模型同步识别未登录词及其词性,并加入到词格中参与整体路径选择,提高了词法分析的整体精度。最后,将中文词法分析的结果直接应用到基于超函数的中日机器翻译系统中,对原有超函数进行了扩展:首先是将超函数扩展为面向句子的超函数和面向短语的超函数,其次是扩展了超函数中变量的范围,最后提出了高效率的搜索相似超函数的匹配算法。扩展后的超函数降低了超函数库的数量,提高了匹配超函数的检索速度,并且翻译的精度和质量也得到提高。

孔海霞[3]2007年在《基于最大熵的汉语词性标注》文中提出词性标注是给文本中的每个词标注上正确的词性。它是自然语言处理的基础,其正确率将影响后期句法分析或组块分析的正确率。在词性标注时出现的错误会在后续自然语言处理链中被放大,正确标注词性对自然语言处理有非常重要的意义。本文的目的就是在文本分词的基础上,实现汉语词性标注,为后期词法分析和其它自然语言处理任务提供基础。本文首先阐述了汉语词性标注的研究现状及研究意义,然后在深入理解最大熵理论的基础上实现了基于最大熵的汉语词性标注系统,最后利用统计规则和词性限定方法对未登录词进行了进一步标注。利用不同模板将不同的上下文信息导入最大熵模型,构建了四个最大熵标注模型,选出具有最优标注效果的模板作为最终模板。为了简化模型,采用了叁种不同的特征选取方法精简最大熵模型的候选特征,为了进一步提高词性标注正确率,采用了规则和词性限定法,结合最大熵对未登录词做了进一步标注。论文给出了最大熵标注模型的算法,并给出了标注结果,及对未登录词进一步标注后的结果。词性标注比较复杂,由于最大熵可以充分利用词的不同层次的上下文信息,能较好地解决复杂问题,因此用最大熵进行词性标注,取得了较好的效果。实验结果表明,用最大熵进行中文词词性标注是有效的:开试测试正确率为94.96%,未登录词的标注正确率为63.32%。本文的研究成果可应用于实际翻译系统中,为自然语言后期处理提供了基础。另外还可进一步应用到信息检索、文本分类等自然语言处理领域中。

王志勇[4]2004年在《基于统计语言学模型的中文文本信息检索》文中进行了进一步梳理随着各种文本信息资源的迅猛发展,文本信息检索系统已经成为人们获取有用信息不可缺少的工具,而文本信息检索模型作为文本信息检索技术的数学基础,是主要的研究方向之一,具有重要的意义。统计语言模型作为一种自然语言处理的工具,已经被证明有能力处理大规模真实文本。而统计语言模型和IR相结合后所形成的IR模型的提出,是信息检索模型研究上的重大进展。本文从文本检索模型的基本原理入手,分析了几种传统IR模型的优缺点,给出基于统计语言模型的IR模型的基本原理、关键技术以及它的优势所在。并在标准的TREC中文实验数据集上,回答了下面两个问题:(1)中文统计语言模型-IR模型的性能如何?也就是说,中文统计语言模型和IR相结合有没有前途?(2)特征选择对中文统计语言模型-IR模型的影响如何?哪种特征选择方法好?对于问题(1),我们用SLM-IR模型和两种传统的IR模型:向量空间模型和概率模型进行比较,以标准的TREC评价手段,给出上述3种模型的性能。实验结果表明:简单的SLM-CIR模型的性能要优于简单的向量空间模型和概率模型。对于问题(2),我们选择了几种典型的特征选择方法,即单汉字、分词、bigram,比较它们的性能。同时,考虑到分词的特殊性,我们又选择了几种不同的分词方法,给出了基于不同分词方法的分词切分SLM-IR模型的性能。实验结果表明:①对于单汉字切分,简单的SLM-CIR模型的性能要优于简单的向量空间模型和概率模型;对于分词切分和Bigram切分,简单的SLM-CIR模型的性能要优于向量空间模型,虽然略低于OKAPI概率模型,但是反馈后的SLM-CIR模型的性能要明显优于反馈前和反馈后的OKAPI概率模型。②对于简单的SLM-CIR模型,分词切分的性能不如Bigram切分和单汉字切分,而且不同的分词方法对检索性能的影响不明显。这就说明了在SLM-CIR模型中,分词技术不是影响模型性能的关键因素。③验证了英文数据集上的实验结论,即无论采用哪一种切分方法,使用狄利克雷先验值的贝叶斯平滑方法仍比其他两种平滑方法好。<WP=5>今后,可以在语义平滑技术等方面进行深入研究,并且把统计语言模型作为构建更复杂的IR模型的一个强有力的工具。

阚琪[5]2015年在《基于条件随机场的命名实体识别及实体关系识别的研究与应用》文中提出命名实体识别是将文本中的元素分成预先定义的类,如人名、地私、组织机构名、时间、货币等等。作为自然语言的承载信息单位,命名实体识别属于文本信息处理基础的研究领域,是信息抽机构取、信息检索、机器翻译、问答系统等多种自然语言处理技术中必不可少的组成部分。在实体识别领域,国外科研机构针对英文实体的识别已取得了突出的成绩,识别准确度达到90%以上。由于中文在分词及语义方面存在着众多的困难,国内针对该问题还处于研究和探索阶段。所以针对中文实体及关系的识别的研究有着重大的意义。论文的工作主要体现在以下几个方面:第一,研究分析了用于实体识别及实体关系识别的众多的机器学习模型,包括隐马尔科夫模型、最大熵模型以及支持向量机模型。分析这些模型在实体识别方式方面的优势和缺陷,并通过分析发现新兴的“条件随机场模型”是一种在结构上继承了经典模型的优点,并克服了在识别中不能依赖周边信息以及标记偏置等缺陷的模型。国内外的相关实验也表明在自然语言处理,特别是实体识别领域,条件随机场模型有着更加出色的发挥。故而本系统选用其作为实体及实体关系识别的算法模型。第二,由于条件随机场模型拥有可进行长距离信息依赖的特点,可以充分利用当前词前后词的属性对当前词进行更加准确的判断,因此本论文将该模型选择为本课题研究和引用的模型。而“条件随机场模型”也存在着“过于依赖特征的选取”的弊端,即实体识别程度的好坏在很大程度上取决于对于特征向量选取的好坏。现阶段还没有针对中文特征选取的相关规则,本文将针对该系统语料集的特点,使用由简到繁的特征选取方式构建特征模板。因此对于特征的选取及特征模板的构建是本系统的重点工作。在实体识别阶段构建的特征模板为:1)选取词语本身及词性作为特征构建了基本特征模板;2)选取实体特征,通过语料转换构建了实体特征模板;3)选取实体指示词构建了指示词模板,并在其中加入了相关的专业词典信息;4)通过特征的组合构建了组合特征模板。在实体关系识别阶段除了选取了基本特征、词性特征外,本文还提出了将句法结构作为重要的特征用于构建特征模板。通过对句法结构的分析,选取共同节点特征、依赖动词特征、实体-实体路径特征以及实体-依赖动词路径特征作为实体关系识别的重要特征。第叁,本系统以条件随机场模型为框架,使用1998年人民日报语料做为训练集,完成模型的训练工作。在网页解析方面,提出了一种结合HTMLParser的技术将涉及《天龙八部》小说人物的百度词条中的正文信息进行了提取,生成测试集。使用测试集进行实体识别及实体关系识别的实验,数据表明本文提出的特征模板已经达到了良好的准确度、召回率。本系统将识别出的人物实体的关系对形成索引,并以简图的形式进行人物关系的展示。在模型方面,该研究为条件随机场的特征选取方式提供了一种规则借鉴。在系统方而,这种通过将机器学习算法引入文学作品,并分析人物关系的方式也成为了文学研究的一种尝试与探索。

邱莎[6]2006年在《基于统计的生物命名实体识别研究》文中研究指明生物医学文献中的命名实体识别是目前被国际广为关注的自然语言处理研究问题之一。虽然自然语言处理在某些领域已经获得了很好的效果,但在生物医学领域却还有不小的差距。由于生物医学的蓬勃发展,新的命名实体层出不穷,其不规则的命名,以及旧词新用,使生物命名实体识别成为一项艰巨的任务,也在一定程度上影响着生物医学领域的研究进展。目前的研究方法很多,其中,统计自然语言处理由于其基于统计的学习方法不需要研究者具有太多生物医学专业知以,从而成为生物命名实体识别研究中常用的方法。隐马尔可夫模型是现代语音识别系统中构建统计模型的重要于段。它可以在只有少量训练数据的情况下学习规则。目前国际上有不少研究者采用了隐马尔可夫模型及其变形来解决生物命名实体识别问题,虽然取得了不错的进展,但都没有达到“近乎人类”的程度,还有许多问题有待解决,而国内的研究也才刚刚起步。所以本文的研究主要采用隐马尔可夫模型,对生物命名实体识别问题进行初步的研究。进行的工作如下:1、从已标注语料库中用统计的方法训练隐马尔可夫模型。通过对已标注语料进行统计得到隐马尔可夫模型的参数:状态集、发射符号集、初始状态概率、状态转移概率、符号发射概率。在不同的试验中用不同的方法来发现发射符号(命名实体名)的一些命名规律,对其进行归并,形成发射符号集,并掘此进行各项概率的统计。在计算概率时,为了解决数据稀疏问题,采用了线性插值的方法进行平滑。在实现过程中提出了词结构相似度的概念,为符号归并提供一个量化标准。2、在未标注语料上测试训练好的隐马尔可夫模型。以未标注语料的一个自然句作为隐马尔可夫模型的输入序列,用Viterbi算法获得输出状态序列,从而得到识别出的生物命名实体。形成输入序列时,在不同的试验中采用了不同的分词方法。通过计算自然句中一组词与发射符号集中各项的相似度,确定把自然句划分为词序列的边界,并辅以简单的词性分析。3、计算测试结果的召回率和精确率,通过比较,对隐马尔可夫模型进行改进,并重复以上过程直到获得一个可以有效识别生物命名实体的隐马尔可夫模型。通过上述的研究工作,实现了在生物医学文本中对命名实体的识别,并通过实验初步验证了所设计算法的有效性。

孔振[7]2014年在《基于VSM的文本分类系统的设计和实现》文中研究说明众所周知,网络信息技术发展的速度相当惊人,信息增长速度越来越快,人类面临的信息量已经十分庞大,怎么样在这样巨大的数据量中找到人类需要的信息,满足人类的需求,成为了人类面临的一大问题,使用计算机对文本进行自动化分类的技术能够在很大程度上帮助人们解决这个问题。文本分类技术是自然语言处理领域和模式识别领域的一大课题,它诞生于20世纪50年代末,最初被使用于图书管理领域,经过好几代学者的研究到今天,这门技术已经从青涩变得成熟。近年来文本分类技术已经应用到信息检索,信息推送,信息过滤等多个领域,并且为人类提供了更好的信息化的服务。研究文本分类技术对我们有着很大的意义,它可以帮我们减少信息获取的时间,更好的取得信息,同时也有利于我们对信息更好地分类整理。本文完成了一个使用向量空间模型(VSM)的文本分类系统,在文本分类预处理阶段,使用了基于隐马尔科夫模型(HMM)的分词方法将文本转化成为词袋的表示形式。在文本特征项选取过程中,采用了开方测试(CHI统计量)和互信息法进行特征项选取。在特征项特征权重赋值方面,本文参考了众多论文对改进的TF-IDF的特征权重赋值方法的描述,探讨并且采用了TF-IDF的改进版本作为本文涉及的文本分类系统的特征权重函数。在分类器选择方面,本文借鉴了比较成熟,高效的支持向量机技术,支持向量机是向量空间模型的一种实现,并且使用台湾大学林老师的LIBSVM对文本进行分类,同时本文深入探讨了支持向量机技术。本文所涉及的文本分类系统从工程实际角度出发,利用并行化计算平台Hadoop进行模型训练,实现了文本分类的任务,分类效果达到了预期。

徐梓豪[8]2017年在《基于统计模型的中文命名实体识别方法研究及应用》文中指出自然语言处理领域中的许多任务,都需要建立在准确有效的命名实体识别结果上。命名实体识别研究的发展常常与自然语言处理技术相互制约。中文命名实体识别的研究进程大大晚于英文命名实体识别,加之中文因自身没有明确分词符的独特结构特点,也加大了中文命名实体识别的难度。医学领域繁多的专业词汇和句法特征,更加提高了该领域的中文命名实体识别的研究门槛。本文通过对目前现有命名实体识别方法的总结,选择在目前较为成熟的基于统计模型的命名实体方法中进行深入研究。并在分析了当前应用于医学领域的基于统计模型的中文命名实体识别方法研究后,发现由于国内尚无公开统一的医学标注语料,这类研究无一例外均采用了各自进行人工标注训练语料的方法。本文受到深度学习领域中,在模型训练时进行fine-tuning的思路启发,提出在开放领域新闻标注语料进行模型训练的基础上,通过医学专业词典对统计模型进行fine-tuning,以使其能够在对中文临床病历的命名实体识别任务中有良好表现。该方法有效减少了在命名实体识别研究前期,为训练模型而不得不进行语料标注的工作量。并且避免了由于人工标注训练语料带来的主观偏差。经实验证明,该模型优化算法对隐马尔可夫模型和条件随机场模型均有效,分别将其准确率提高了 6.8%和10.5%,召回率分别提高了 8.9%和11.1%。最后,在应用中本文基于对1066份现实中文临床病历的命名实体识别结果,利用规则和字典相结合的方法对病历内容进行了关键信息抽取。并利用医学逻辑规则,对关键信息中的潜在信息进行了深入分析。基于上述的实验过程,通过总结探索出一套可行的辅助研究方法。

邹涛[9]2010年在《一种电子产品领域命名实体识别方法研究》文中研究指明近年来,随着因特网和信息产业的快速发展,越来越多的信息出现在人们面前,许多新兴的信息处理技术孕育而生,在这些得到广泛应用的技术中有一个共同而基础的问题,那就是命名实体识别。因此,对命名实体识别的研究具有很大的实用意义。本文通过研究各种命名实体识别方法,提出一种高效的针对电子产品领域命名实体的识别策略,为项目“世界信息技术与产品水平库建设”中的初步工作——通过计算机智能方法识别出电子产品领域的产品技术参数等命名实体提供解决方案,并为下一步可能开展的定量情报分析、垂直搜索提供底层支撑。该策略通过层迭模型将基于规则和统计识别方法有机地结合,继承了基于规则和基于统计识别方法的优点,并充分考虑了电子产品领域文本特征和人力物力方面的权衡。最终,实现了该领域的命名实体识别系统,并选取十九种电子产品技术参数等命名实体,进行对比实验证明其系统识别效果,得到了令人满意的结果。

李江[10]2008年在《自然语言编程研究》文中研究说明自然语言编程是自然语言处理领域中的一个新方向。本文在中文自然语言编程方面进行了深入的研究,并在前人工作的基础上,给出了自己的新想法和新思路,基于两个不同的方法分别建立了实验系统,并进行了实验对比。本文的主要工作归纳如下:1.进行了大量的用户调查和测试,在调查和测试的过程中,我们不仅收集到了足够的相关语料,而且进一步明确了我们的系统所要达到的目的和完成的任务。2.结合自然语言编程中的特殊性,实现了中文分词、词性标注和句法分析叁个自然语言处理技术的组件。这叁个组件是我们后续系统的基础部分,为系统提供输入语料的词法层面和句法层面的信息。3.基于两种不同的方法分别实现了自然语言编程系统。一种是规则的方法,另一种方法是对基于转换的错误驱动学习算法的改进。我们详细描述了每个系统的各个模块和系统工作的整个流程。4.最后,通过实验对两个系统的性能和优缺点进行了深入分析,并对自然语言编程的前景和主要困难进行了讨论。

参考文献:

[1]. 中文统计自然语言处理隐马模型的研究[D]. 陈波. 重庆大学. 2003

[2]. 中文词法分析的研究及其应用[D]. 孙晓. 大连理工大学. 2009

[3]. 基于最大熵的汉语词性标注[D]. 孔海霞. 大连理工大学. 2007

[4]. 基于统计语言学模型的中文文本信息检索[D]. 王志勇. 第二军医大学. 2004

[5]. 基于条件随机场的命名实体识别及实体关系识别的研究与应用[D]. 阚琪. 北京交通大学. 2015

[6]. 基于统计的生物命名实体识别研究[D]. 邱莎. 四川大学. 2006

[7]. 基于VSM的文本分类系统的设计和实现[D]. 孔振. 哈尔滨工业大学. 2014

[8]. 基于统计模型的中文命名实体识别方法研究及应用[D]. 徐梓豪. 北京化工大学. 2017

[9]. 一种电子产品领域命名实体识别方法研究[D]. 邹涛. 西安电子科技大学. 2010

[10]. 自然语言编程研究[D]. 李江. 北京邮电大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

中文统计自然语言处理隐马模型的研究
下载Doc文档

猜你喜欢