基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术

基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术

俞鸿魁[1]2004年在《基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术》文中研究说明本文提出了一种基于层次隐马尔可夫模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和命名实体识别集成到一个完整的理论框架中。在分词方面,采取的是基于类的隐马尔可夫模型,在这层隐马尔可夫模型中,命名实体和词典中收录的普通词一样处理。命名实体识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识别出命名实体,并计算出真实的可信度。在切分排歧方面,采用一种基于N-最短路径的策略,即:在早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜力的候选结果中选优得到。不同层面的实验表明,层次隐马模型的各个层面对汉语词法分析都发挥了积极的作用。作者参与了基于层次隐马尔可夫模型的汉语词法分析系统ICTCLAS的开发,该系统在2002年的973专家组评测中获得第一名,在2003年汉语特别兴趣研究组(the ACL Special Interest Group on Chinese Language Processing, SIGHAN)组织的第一届国际汉语分词大赛中综合得分获得两项第一名、一项第二名。这表明:ICTCLAS是目前最好的汉语词法分析系统之一,层次隐马尔可夫模型能够解决好汉语词法问题。

熊英[2]2009年在《中文自然语言理解中基于条件随机场理论的词法分析研究》文中研究说明随着计算机技术的不断发展和互联网的广泛普及,人们迫切需要一种自然、便捷的方式与计算机交流,使计算机能够“听懂”人类的语言。语音识别就是实现这种人机交互界面的关键技术,统计语言模型作为当前连续语音识别技术的基石之一,离不开自然语言处理技术的支持。对于中文来说,中文词法分析是中文信息处理技术的基础和关键,它直接关系到后续的句法分析和语义理解,并最终影响到实际的应用系统。因此,它一直是目前中文信息处理研究领域的一个热点和难点。本文系统地介绍了条件随机场(Conditional Random Fields,CRFs)模型及其在中文词法分析领域的应用,分析了目前主流的条件随机场模型训练准则和参数优化方法。然后以中文词法分析为应用背景,从区分性原理的角度研究了条件随机场训练准则,提出了基于条件随机场模型的交集型歧义消解方法,讨论了特定领域中的新词提取和词典优化算法,为中文词法分析的研究提供了新的方法和思路。最后简要阐述了中文词法研究在汉语语音识别中的应用。首先,本文研究了条件随机场模型区分性训练准则。目前,条件随机场模型的参数训练准则主要是基于最大似然/最大后验概率,其训练的目标是使训练语料中正确标注序列的概率最大。而以此目标建立的模型并不能保证在实际的测试环境中可以找到最佳的标注序列,从而获得较高的标注正确率。故目前的训练准则与序列标注性能评价指标之间存在着不匹配的情况。针对这一问题,本文提出了一种新的区分性训练准则—最小标注错误(Minimum Tag Error,MTE)。该准则在每条候选路径中加入该条路径相对于参考路径的正确率权重,以训练语料平均正确率最大化为目标函数。为了有效地计算平均正确度,本文还提出了一种新的前-后向算法,推导了正确率期望求解方法。实验表明,该准则不仅使切分指标的F-score值略有上升,而且使词表外(OutOf Vocabulary,OOV)词的召回率显着提高,即该准则在未知词识别的能力上具有明显的优势。同时,该准则在命名实体识别方面的性能也获得了较大的提升。其次,针对条件随机场等概率图模型不具备支持向量机(Support Vector Machine,SVM)那样良好的泛化能力,本文借鉴大间隔原理,提出了类似于大间隔思想的区分性条件随机场训练方法—增强型条件随机场(Boosted Conditional RandomFields,BCRF)。该方法不仅继承了传统CRFs凸函数的特性,保证了全局最优解,而且也融合了大间隔模型所具有的泛化能力,其内涵可理解为在正确标注序列和候选序列之间加入了一个“软间隔”,而该“软间隔”与两个序列间的汉明距离(候选序列中错误标注元素的个数)成一定的比例关系。实验结果表明,该方法与传统的最大后验概率方法相比具有明显的优势,不仅能够提高切分精度,而且能够提高OOV词和命名实体识别的能力。但与MTE方法相比,虽然其切分精度和识别性能略有下降,但其参数计算方法相对较简便,无需进行第二次前-后向算法。再次,本文讨论了中文交集型歧义消解方法。利用SVM在分类问题上的卓越表现及其适用于处理高维数据的特点,研究了SVM在交集型歧义消解问题上特征的选取原则和表示方法。通过分析交集型歧义两种切分方式之间存在的差异,采用互信息、附属种类、二字词频和单字词频四种统计量进行特征表示和融合,比较了特征的不同表示方法对分类性能的影响。实验表明,特征的选择和表示方法对SVM分类性能的提高至关重要,具有互补特性的特征组成的高维特征向量可以在很大程度上提高SVM分类器的歧义消解能力。针对SVM方法在处理链长大于1的歧义字串时必须将其转化为多个链长为1的字串进行处理所带来的不便,本文提出了一种基于条件随机场模型的歧义消解方法,将传统的二值分类问题转化为序列标注问题。该方法不仅能同时处理任意链长的歧义字串,而且对于真歧义字串,可以充分利用上下文信息给出不同语言环境下正确的切分形式。实验结果表明,该方法取得了目前最佳的性能表现。然后,讨论了特定领域中新词提取和词典优化算法。在缺少特定领域的训练语料情况下,有监督的机器学习方法不能很好地发挥其优势。基于词典的最大匹配切分方法虽然最简单有效,但由于缺乏特定领域的专业词典和新词汇的不断涌现,使得基于词典的切分算法在特定领域中的切分精度受到严重影响。本文以通用词典为初始词典,利用启发式排歧规则,在粗切分的基础上,提出了一种改进的新词提取和词典优化算法。该算法以语言模型困惑度最小化为新词提取标准,自动从候选集中提取新词,加入到初始词典得到适用于特定领域的扩充词典。为了计算候选词加入词典前后模型困惑度的变化,本文提出了一种简单有效的近似计算方法。实验结果表明,该算法不仅能提取很多特定领域的专业词汇,而且能有效地降低模型的困惑度,提高切分正确率。最后,简单介绍了语言模型在语音识别系统中的应用,分析了中文词法研究对统计语言建模的作用及其对语音识别系统性能的影响。

朱江涛[3]2006年在《中文信息处理中命名实体识别问题的研究》文中进行了进一步梳理命名实体识别是自然语言信息处理的一项基础工作。命名实体识别的研究,对自然语言理解,信息检索和信息抽取具有重大的意义。国际上,很早就开始了命名实体识别技术的研究并取得了不错的成果。但是,由于中文本身的内在特点,使得命名实体识别问题成为中文信息处理中的一项艰巨的任务。本文从以下几个方面对中文命名实体识别问题进行了研究和探讨。 首先,提出了改进的隐马尔可夫模型并应用到命名实体识别当中。隐马尔可夫模型是一种简单有效的统计学习方法,然而,在命名实体识别问题中面临一定的问题。因此,本文在分析中文命名实体特征基础上,提出了一种基于改进的隐马尔可夫模型方法,并应用到命名实体识别当中。该方法建立的命名实体与上下文之间的直接联系,相对通常隐马尔可夫模型识别性能显着提高。 其次,将最大熵模型应到组织机构名的识别当中。组织机构名是命名实体识别任务中难度最大的任务,本文详细分析了组织机构名构成特点,提出了一种利用最大熵模型识别组织机构名的新方法。在最大熵模型的特征选择过程中,本文将词性、词性、语义和人类知识等多层特征信息,加入到组织机构名识别当中,取得了不错的效果。 再次,本文提出了一种基于启发式信息修正分词,以减少切分错误来提高命名实体识别性能的新策略,并以姓名识别为例进行了具体的实验。在一般的命名实体识别系统中,命名实体识别在分词之后进行,切分结果的错误就会蔓延到命名实体识别当中。本文分析分词、词性标注和命名实体识别之间关系,利用互信息和姓氏作为启发式信息探测姓名,在候选姓名局部上下文进行全切分,最后用隐马尔可夫模型选择最优标注,从而完成姓名识别的新方法。该方法将分词、词性标注与命名实体识别结合到一起,从而减少了分词对命名实体识别的影响,提高姓名识别的整体性能系统。 最后,本文提出了基于篇章的命名实体识别方法。在中文信息处理中,信息检索,信息抽取,自动文摘等研究内容本身就是篇章文本的信息处理。在这些任务中,篇章级的上下文信息对命名实体识别具有重要的意义。本文将分词统计与串频统计相结合提取候选篇章中命名实体,利用上下文信息,实现了基于篇章的命名实体识别。实验表明:篇章上下文信息可以有效地改进对命名实体识别性能。

孙晓[4]2009年在《中文词法分析的研究及其应用》文中研究指明在机器翻译和其他自然语言处理任务中,对于中文和日文等亚洲语言,词的识别和处理是一个最为关键的基础性步骤,而其中存在的问题至今仍然没有得到完善的解决,从而影响了机器翻译以及其他自然语言处理任务的精度和效率。在中文词法分析任务中,除了中文分词,还包括词性标注,未登录词(或新词)的识别和词性标注等基础性步骤,这些也是影响中文词法分析性能和精度提高的难点所在。首先,针对中文词法分析存在的问题,提出了一种新的融合单词和单字信息的基于词格的中文词法分析方法。该方法利用系统词表,构建包含所有分词和词性标注候选路径的词格,同时对候选未登录词及其词性进行同步识别并加入到词格中,降低了未登录词识别的运算复杂度,然后利用基于词的条件随机域模型,结合定义在整条输入路径上的全局特征模板,在词格中选择最终的分词以及词性标注结果。基于词的条件随机域的解码速度要高于基于单字的条件随机域,并降低了标注偏置问题和长度偏置的影响,在SIGHAN-6等开式和闭式语料上进行测试,获得了令人满意的结果。另外,为了进行对比,对基于单字的中文分词模型也进行了进一步的研究,在其中引入多个外部词典,并增加了相应的特征,进一步提高了基于单字的中文分词模型的分词精度;同时,为了满足高效率的中文词法分析需求,提出了基于最长次长匹配算法的一体化的中文词法分析方法,因为是基于隐马尔可夫进行编码和解码,因此具有较高的训练和词法分析速度。其次,针对中文词法分析中的未登录词识别和标注问题,提出了隐藏状态的半马尔可夫条件随机域模型(Hidden semi-CRF), Hidden semi-CRF模型可以同步识别未登录词及其词性。Hidden semi-CRF模型结合了隐藏变量动态条件随机域模型(LDCRF)和半马尔可夫条件随机域模型(semi-CRF)的优势,相对semi-CRF模型具有更低的运算代价和更高的识别精度。通过Hidden semi-CRF模型同步识别未登录词及其词性,并加入到词格中参与整体路径选择,提高了词法分析的整体精度。最后,将中文词法分析的结果直接应用到基于超函数的中日机器翻译系统中,对原有超函数进行了扩展:首先是将超函数扩展为面向句子的超函数和面向短语的超函数,其次是扩展了超函数中变量的范围,最后提出了高效率的搜索相似超函数的匹配算法。扩展后的超函数降低了超函数库的数量,提高了匹配超函数的检索速度,并且翻译的精度和质量也得到提高。

杨伟[5]2010年在《基于数据库的自然语言查询技术研究与实现》文中研究指明数据库技术日趋成熟,已应用于各行各业,但仅限于具有专业知识的人员操作。自然语言作为信息表达的主要方式,与数据库查询技术结合在一起,使得越来越多的非专业用户能够以一种易于掌握的方法去访问所需信息,具有重大的理论及实用价值。本论文旨在研究基于数据库的自然语言查询技术。首先介绍了数据库自然语言查询的语句特点:符合特定文法规则、具有一定规律可循,因此具有可实现性。接着研究了基于隐马尔科夫模型(HMM)的词性标注以及角色标注法对命名实体的识别等理论和算法,由此使得语句切分更加精确。知识库的设计在系统建设中必不可少,本系统构建了不同类别的知识库,它们是词法、句法分析的基础。词法分析是汉语处理的必经步骤,本文采用了双向最大匹配法进行分词处理,并在一定程度上消除了歧义。对于未登录词的识别,系统也做了相应处理。结合数据库查询语句的特点,详细讨论了查询目标和查询条件的识别过程,考虑到普通人员的查询要求,本文对不同类别目标短语及多种类型的条件短语作了深入研究。综合前面讨论的各项知识和技术,根据课题要求设计了一个自然语言查询系统,并成功应用在社区人事档案库和利安公司业务信息库查询中,达到了预期效果。最后评述了对本系统的不足以及后期所要继续改进的地方。

牟力科[6]2008年在《Web中文信息抽取技术与命名实体识别方法的研究》文中研究指明随着Internet的飞速发展,人们被包围在信息的汪洋大海之中。准确、高效地从信息海洋中抽取有用的信息,正是信息抽取任务要解决的问题。信息抽取是自20世纪80年代末以来,自然语言处理研究领域的热点研究问题。美国、欧洲都制定了相应的信息抽取技术及评测计划。有关汉语的信息抽取研究起步较晚,尚处在探索阶段。信息抽取任务的研究在近年来应对突发事故中表现得尤为亟需。随着各种煤矿安全事故频繁发生,应对突发事故的能力己经成为考验政府执政能力的一个重要方面。应对突发事故是一个系统工程,其中一个重要环节就是信息的收集、整理、加工和发布。及时、客观、准确地收集信息,快速、高效地提取有用信息,这己经成为提高突发事件应对能力的一个重要方面,也是衡量应对突发事件能力的一个重要指标。本文在对煤矿安全事故新闻报道特点广泛分析基础上,以同一突发事件的多个新闻报道(即同事件多文本)为处理对象并考虑到时间的重要性,从中获取支持煤矿安全信息抽取的地名实体识别特征与时间识别特征,在此基础上实现了煤矿安全信息抽取系统。与英语信息提取相比,中文在文本处理深度、知识资源支持等方面都有较大的差距。因此,在研究过程中,对于每一项研究内容,我们都分析了现有资源和文本加工深度对信息提取任务的支持和制约,探索性地研究了具有一定鲁棒性的时间信息识别方法,以期为进一步的研究奠定基础、找到突破口,以便为下一步的工作提供经验。

徐伟[7]2017年在《基于神经网络的中文词法分析系统的研究与实现》文中进行了进一步梳理本论文的研究目的是构建一套基于神经网络的中文词法分析(中文分词,词性标注和命名实体识别)系统,主要研究内容包含两点,其一是研究适合中文词法分析任务的具体模型,其二是研究如何将其良好地实现。首先我们多维度地简要介绍了中文词法分析的各个任务,随后调研了当下已有的词法分析系统。接着我们将用于序列标注的神经网络结构拆分为输入层、表示学习层和标签预测层,并逐层展开介绍。随后本文以实验为出发点,探究了不同的输入特征和模型结构在各任务上的效果,确定了适合各个任务的神经网络模型。我们得到的各模型结构不尽相同,但都以双向LSTM结构作为表示学习方法,同时融合手工特征或未标注数据的信息。最后,我们介绍了系统实现的代码结构,并完成系统的速度评估。本论文的研究成果主要包含两点。第一点是通过实验确定了适合各中文词法分析任务的具体神经网络结构。我们选择LTP作为基准线模型,以LTP使用的数据集作为实验数据集。在中文分词任务上,我们的模型在开发集和测试集上的F1值比LTP分别高0.33、0.48个百分点;在词性标注任务上,最优模型在开发集上的Accuracy比基准线高0.2个百分点,测试集上高0.22个点;在命名实体识别上,我们确定的模型在开发集和测试集上的F1值比LTP提升了2.57和0.57个百分点。第二个研究成果体现在系统实现上。我们用清晰地代码结构实现了上述神经网络模型,获得了一套可用的中文词法分析系统。

熊冬明[8]2006年在《汉语自动分词和中文人名识别技术研究》文中研究指明汉语自动分词和命名实体识别是自然语言处理和计算语言学领域中的重要内容,它的研究和实现具有重要的理论意义和实用价值。随着计算机对大量真实文本处理的迫切需要,对分词和命名实体识别的要求也显得日益迫切,由于它的研究结果直接影响到语法分析、语义分析、语音识别、机器翻译、信息检索、信息过滤等诸多领域的研究,因此,一直引起人们的关注。同其它语言相比,汉语的自动分词和命名实体识别有其特有的难点。目前,汉语自动分词和命名实体识别的处理结果还不尽如人意。本文对汉语自动分词和作为命名实体识别子问题的中文人名识别这两个问题进行了研究,提出了统计方法框架下汉语自动分词和中文人名识别模型。具体的讲,本文做的主要工作是:提出了一种将汉语分词、切分排歧、词性标注和人名识别完整集成的层次框架。首先通过对文本中前位切分字和后位切分字的查找,将汉语自动分词问题归约为对字段的切分问题。在粗切分阶段,基于N-best策略,将最大概率分词方法产生的最佳N个结果作为候选集,作为下一阶段处理的评估对象,目的是尽可能多的覆盖歧义字段,提高召回率。基于语言的词类具有相对稳定的分布这一特征,我们结合了词的词性和词性间的搭配,应用HMM模型对N个粗分结果进行评估,选取最优的一个结果作为分词的中间结果,中文人名的识别在这个中间结果上进行。我们将构成人名的各个特征看作是一种词性,将其纳入整个词性标注的过程中,利用HMM模型对分词的中间结果进行词性标注,最终在词性序列中匹配出符合规则的中文人名。后续处理可得到最终的分词结果和词性标注序列。本模型层次分明,易于理解,实验表明,该模型也是一种行之有效的汉语分词和中文人名识别方法。

张晓艳[9]2004年在《基于混合统计模型的汉语命名实体识别方法的研究与实现》文中研究表明命名实体识别技术,即把文本中出现的专有名称和有意义的数量短语识别出来并加以归类。自95年在MUC-6(Message Understanding Conference)会议上首次提出以来,命名实体识别越来越受到自然语言处理研究者的关注,成为很多应用中的关键技术,例如信息检索、信息抽取、问题回答以及机器翻译等。同时它也是自然语言预处理词法分析阶段的一个长期以来亟待解决的问题。 目前为止,命名实体识别技术在很多语言中都有研究。在英语等西方语言体系中已经做了相当多的工作,取得了很大的进步,并且在实际应用中也有很好的效果。但是对于东方语言体系而言,命名实体识别技术还处在一个不成熟的阶段,这不仅在于技术本身的限制,具体语言的复杂性和多元性也是一个至关重要的因素。 命名实体识别技术研究领域主要经历了两类研究方法:基于规则的方法和基于统计的方法。基于规则的方法主观性较强,对专家知识获取比较依赖。基于统计的方法客观性较强,但是统计方法的正确性和统计源的可靠性对其影响较大。两种方法各有优缺点。 本文分析了多种语言的命名实体识别技术,提出一种混合统计模型结合语言知识的方法,即隐马尔可夫模型和最大熵模型相结合,并使用语言知识进行约束,对汉语中的命名实体进行识别。这些知识主要包括集合类知识和使用频次信息两类,其中命名实体识别主要使用前者,过滤过程主要使用后者。集合类知识包括了词性词典和命名实体特征词等,不同集合间的区别主要在其包含的知识对识别和标注所起的作用。频次信息主要是考虑不同的字词在命名实体中使用的频次不同,从而其构成命名实体的概率也会不同。隐马尔可夫模型从整个句子范围进行约束,完成命名实体识别和词性标注工作;最大熵模型,作为一个子模型,计算句子中候选实体词(未登录词)的观察值概率,用于隐马尔可夫模型Viterbi算法搜索最佳的句子标注序列。本文识别内容主要分为两类:一是实体词识别,包括人名、地名和组织名的识别,这部分是本文的主要部分;二是数词和时间词识别,在识别第一部分实体词的基础和框架上完成。从实验结果来看,取得了较好的识别效果。目前,该实验系统还处在初级阶段,不少工作还有待进一步完善,比如最大熵模型特征的扩充和完善,语言知识和规则的扩充都需要从大规模的真实语料中提取。在今后的工作中,我们将深入研究最大熵模型的特征选取和参数训练问题,进一步提高命名实体识别的效果。

傅魁[10]2007年在《基于Web的本体学习研究》文中进行了进一步梳理本体能够支持人机之间、机器之间的信息交换、知识共享与重用,而得到越来越广泛的重视、研究和应用。然而,领域本体的匮乏却是困扰本体理论研究与现实应用的最主要瓶颈之一,本体学习应运而生,它能够以自动或半自动化的机器学习方式从多种不同的数据源中获取本体。相比国外较多本体学习研究而言,中文环境下本体学习刚刚拉开序幕。本文通过对基于Web的本体学习的研究,为具有实用价值的中文本体学习系统的研发提供理论方法基础。论文在借鉴国外现有的本体学习理论、方法和技术的基础上,结合中文自然语言处理的研究成果,对中文环境下领域本体的概念获取、继承关系学习、属性关系学习和本体实例获取的理论方法展开研究。论文主要研究内容如下:(1)通用本体学习系统的体系结构。设计了一种通用本体学习系统体系结构,由建立在资源层基础上的五大功能模块构成,分别为:资源管理模块、通用资源读写模块、数据预处理模块、本体抽取模块和本体评价与编辑模块。本文所提出的基于Web的本体学习的方法可组件式地无缝集成到该体系结构中。(2)多策略领域概念获取。提出了一种融合信息抽取、中文自然语言处理、语言学和统计等多种策略的领域概念获取算法。能根据页面块特征判定结果自适应选择信息抽取或基于隐马模型和候选名词短语约简的术语获取方法,研究了基于搜索引擎的术语间同义词关系识别方法以及领域概念的过滤算法。(3)继承关系学习。提出了基于Web分类目录判定的继承关系学习方法和基于语境自学习的继承关系学习方法。前者主要包括网页中Web分类目录判定算法、分类目录标注规则、隐式分类目录模式发现机制、标注文档合并中的歧义消解算法以及继承关系映像规则。后者主要包括继承关系语境的自学习机制和基于语境的继承关系获取算法。两种方法各有优缺点,具有互补性。(4)基于知网的属性关系学习。属性关系具有重要作用,但研究很少。首先采用基于语境自学的方法获取候选属性集合;分析认为候选属性集合由非属性词汇、无效属性和有效属性构成,提出了利用知网中属性义原所描述的上下位关系实现非属性词汇过滤和利用属性一一宿主关系实现无效属性过滤的算法;研究基于领域概念树的实现属性关系映射与修剪的基本规则,设计了相应的算法。(5)本体实例的获取。分析了Web网页中个体知识表示的主要形式,提出了基于本体的网页主题概念和个体知识表示特征的判定算法,重点设计了Web表格中本体实例获取的规则,包括本体实例表格识别规则、属性单元识别规则、属性值单元识别的基本规则和扩展规则、实例名称识别规则,给出了算法总体描述。

参考文献:

[1]. 基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D]. 俞鸿魁. 北京化工大学. 2004

[2]. 中文自然语言理解中基于条件随机场理论的词法分析研究[D]. 熊英. 上海交通大学. 2009

[3]. 中文信息处理中命名实体识别问题的研究[D]. 朱江涛. 沈阳航空工业学院. 2006

[4]. 中文词法分析的研究及其应用[D]. 孙晓. 大连理工大学. 2009

[5]. 基于数据库的自然语言查询技术研究与实现[D]. 杨伟. 西安电子科技大学. 2010

[6]. Web中文信息抽取技术与命名实体识别方法的研究[D]. 牟力科. 西北大学. 2008

[7]. 基于神经网络的中文词法分析系统的研究与实现[D]. 徐伟. 哈尔滨工业大学. 2017

[8]. 汉语自动分词和中文人名识别技术研究[D]. 熊冬明. 浙江大学. 2006

[9]. 基于混合统计模型的汉语命名实体识别方法的研究与实现[D]. 张晓艳. 国防科学技术大学. 2004

[10]. 基于Web的本体学习研究[D]. 傅魁. 武汉理工大学. 2007

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术
下载Doc文档

猜你喜欢