何燕[1]2000年在《任意类型的未登录词的识别研究》文中认为我们利用机器自动分词并经人工校对后的350万字语料,采用统计的方法,对出现在分词碎片中的未登录词进行识别。本文报告了我的实验情况:处理训练语料,从中获得有用的资源;对生语料文本进行两趟分词,第二趟分词是从分词碎片中识别未登录词;进行封闭测试和开放测试,测试的结果及其分析。 未登录词是指词表未收,因而机器不认识的词。机器自动分词一般会把未登录词切成一个一个单字,也就是说现有的一般自动分词方法对未登录词所做的“功”为零。分词碎片是指用这样的方法分词后形成的若干个连续单字。这些单字或者是单字词,或者是未登录词的一部分。所以,要识别出分词碎片中的未登录词,实际上是要区分哪些字形成单字词,哪些字组合起来形成未登录词。如果能首先确定分词碎片中哪些是单字词,那么剩下的相邻的字组合起来就形成了未登录词。如:“已请台湾的”这一分词碎片中,如能确定“已”、“请”、“的”是单字词,剩下的“台湾”就被归为未登录词了。这就是本文识别未登录词的基本思想。以往的未登录词的识别往往需要搜集特定资源,只对某一类型的未登录词进行识别,例如建立中文姓名资料库,进行中文姓名的识别。本文未利用任何有关未登录词的资源,如人名、地名资源,只采用简单的统计单字词共现概率的方法来识别任意类型的未登录词,这是本文最大的特点。 实验结果,开放测试分词碎片中的词的正确率为81.16%,,召回率为81.67%,足以表明这种方法作为一种新思路,是有效的。识别错误和识别难点的分析表明,有效地解决数据稀疏问题是最重要的,而如何制定有明确有效的优先级的规则是最困难的。如果能很好地解决上述问题,未登录词的识别效率就可以满足实用。
孙晓[2]2009年在《中文词法分析的研究及其应用》文中认为在机器翻译和其他自然语言处理任务中,对于中文和日文等亚洲语言,词的识别和处理是一个最为关键的基础性步骤,而其中存在的问题至今仍然没有得到完善的解决,从而影响了机器翻译以及其他自然语言处理任务的精度和效率。在中文词法分析任务中,除了中文分词,还包括词性标注,未登录词(或新词)的识别和词性标注等基础性步骤,这些也是影响中文词法分析性能和精度提高的难点所在。首先,针对中文词法分析存在的问题,提出了一种新的融合单词和单字信息的基于词格的中文词法分析方法。该方法利用系统词表,构建包含所有分词和词性标注候选路径的词格,同时对候选未登录词及其词性进行同步识别并加入到词格中,降低了未登录词识别的运算复杂度,然后利用基于词的条件随机域模型,结合定义在整条输入路径上的全局特征模板,在词格中选择最终的分词以及词性标注结果。基于词的条件随机域的解码速度要高于基于单字的条件随机域,并降低了标注偏置问题和长度偏置的影响,在SIGHAN-6等开式和闭式语料上进行测试,获得了令人满意的结果。另外,为了进行对比,对基于单字的中文分词模型也进行了进一步的研究,在其中引入多个外部词典,并增加了相应的特征,进一步提高了基于单字的中文分词模型的分词精度;同时,为了满足高效率的中文词法分析需求,提出了基于最长次长匹配算法的一体化的中文词法分析方法,因为是基于隐马尔可夫进行编码和解码,因此具有较高的训练和词法分析速度。其次,针对中文词法分析中的未登录词识别和标注问题,提出了隐藏状态的半马尔可夫条件随机域模型(Hidden semi-CRF), Hidden semi-CRF模型可以同步识别未登录词及其词性。Hidden semi-CRF模型结合了隐藏变量动态条件随机域模型(LDCRF)和半马尔可夫条件随机域模型(semi-CRF)的优势,相对semi-CRF模型具有更低的运算代价和更高的识别精度。通过Hidden semi-CRF模型同步识别未登录词及其词性,并加入到词格中参与整体路径选择,提高了词法分析的整体精度。最后,将中文词法分析的结果直接应用到基于超函数的中日机器翻译系统中,对原有超函数进行了扩展:首先是将超函数扩展为面向句子的超函数和面向短语的超函数,其次是扩展了超函数中变量的范围,最后提出了高效率的搜索相似超函数的匹配算法。扩展后的超函数降低了超函数库的数量,提高了匹配超函数的检索速度,并且翻译的精度和质量也得到提高。
王蕾[3]2006年在《基于转换学习的专有名词识别》文中认为中文信息处理的基础是分词。影响分词准确率的重要因素之一就是未登录词的识别,而未登录词识别的难点是专有名词识别。本文针对专有名词内部结构特点及其上下文词语环境特点,提出了一个以规则方法为主的专有名词统一识别方案。该方法利用从语料库中自动提取到的专有名词信息和采用基于转换的错误驱动学习方法获得的规则,对切分文本进行属性标注,最终实现专有名词的识别。此方法中专有名词词语信息和规则的提取完全采用机器学习的方式,具有在不受人工干预的情况下,改变训练样本即可适应新环境的特点。本文首先围绕专有名词识别问题展开讨论,在分析和比较了现有的专有名词识别方案和常用方法后,明确了课题目标;在此基础上,提出了一个以规则为主的专有名词统一识别方法;然后,在提出了课题的设计思想,对课题的设计方法进行了一个整体的概括介绍后,进行了详细的系统设计说明,主要包括:基本概念的定义、文本预处理、专有名词特征信息集的建立、规则的提取和属性标注等五个方面。最后,将系统的实现分为数据准备和识别程序两个方面进行了详细的介绍。文章提出了一个识别专有名词的方案,并且根据此方案实现了一个识别系统,同时进行了多项数据试验,对专有名词的识别研究具有一定的参考价值;开放测试的结果也表明,该系统的专有名词识别能力也达到了较好的实用水平。
王源媛[4]2004年在《中文未登录名词短语的识别方法研究》文中进行了进一步梳理自然语言处理是计算机科学中一个引人入胜、富有挑战性的课题。它的任务是建立一种计算模型,这种计算模型能够模拟人类语言认知的过程。但是当前计算机的智能水平还远远不能与人类相提并论,困扰其发展的原因有很多,对未登录词的识别是自然语言处理领域亟待解决的几个难题之一。本论文在剖析现有未登录名词短语识别算法基础之上,对中文未登录名词短语,特别是名词短语中的姓名进行研究,提出了一种新的基于词性探测的中文姓名识别算法。同时,结合“支持向量机”这一新的机器学习方法,从不同的角度对中文姓名的识别问题进行了研究。论文提出的算法通过编程实现后,将作为一个重要的功能模块应用于由本实验室自主开发的“中文自动分词系统”中,以提高该系统识别新词的能力。 论文首先对自然语言处理作了简单介绍,提出了中文自然语言处理的特殊性,即汉语的词与词之间不象西方文字那样存在自然分隔标志,因此必须对待处理的中文文本进行自动分词。随着中文自动分词算法研究的深入,制约其发展的几个问题便越来越受到研究者的关注。其中一大难题就是对中文未登录名词短语的识别。 论文主体部分介绍了名词短语中姓名的识别方法,并阐述了将其作为研究中文未登录名词短语识别问题切入点的意义及作用。在分析常见中文姓名识别方法的基础上,指出了现有识别算法的不足,进而提出了基于词性探测的未登录中文姓名识别算法。该算法结合统计语言模型和中文构词规则等信息,能有效识别中文姓名。此外,论文还引入了支持向量机学习方法,从统计学分类的角度探讨中文姓名与非中文姓名在若干特征上的差异,验证应用支持向量机理论识别中文姓名的可行性。 论文最后根据中文姓名识别系统的评价参数对实验数据进行了分析。同时,对全文的工作进行了总结,并提出进一步的研究工作。
和雪娟[5]2007年在《基于统计和规则混合策略的中国人名识别研究》文中进行了进一步梳理在汉语自然语言处理领域,中文自动分词是一项基础性研究课题。而未登录词识别,乃至其中占多数的中国人名识别问题是中文分词的困难问题和关键问题。与英文命名实体识别相比,国内对中文专有名词识别研究起步较晚,随着中文信息提取研究的兴起,命名实体(或未登录词)识别研究到了更好的发展。据统计,约有48.6%的未登录词是中国人名,而中国人名识别的召回率和准确率还有待进一步提高。因此,如果能够处理好中文文本中的大量中文姓名,势必会有效地提高未登录词识别的精度,从而提高整个分词系统的切分精度,从而推动其他研究的发展。考虑到单纯地用基于统计的方法或基于规则的方法,在中国人名的自动识别上都存在一定的不足,而统计和规则相结合的方法可以互相补充,弥补一定的不足。本文采用统计与规则相结合的混合策略,提出了一种中国人名的自动识别方法。主要研究工作包括:(1)构建了姓氏资源库(SURNAME)、人名用字知识库(NAME)、以及著名人物字典(FAMOUS)和常用的小名库(PETNAME),利用各种库中的统计信息,对文本中的中国人名作初步的提取(称作候选人名的提取)。(2)分析了中国人名构成本身具有的内部特征,以及包括上下文信息、模板信息等在内的外部特征,提取出典型的特征集,并总结出相应的识别规则,对候选人名进行识别。(3)系统设计与实现:基于统计和规则混合策略构建了一个中国人名识别系统,在候选人名提取后做特征提取和规则施加,确定出输入的文本中存在的中国人名,并将其提取出来,存入结果文件中。本文还以1859K的测试语料作为实验数据,对构建的系统进行了测试,说明上述算法的可行性和有效性。
王奇[6]2011年在《基于语素的汉语词法分析方法研究》文中研究说明作为中文信息处理的关键问题之一,汉语词法分析主要包括分词、词性标注和词义消歧三个子任务。虽然近年来汉语词法分析取得很大进展,但处理大规模开放文本时依然面临巨大的挑战,尤其是未登录词问题。因此,如何有效发掘和表示词法特征并解决未登录词识别和预测问题是目前汉语词法分析研究所面临的一个主要困难,同时也是一个研究热点。本文以大规模语料库为基础,在机器学习框架下,融合词语内部和上下文特征,研究基于语素的汉语词法分析方法,重点解决汉语未登录词识别及其词性和词义预测问题。具体地,本文从以下三个方面展开研究:首先,本文以语素为基本构词单位,利用条件随机场模型进行汉语分词研究,重点探索了不同标记集和不同窗口大小对基于语素的汉语分词模型分词性能的影响。在SIGHAN Bakeoff 2005数据上的实验结果表明,语素的引入有利于未登录词识别性能的提高。其次,针对汉语词性标注中存在的未登录词词性预测问题,本文以语素为基础,发掘并融合词语内部的词法特征,实现了一个基于最大熵模型的汉语词性标注系统,并重点分析了影响汉语未登录词词性预测性能的各种因素。在SIGHAN Bakeoff 2007词性标注数据上的实验表明,基于语素的汉语词性标注方法在未登录词词性预测方面具有较大优势。最后,本文提出一种基于中心语素的朴素贝叶斯模型,并在该模型下进行汉语未登录词的词义预测研究。初步的实验证明,基于中心语素的朴素贝叶斯模型可以在一定程度上解决汉语未登录词的词义预测问题。
王帅[7]2012年在《双字低频未登录词识别研究》文中进行了进一步梳理未登录词是影响中文自动分词精度的最主要原因,低频词是未登录词识别的难点,而双字低频未登录词又是低频未登录词的重要组成。所以,文章着重研究如何高效识别双字低频未登录词,选用多种统计和规则相结合的方法,取得了一定的效果。在识别低频双字未登录词的过程中,为了提高识别效率并对实验结果进行有效统计研究,我们进行前期处理,主要分为三步:一、分词并提取分词碎片。二、识别未登录词中的重要组成——命名实体。三、识别部分多字未登录词。之后我们在所剩碎片中判别低频双字未登录词,采用了多种统计与规则相结合的办法,有互信息、成词非词概率、邻字熵、素性组合。虽然实验结果一般,但在辅助识别、提取新词上依然具有实用的价值,可以为人工识别减轻大量负担。我们在识别过程中发现,词定义的模糊性、语料中分词不一致是双字未登录词难以正确识别的重要原因,因此,我们对此进行了深入的研究,提出了对双字词的新的合理定义。之后,我们自己标注了小型的测试语料,在同样的识别方法下,正确率和召回率都有较大提高。最后我们还提出并实现了一种基于网络的判别方法,对“结合紧密、使用稳定”这一属性进行了量化,该方法在判定双字低频未登录词的实验中表现出色,F值最高达到了86%。可见,使用网络资源可能是提高自动分词、特别是未登录词自动识别效果的突破口。
曾庆祥[8]2009年在《移动终端本地资源搜索引擎的研究与设计》文中认为随着传统互联网和移动通信网络的快速发展,网络侧及对应的终端侧数据的种类和数量也得到了快速的发展,如何快速的获取用户所需要的数据成为了亟待解决的问题。针对以上问题,相应的搜索技术及业务系统不断涌向。具体包括面向传统互联网的搜索系统,例如Google、Baidu、Yahoo等;面向传统PC(Personal Computer)中存储的数据的检索系统,例如Google Desktop、MSN Toolbar Suite、YahooDesktop Search等;面向移动通信系统的网络侧数据检索系统,例如Google推出的短信搜索、中国移动梦网搜索业务以及中国移动的语音搜索等。在互联网、电信网以及PC发展的同时,以手机为代表的移动终端技术及产品也得到了快速的推广,移动终端的处理能力和存储容量越来越高,移动终端支持的业务种类和数据类型也在不断的增多,移动终端正在逐渐的成为用户的最重要的数据仓库。随着移动互联网的发展,移动终端的数据种类和数量将得到进一步的增加。因此如果针对移动终端自身的特点,根据用户的数据获取需求,快速的检索到存储在移动终端上的用户所需的用户数据,成为了一个需要迫切解决的问题。根据以上背景,本文设计了移动终端本地资源搜索引擎MDSE(MobileDevice Search Engine)系统。本文首先对移动终端的软硬件特点进行了总结和归纳,同时对用户的业务需求进行了详细的分析,明确了本系统的目标。同时,本文就当前的检索技术进行了系统的分析,包括当前搜索系统的主要流程,流程各个环节的主要技术,关键问题及主要解决方案等;本文对当前流行的开源软件包Lucene也进行了系统的分析。根据业务需求及移动终端自身的特点,以前对当前主要搜索技术的分析,本文设计了适合移动终端特点及业务需求的引擎系统,即MDSE系统。本文对该系统的总体架构、检索主要流程、流程各个环节的主要技术及算法等进行了详细的阐述。本文设计了一种移动终端上可行的“高频词优先的逐字二分分词词典机制”;设计并实现了一种移动终端上收集用户历史操作文档,清洗用户搜索日志,并完善终端初始的关键词词库的方法;同时设计并实现了一种适用于移动终端的未登录词识别方法。针对“高频词优先的逐字二分分词词典机制”以及未登录词识别算法,本文给出了仿真结果。对索引及检索和排序部分,本系统充分的借鉴了Lucene算法的实现。最后,我们根据开发的原型系统,对系统的功能和性能进行了测试,并对测试数据进行了分析。
国玮玮[9]2012年在《基于网络资源的未登录词扩展研究》文中提出汉语文本都是由一个个词语构成的,从而对中文词语的处理是中文信息领域最为基础性的研究课题。随着互联的不断普及和发展,日常生活中不停地涌现出一些词典里面未曾收录的新词,也称为未登录词,从语料库中发现并提取出这些未登录词,可以丰富人类的语言词典,同时也可以提高计算机识别汉语的能力。未登录词本身没有一定的规律,也没有统一的标准来定义它,因此,能够较准确地识别未登录词已经是中文分词领域的一大重点研究课题,同时也是至今难以突破一大难点。本文是借助网络资源对筛选的未登录词再一次进行递归扩展,从而获得不限长度、语义更加完整的未登录词,提高了中文分词中未登录词识别的效率。主要研究内容有以下几个方面:(1)系统地介绍了中文分词的研究背景、研究意义以及国内外的研究现状,而且对目前国内外极具代表性的几种中文分词系统进行简单的阐述。(2)对中文分词领域常用的几种分词算法进行详细阐述,包括基于字符串统计的算法、基于统计的算法以及基于规则的算法,并分别对这几种算法进行了流程分析,介绍了中文分词中几种分词系统的评价标准以及目前中文分词领域所面临的困难。(3)未登录词的识别算法。介绍未登录词识别的常用的几种算法,即基于统计的算法、基于规则的算法以及基于统计和规则相结合的算法,重点阐述了基于统计和规则相结合的算法的中心思想,并对其进行流程分析,给出了统计模型和规则模型,最后通过相关语料进行了实验并对实验结果进行了分析。(4)未登录词的扩展。介绍了未登录词扩展的相关信息,根据互信息和对数似然比的概念,将两者进行融合,根据一种抽取算法,计算公式的值,对二元候选未登录词进行筛选,然后借助网络资源识别出二元候选未登录词的最频繁左邻比以及最频繁右邻比,以这两者的值为基准,对筛选出的候选未登录词种子进行网络递归扩展,从而获得长度不限、带有修饰词的、语义更加完整的未登录词,与传统未登录词进行比较,该算法提高了未登录词的效率。
孙俊[10]2009年在《词对抽取及基于网络的未登录词译文挖掘》文中认为在中文信息处理领域,未登录词(OOV)的识别一直是个难点问题。而未登录词的翻译在自然语言处理的应用中是很重要的,比如在跨语言信息检索(CLIR)、问答系统(QA)中,未登录词翻译的正确性将直接影响到应用的最终性能。本文首先介绍了三种抽取词对的方法,根据使用的语料库是否已经标注,我们把这三种方法分别称为非监督的方法、监督的方法和半监督的方法。对于抽取得到的词对,我们采用了十二种基于频度的量度和两种基于上下文相似度的量度进行了关联度测量。实验结果表明:采用半监督的方法,简单地利用频度进行关联度打分,抽取词对的效果是最优的。基于网络的未登录词译文挖掘是本文的研究重点。首先对未登录词进行分类,分为直译词或非直译词,并进行英文扩展(根据分类结果分别进行直接扩展或共现扩展);再将未登录词与扩展后的英文一起放入搜索引擎进行搜索,然后从搜索引擎返回的结果页面中挖掘未登录词的译文。挖掘时先对返回的结果进行预处理,过滤掉一些干扰信息,然后抽取出其中的候选译文;再选用频度、距离等信息对候选译文进行排序。为了使正确的译文排在较前的位置,我们还采用了正向最大匹配加权和词汇对齐技术对候选译文进行打分和重排序。实验表明,本文介绍的未登录词译文挖掘方法是可行的、高效的,译文挖掘的Top 1覆盖率在80%以上,Top 5覆盖率接近或达到了100%。
参考文献:
[1]. 任意类型的未登录词的识别研究[D]. 何燕. 北京语言文化大学. 2000
[2]. 中文词法分析的研究及其应用[D]. 孙晓. 大连理工大学. 2009
[3]. 基于转换学习的专有名词识别[D]. 王蕾. 苏州大学. 2006
[4]. 中文未登录名词短语的识别方法研究[D]. 王源媛. 重庆大学. 2004
[5]. 基于统计和规则混合策略的中国人名识别研究[D]. 和雪娟. 云南师范大学. 2007
[6]. 基于语素的汉语词法分析方法研究[D]. 王奇. 黑龙江大学. 2011
[7]. 双字低频未登录词识别研究[D]. 王帅. 南京师范大学. 2012
[8]. 移动终端本地资源搜索引擎的研究与设计[D]. 曾庆祥. 北京邮电大学. 2009
[9]. 基于网络资源的未登录词扩展研究[D]. 国玮玮. 安徽大学. 2012
[10]. 词对抽取及基于网络的未登录词译文挖掘[D]. 孙俊. 苏州大学. 2009