基地统计和规则的中文姓名识别系统的研制

基地统计和规则的中文姓名识别系统的研制

王省[1]2000年在《基地统计和规则的中文姓名识别系统的研制》文中进行了进一步梳理中文姓名的识别是提高汉语分词系统正确率的关键技术之一,对整个机器翻译系统有重要影响。 本文将统计和规则方法结合起来,根据其侧重点不同,提出了侧重规则和侧重统计两种识别模型。规则模型主要利用串频统计作切分预处理,并利用统计结果和系统词典词条信息进行识别:统计模型将汉字串的构词能力、相邻词间的结合能力等信息融于一体,提出了可信度概念,建立了奖惩机制和学习机制。大量测试结果表明统计模型对中文姓名识别效果更好,对自动分词的切分作了有效调整,在机器翻译等领域具有很好的实用价值,精确率和召回率均达到90%左右。

吴芬芬[2]2006年在《信息抽取算法研究》文中研究说明本文对应用于信息抽取的三种算法进行了研究。本文首先分析了在文本信息抽取中如何建立隐马尔可夫模型(Hidden Markov Models, HMM)的结构和参数训练等问题,运用改进的HMM和数据稀疏平滑技术结合特征提取对基于分块的文本进行抽取,实验证明,召回率和精确度比基于单词和传统HMM的方法都有很大的提高,并提高了效率。在改进HMM和Viterbi算法这种几乎是信息抽取领域标准算法的同时,本文也提出利用反向动态规划和正向A*算法进行信息抽取,并建立了一个信息抽取系统。本文对美国CMU大学CORA搜索引擎研制组提供的数据集中的100篇进行了测试,结果显示启发式算法的性能优于Viterbi算法。在中文的命名实体识别方面,本文也做了一些研究。本文设计了一个中文姓名抽取系统,该系统采用神经网络进行汉语句子的分词处理,继而根据姓名后置特征词进行姓名的抽取,成功解决了尾字和下文成词的姓名抽取问题。

张剑锋[3]2008年在《规则与统计相结合的中文分词方法研究》文中研究表明随着信息时代的到来,计算机在人们生产生活的各个方面作用越来越突显。目前,在机器翻译、语音识别、信息检索等许多领域对语料库的使用越来越多,要求也越来越高,对语料库进行分词成为建立汉语语料库资源的首要任务。随着中文信息处理研究的深入,中文文本自动分词问题已经引起相当程度的重视,成为中文信息处理的一个前沿课题。经过几十年的研究,中文文本自动分词技术取得了令人瞩目的成果,出现了一些实用的自动分词系统,这些分词系统在分词的精确度和分词速度方面都具有相当水平,但无论按照人的智力标准,还是同实用的需要相比较,还有一定的差距。在本文中,我们以加工后的训练语料为研究对象,提出了一种规则与统计相结合的中文分词方法。该方法根据中文分词中所遇到的问题,对其进行归类并利用规则与统计相结合的思想对分词结果进行逐步的优化,最终达到一个较理想的结果。主要的研究内容有以下几方面:1.通过对大量训练语料的统计与分析,建立歧义字段资源库,深入分析了歧义字段的内部特征和上下文环境特征,为解决歧义字段问题建立了语言学基础。对训练语料中所出现的歧义字段进行真伪歧义分析,建立相应的真歧义库和伪歧义库。2.统计并分析真歧义与伪歧义各自不同的语言现象和规律,对其进行进一步的分类,为歧义字段的处理策略提供依据,进而为概率模型的建立提供支持。此外,在概率模型的建立过程中,使用了《同义词词林》作为语义资源,对歧义字段的上下文环境进行了语义扩充。3.通过对海量真实语料的分析和统计,提取其中所出现的未登录词,充分考虑未登录词的内部结构,抽取和统计未登录词的内部信息,建立了未登录词资源库,并利用内部信息建立未登录识别的概率模型。4.通过对未登录词的上下文环境信息的分析,提取未登录词识别的实用规则,建立未登录词识别的规则库,进而提高概率模型的识别效果。我们通过对微软亚洲研究院2005年提供的SIGHAN简体中文语料库(MSR)的400万语料进行模型的训练和检测,发现该策略在歧义字段的处理上有较好的效果。为了进一步检验规则与统计相结合的分词方法的有效性,我们参加了SIGHAN第四届国际中文自然语言处理Bakeoff SIGHAN 2008国际分词评测,并参加了NCC分词的开放测试,并在词表词识别率上达到96.9%,进一步证明该模型在解决歧义字段问题是有效的。

陈慧[4]2008年在《基于DCC动态流通语料库的中文组织名考察与研究》文中研究说明中文组织名是组织的专有名称。本文首次基于大规模真实文本,对中文组织名进行了宏观到微观、历时动态到共时静态的多角度考察研究。本研究将为中文信息处理提供有效资源和规则知识,为中文组织名命名标准制定及组织名、域名注册管理提供参考,为语言资源监测的深入发展探索新的方向。本文取得了以下较有特色的研究成果:一、界定了中文组织名的内涵和外延,厘清它与非中文组织名的界限,从中心词角度提出中文组织名形式化分类体系。二、基于DCC动态流通语料库建立了中文组织名研究语料库,建立中文组织名资源库。语料库选取2002—2006年六份主流报纸熟语料,共计1,360,416个文本,8,750,105种词、247,257,749个词、16亿字节。中文组织名资源库包括三个主数据库和五个子数据库。三个主数据库是:①《中文组织名原始信息库》,记录3,954,716个组织名识别结果及其词性标记(ORG、AORG)、文本领域属性、时间属性、上下文窗口等原始属性。②《中文组织名总表》,记录615,681种组织名识别结果,进行中心词标记和二次分词,记录字长、词长、频次等统计数据。③《中文组织名分布信息库》,记录615,681种组织名识别结果的频率、累加频率、文本散布数、领域分布数、报纸分布数、年度分布数等统计数据。五个子数据库分别是:①《中文组织名用字库》:记录《中文组织名总表》全部5,241种23,130,786个字符。②《中文组织名用词库》:记录《中文组织名总表》前60万组织名使用的36类70,110种2,352,589个词。③《中文组织名禁用词库》:记录11类组织名禁用词性、6类组织名禁用字符串及三大实词中的禁用词。④《常用中文组织名库》:经人工校对获得15,970条正确组织名,累加频率70%。⑤《中文组织名简称全称对照词表》:从《中文组织名总表》获取的3000对简称全称。三、考察了中文组织名分布特征,从频率、字长、领域、年度、报纸等角度考察组织名分布情况。提出并研究中文组织名“领域表征值”及其对文本分类和通用词研究的意义。四、研究中文组织名的结构、成分、缩略和上下文搭配。提出中文组织名的两种结构模式,分析四类结构成分的形式、性质、规则条件,提出组织名缩略的九项原则和组织名简称识别方法,确定了中文组织名的三类上下文搭配形式及其在消歧、浅层句法分析方面的应用价值。最后应用规则知识,提出中文组织名识别的实用方案,并进行了具体实验。实验表明,禁用词性自动过滤85475种识别错误组织名,占种数13.92%;禁用词自动过滤44,307种识别结果,占种数7.20%;非组织名中心词自动过滤了11,711种识别结果,占种数1.9%,占总数9.2%。五、提出动态监测中文组织名的意义和方法,以“年度组织名监测”为例进行了监测实验。六、整理分析中文组织名命名、使用中的不规范现象及新问题,提出了具体的规范化建议。下一步我们将进一步完善资源库建设,应用语义词典等外部资源对禁用词、分类体系、内部结构模式进行深入研究。

李波, 张蕾[5]2012年在《基于错误驱动学习和知网的中文人名识别》文中研究表明针对统计与规则这2种方法的优缺点,提出一种基于转换的错误驱动学习与知网相结合的中文人名自动识别方法。利用标注语料库,根据在人名识别中的作用对人名上下文环境进行角色标注,提取标注后的实例,并采用基于转换的错误驱动方法和知网对提取的实例进行可用规则提取,结合规则和实例对文本进行人名识别。实验结果表明,与其他方法相比,该方法的中文人名识别准确率、召回率和F值均有明显提高。

孙桂煌[6]2008年在《基于N-grams短语的中文Web文本聚类及其预处理的研究》文中提出随着计算机技术的不断发展与应用,数字化的文本数量不断增长,互联网的发展更加剧了数字文本的膨胀。本文的目标就是在我国互联网资源急剧增长的背景下,为了有效地挖掘中文Web文本信息资源,针对传统文本表示模型应用于中文文本的不足和传统文本聚类方法处理高维文本对象时运行效率低的缺陷,以及中文文本需要进行分词等困难,根据网页文本对象的特殊性和中文语言自身特点,尝试从中文Web文本聚类过程的不同阶段入手,研究中文Web文本聚类分析技术。在预处理阶段,为了能够提供准确表达网页主题信息的去噪网页或文本,在分析现有不同网页主题信息提取或网页去噪方法的基础上,针对这些方法需要不同程度地依赖网页结构和视觉特征的缺陷,本文提出了一种新的提取方法,即基于正文特征的网页主题信息提取方法。实验结果表明,这种方法无论在主题信息提取的准确率,还是主题信息提取完整性,结果都比较好。根据中文语言自身特点,把中文信息处理的基础技术——中文自动分词纳入研究内容之一。词语粗分是分词后续处理的基础和前提,直接影响到分词系统最终的准确率和召回率。针对目前常用分词方法单一使用时存在的不足,综合机械分词的高效性和统计分词的灵活性,本文设计了一种最短路径的二元语法中文词语粗分模型。实验结果表明,此粗分模型无论在封闭测试和开放测试中,还是在不同粗分模型对比测试和不同领域的开放测试中,都有较好的句子召回率。在文本表示阶段,传统文本表示模型应用较为广泛的是基于词集的向量空间模型(Vector Space Model,VSM),在构建VSM中,仅仅考虑利用文档中单个词的信息,而忽略了对聚类来说更重要的词之间的关系和顺序信息。针对VSM表示文本的不足和文本信息自身特征,本文提出了一种新的文本表示模型,即短语相关文档模型(Phrase Related Documents Model,PRDM)。在模型中,PRDM使用具有上下文信息的N-grams短语来表达文档和文档关系,能够更准确地聚集相似文档。在文本聚类阶段,针对传统文本聚类方法处理高维文本对象时运行效率低和需要初始化参数的缺陷,本文提出了一种新的中文文本聚类方法,即基于N-grams短语的中文文本聚类方法。该方法在PRDM的基础上,构建文档相关文档模型(Document Related Documents Model,DRDM);然后在DRDM的基础上,计算文档相似度;最后聚集相关文档(相似文档),得到“物以类聚”的结果。通过实验对比,N-grams短语方法无论在查准率、查全率,还是F值、聚类用时,都比k-均值算法和AHC算法有更好的性能表现。

颜端武[7]2007年在《面向知识服务的智能推荐系统研究》文中认为“面向知识服务的智能推荐系统研究”属于图书情报与信息资源管理、信息检索与个性化服务相关研究领域。本课题研究来源于教育部人文社会科学重点研究基地重大项目“文献计量与内容分析的比较与综合研究”(项目号:02JAZJD870003),以及总装备部基础科研项目“基于门户网站的个性化信息服务技术方案及应用研究”(项目号:2004QB1505)。知识服务是信息服务的发展和延伸,它强调服务工作的个性化和专业化,强调服务过程中的知识增值和服务增值。面向知识服务的智能推荐系统IKRS是具有一定语义处理能力的、面向用户的个性化推荐式检索服务系统,可以克服传统信息检索系统存在的“服务个性化缺失”和“信息语义缺失”问题,其研究具有重要的理论和现实意义。首先,符合了信息检索语义化、信息服务知识化和个性化的发展潮流,代表了知识服务环境下信息检索系统的重要发展和应用方向;第二,为知识服务的发展推进提供有效的技术支持和保障,可以更好的满足用户的知识和信息需求;第三,丰富和发展中文信息资源组织、信息检索和个性化服务的相关理论、方法和技术,为相关研究和应用提供借鉴和参考。本文以知识服务为导向,以网络环境下数字信息资源的高效检索服务为目标,围绕面向知识服务的智能推荐系统中所涉及的相关理论、体系结构以及若干关键技术和应用问题进行了比较广泛和深入的研究。本文的主要工作和研究内容包括以下几个方面:(1)面向知识服务的智能推荐系统的框架和体系结构研究。本文对国内外有关知识服务、个性化服务和推荐系统以及语义检索等三个方面的研究进展进行了总结和评述,在此基础上,针对知识服务的内涵和要求,提出了一种五元组描述的、基于领域本体和数据挖掘的智能推荐系统框架。该系统框架改进和扩充了传统信息检索的四元组形式模型,用户模型、领域知识模型和文档模型三个核心要素之间构成了动态循环的交互处理机制,可实现概念级的资源检索和个性化推荐反馈。(2)领域知识本体的构建与可视化导航研究。本体是共享概念模型的明确的形式化的规范说明,表达是概念及概念之间的关系,是IKRS系统中进行知识内容语义化处理的基础。本文研究了基于本体的领域知识建模的相关理论、方法和工具,结合国内外有关本体工程方法,以中国图书馆分类法和国防科技叙词表为基础,通过五个步骤构建了一个军用飞机领域的中文知识本体OntoAvion。本文设计并实现了基于本体推理和可视化组件进行领域本体OmoAvion可视化导航的技术方案。(3)基于概念语义的中文文本相似性测度研究。IKRS系统中,文本相似性测度可用于用户提问后的资源检索以及基于内容的资源推荐等功能模块。本文首先讨论了文本相似性与相关性的概念,相似性测度的常用计算公式,并对目前比较典型的中文文本相似性测度的处理过程及其存在的问题和不足进行了分析。在此基础上,提出了一种简单有效的从领域本体和概念语义出发,基于文本概念向量和上位概念填充的文本相似性测度方法SCSM。实验测试表明,由于领域知识背景的导入,SCSM方法相对于传统基于词汇字面向量的测度方法在排序结果上更加接近人的判断,可以运用于实现概念检索以及基于内容的检索结果和推荐结果排序。(4)本文对IKRS系统的个性化推荐技术进行了研究和探索。首先介绍了用户兴趣建模的概念和主要任务,重点研究了细粒度用户兴趣建模和兴趣资源推荐问题。本文将知识本体运用于用户兴趣描述,提出了基于用户粗兴趣向量和近邻概念聚集发现细粒度用户兴趣并进行兴趣资源推荐的方法。实验测试表明,该方法可以较好的描述用户兴趣的构成及其发展变化,使得面向特定用户的兴趣资源推荐效果更为准确和可靠。本文进一步研究了IKRS系统中的协同推荐问题,分析了协同推荐的基本原理和典型技术,提出了基于细兴趣相似用户的协同推荐方法和基于加权关联规则的协同推荐方法。(5)本文最后基于Java平台,设计和实现了一个IKRS原型系统。该原型系统包括本体处理和转换、文档资源著录和加工、用户交互以及推荐预处理等四个功能模块,可自动记录用户的访问行为,根据历史记录发现用户细兴趣,开展多种资源推荐方式,综合了个性化推荐、概念检索、关键词检索以及可视化导航等交互元素。

程冲[8]2007年在《信息检索用汉语分词与未登录词识别技术研究》文中研究说明汉语分词是中文信息处理中最基础的部分。信息检索用汉语分词要求分词算法具备一定的歧义识别与未登录词识别功能。本文深入研究了未登录词识别技术,根据人在阅读时识别新词的思维过程,提出了一种新的未登录词识别算法,其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左方探测法、右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词。同时,算法通过对正向、逆向双向分词算法的结果进行比较,能识别出绝大部分的交集歧义,使得未登录词识别与切分歧义识别一体化,有效地解决了识别未登录词时导致的新的切分歧义问题。接着,本文改进了词表组织结构,改善了词表查询算法,在提高分词效率的同时也使得词表的囊括度更大、更新维护更加灵活。在此基础上,针对信息检索领域的特点以及对分词算法的要求,本文提出了汉语自适应分词算法,并设计开发出了汉语分词基础模块carmmLib.d11以及汉语自适应分词系统Carmm。carmm用户可以定制词表,定制分词结果以及可以对词表、未登录词表等词表进行管理维护等。Carmm还具备很好的扩展性和可移植性。最后,本文对Carmm与中科院的分词系统ICTCLAS开源版进行了全面测评,包括系统效能测评(系统基本性能测评、负荷测评、稳定性测评)、系统分词准确率测评、系统未登录词识别的准确率和召回率测评。在整个测评过程中,Carmm的分词速率可以稳定在100KB/s左右。在人民日报语料库的开放测评中,Carmm系统的分词准确率约为91.2%。在网络时文的开放测评中,Carmm系统的分词准确率约为90.1%,接近于ICTCLAS开源版的91.3%;未登录词识别的准确率约为91.2%,略低于ICTCLAS开源版的93.9%;而未登录词识别的召回率约为94.7%,明显高于ICTCLAS开源版的89.0%。与此同时,Carmm系统在分词速率、处理大量未登录词的速率稳定性、面对高负荷系统环境的健壮性、系统易用性、系统抗干扰性等方面都优于ICTCLAS系统开源版。

李琼[9]2008年在《汉语复句书读前后语言片段的非分句识别》文中研究指明为了满足中文信息处理事业的需要,在字处理和词处理阶段取得了初步成效后。句处理工作已经提上了重要的“议事日程”,因为自然语言理解归根结底还是对语言中一个一个句子的理解。汉语的句子包括单句和复句,其中复句的机器理解又是重难点所在;除了因为复句的机器理解必然要建立在单句理解的基础之上,还有一个重要的原因是复句的机器理解牵涉到分句之间层次和逻辑语义关系的划分。同时,随着计算机软硬件技术的提高,作为对基于规则的理性主义方法的一种补充,基于统计或实例的语料库方法日益得到了计算语言学家们的亲睐。正是在这种背景下,我们尝试建立一个“精加工”的现代汉语复句语料库,以期为复句的计算机理解提供相关语言知识和统计数据。本文只是这项语料库建设工作的一部分,主要目标是在进行语料库中复句语料的分句层次和关系划分以前,首先排除掉那些不参加复句层次和关系划分的书读前后语言片段,即对非分句语言片段进行识别和标注。主要内容如下:第一章首先回顾了前人对单复句纠结问题的研究,分析了单复句纠结的复杂现象,并尝试从认知语言学的“原型”角度看待这一客观事实,用“小句中枢”理论界定非分句(分句)的性质和范围;接着以标点符号为标记让计算机对分句进行了初步识别,排除了其中的一些非分句;最后对计算机不能以标点符号为标记识别的非分句进行了细致的分类描述,有汉语断句的随意性造成的非分句。有由于分句的某个组成成分比较复杂而促成的非分句,还有句子的某些特殊成分单独充当一个语言片段而形成的非分句。第二章首先介绍了词性和非分句的标注说明:接着根据“小句核心词”和“动词中心说”理论,利用标注的词性信息对一部分不包含动词的非分句进行了自动识别,并制定了一系列规则对这部分非分句实现类型的自动标注;最后,本章把一些由形式相对固定的短语充当的语言片段单独放入短语库中,通过制定一系列的短语库规则对它们进行自动识别。第三章利用句法信息实现了一部分非分句的自动识别和标注。首先简单描述了计算机处理自然语言的工作模式;接着讨论了两种类型的“形式标记”及其对识别和标注非分句的作用:一类是显性形式标记,如介词充当的开头标记,时间词、方位词等充当的结尾标记,另一类是结构助词“的”和表判断义的动词“是”;并在此基础上制定了计算机自动识别和标注非分句的另外一系列规则,添加到规则库中。第四章是基于前两章所编规则的实验及其结果分析。首先建立一个access数据库,把规则中出现的开头标记和结尾标记逐一录入到这个库中。在判断某个语言片段是否为非分句时采用简单的字符串匹配法,把每个语言片段的开头部分或结尾部分跟数据库里录入的开头标记或结尾标记进行匹配。匹配成功的就是非分句。接着通过人工方式逐条检验了规则的识别或标注正确率,并简要分析了产生错误的原因及今后的改进策略。要特别说明的是,第二章和第三章的规则都是在训练集中制定的,因此我们还要在训练集中统计这些规则的贡献率,然后把这些规则推广应用到整个复句语料库看正确率如何,同时不断改进和完善规则。第五章尝试综合利用句法、语义和搭配知识来识别一部分非分句,这方面的工作目前尚处于试验阶段。本章首先论述了语义知识在自然语言计算机理解中的重要性,接着介绍了国内外面向计算机研究语义的概况,并给出了本文所运用的语义理论。然后针对本项研究的具体情况阐述了工作前提,包括研究语料的选取和限定、解决问题的思路等。接下来就围绕语义角色、语义类别和语义特征等三要素,试着为108个动词的127个义项建立起动宾语义搭配框架,并提出了判断动词后面两个名词之间有无偏正关系的十八条形式标准,还运用所建立的搭配框架分析了几个子语料库2中的实例,提出了建立“动宾搭配频率表”的设想。末尾对全章内容有个小结。第六章根据邢福义先生的有关论著从理论上制定了一系列识别名词充当核心词的分句即名词谓语句的规则,尽管训练语料库中的实际用例甚少。这部分规则并没有来得及在程序上实现,也未曾针对实际语料进行过人工检验。

周蕾, 朱巧明[10]2007年在《基于统计和规则的未登录词识别方法研究》文中研究说明介绍了一种基于统计和规则的未登录词识别方法。该方法分为2个步骤:(1)对文本进行分词,对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,利用贪心算法获得每个碎片的最长路径,从而提取未登录词;(2)在上一步骤的基础上,建立二元模型,并结合互信息来提取由若干个词组合而成的未登录词(组)。实验证明该方法开放测试的准确率达到81.25%,召回率达到82.38%。

参考文献:

[1]. 基地统计和规则的中文姓名识别系统的研制[D]. 王省. 大连理工大学. 2000

[2]. 信息抽取算法研究[D]. 吴芬芬. 吉林大学. 2006

[3]. 规则与统计相结合的中文分词方法研究[D]. 张剑锋. 山西大学. 2008

[4]. 基于DCC动态流通语料库的中文组织名考察与研究[D]. 陈慧. 北京语言大学. 2008

[5]. 基于错误驱动学习和知网的中文人名识别[J]. 李波, 张蕾. 计算机工程. 2012

[6]. 基于N-grams短语的中文Web文本聚类及其预处理的研究[D]. 孙桂煌. 江西理工大学. 2008

[7]. 面向知识服务的智能推荐系统研究[D]. 颜端武. 南京理工大学. 2007

[8]. 信息检索用汉语分词与未登录词识别技术研究[D]. 程冲. 南京农业大学. 2007

[9]. 汉语复句书读前后语言片段的非分句识别[D]. 李琼. 华中师范大学. 2008

[10]. 基于统计和规则的未登录词识别方法研究[J]. 周蕾, 朱巧明. 计算机工程. 2007

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基地统计和规则的中文姓名识别系统的研制
下载Doc文档

猜你喜欢