基于百科词典的知识获取系统的研究与实现

基于百科词典的知识获取系统的研究与实现

许勇[1]2001年在《基于百科词典的知识获取系统的研究与实现》文中研究指明从各种自然语言文本中获取知识是自然语言处理技术的重要应用,能有效地帮助人们搜索、获取知识,具有较大的应用前景。从文本中获取知识必须限制文本的范围。词典文本具有知识密集、较有规律性的特点,因此把机器获取知识的范围限制在词典文本是比较自然、有效的方式。国内外这方面的研究都有所开展,但整体上处于探索性阶段。本文描述了从百科辞典中获取知识的探索性的研究工作。本文首先介绍了与文本知识获取关系密切的、较活跃的文本信息提取技术的研究情况,以及它和文本知识提取的关系。本文从信息提取的角度出发研究知识获取任务,实现了基于《中国大百科全书》的、限定范围内的试验性百科词典知识获取系统。具体工作包括:利用分词工具进行了初步的词条分类;在词条分类的基础上,对处理范围内的词条文本进行观察,以人工方式获取其中目标知识的基于语义特征的模式规则;利用YACC具对模式规则进行语法分析,进而抽取目标知识。目前,知识获取的词条范围包括《中国地理》卷目中行政地名词条和《美术》卷目中西方美术家词条。文中给出了试验结果及分析。试验表明,在处理范围不大,目标知识项目不多且不太复杂的情况下这种方法能取得比较好的性能。但文本知识获取总的来说是一项比较困难的研究,本研究中实现的系统还有待进一步提高改善。

蔡盈芳[2]2011年在《基于本体的航空产品知识库构建研究》文中研究指明本论文根据当前我国在知识管理领域和知识工程领域对知识表示、获取、利用等方面的理论和实践成果,基于当前我国航空工业对知识的迫切需求和知识管理现状,研究了航空产品全生命周期知识库(Aviation Product Lifecycle Knowledge Base简称APLKB)构建的理论与方法,对APLKB的框架、内容和功能等进行了论述,就APLKB中知识的表示、获取、利用等关键技术进行了研究,主要研究内容如下:(1)在对知识管理现状研究的基础上,以现有的知识管理和知识工程有关理论为基础,针对航空产品知识管理存在问题和对知识管理的需求,提出了航空产品全生命周期知识库理论,对该理论的主要体系框架进行了设计,明确APLKB定位、特征和功能。(2)在研究航空产品全生命周期活动模型的基础上,提出了航空产品全生命周期知识分类的来源原则和主题原则,运用上述原则设计了航空产品全生命周期知识内容框架模型和主题框架模型。(3)对APLKB中知识表示方法进行了研究,在研究中分析几种知识表示技术的优缺点,其中特别对本体用于知识表示的优点进行了分析,然后重点就如何利用本体进行航空产品全生命周期知识表示进行了论证。设计出了航空产品全生命周期知识库的本体表示模型,提出了基于四层架构的航空产品知识表示法。(4)对航空领域本体构建理论进行研究,利用基于叙词表的本体构建方法,提出了基于《中国航空百科词典》和飞机零件明细表的航空领域本体构建方法。该本体构建方法领域专家参与少,效率高。利用该方法构建了典型的航空领域本体。在本体语义映射算法中返回语义关系而非相似性系数。(5)知识获取一直是知识管理的瓶颈,本文对APLKB中的知识获取技术进行了研究,通过对基于规则的文本挖掘算法的改进,提出了以企业业务系统数据为来源的基于多层规则和文本挖掘的知识自动获取方法,并对知识获取技术中的语义标注进行了改进。(6)对APLKB中知识检索利用进行了研究。即如何通过本体论的运用,检索出知识库的知识,实现航空产品计算机的辅助设计与制造。论述了基于本体的知识检索和知识推理的原理,重点对基于实例的知识重用和快速成型的知识重用进行系统论述,对基于实例的知识重用中的实例检索技术算法进行改进,并根据经验,总结了基于实例的快速成型的知识重用方法。为进一步验证技术的可行性,设计了某航空某研究所的航空产品知识库系统软件原型。

许勇, 宋柔[3]2002年在《基于百科词典的知识获取系统的研究与实现》文中指出从各种自然语言文本中获取知识是自然语言处理技术的重要应用。本文描述了从百科辞典文本中获取知识的探索性的研究工作,介绍了一个实验性的,限定范围的百科辞典知识获取系统。具体工作包括:利用分词工具进行初步的词条分类:在词条分类的基础上,对处理范围内的词条文本进行观察,以人工方式归纳其中目标知识的基于语义特征的模式规则;利用YACC工具对模式规则进行解释,进而抽取目标知识。文中给出了试验结果及分析。

王迎春[4]2010年在《基于实体—属性框架的航空领域知识库的构建及应用》文中进行了进一步梳理知识库是各种信息处理系统不可或缺的一项基础性资源。然而目前比较着名的知识库大都是采用人工方式或者在领域专家参与的情况下构建的,自动构建知识库还是一大难题。针对这一问题,本文提出了一种基于实体-属性框架的航空领域知识库的自动构建方法,对实体的各个属性侧面进行提取后以自然结构化的框架方式表示出来,并将其应用到信息检索系统中,有效地扩展了原始查询关键词,提高了检索性能。本文的工作主要包含以下几部分:首先,本文着重研究了知识库构建中的关键技术,即知识获取技术。按照不同知识类型,即实体之间的关系信息及实体的属性信息,本文分别采用了基于SVM的实体关系获取方法和基于多策略的属性信息获取方法,其中,前者是以两实体的释义项为伪文档,采用SVM分类器进行类别决策,将实体关系归到人工定义好的8种关系类型中;后者从前者无法充分利用释义项资源的角度出发,对输入术语的释义项利用规则和模板等进行属性信息的获取。最后,将获取的知识填充到实体-属性框架中,构建了一定规模的航空领域知识库。本文针对传统的基于关键字的检索技术存在的单纯词形匹配的缺点,提出利用已经构建好的航空领域知识库,对检索的原始关键词进行扩展,扩充为语义上相近的关键词集合,进行二次检索,提高了检索性能,得到了更好的检索结果。

李海斌[5]2015年在《俄国语言学研究中的词典化现象》文中指出论文从笔者个人的研究与观察出发,大胆提出“俄国语言学研究中存在词典化现象”这一命题,并对“词典化”概念与内涵作出自己的界定。论文主体部分比照词典类型的相关理论,主要以阿普列祥与卡拉乌洛夫的相关研究成果为例,论述词典化现象的多种表现,以及词典化现象与词典类型理论的辩证关系。论文进而以更广阔的社会文化视角,从俄国语言学发展历程的内部与外部两个方面,深入阐释词典化现象之所以在俄国产生的内在根据与外部条件。论文最后针对我国建设辞书强国的追求与语言教学的现状,分析俄国词典化现象可能带给我们的思想启示与具体的方法思考。

李文博[6]2012年在《基于主动学习的本体概念关系辅助判断技术研究》文中研究说明本体是不同领域之间共享交流的重要工具,也是未来语义网中重要的组成部分之一。因此,如何快速并准确的构建本体具有重要的研究意义。本文在分析当前现有的本体构建技术的基础上,重点研究本体概念关系的辅助构建技术,主要工作包括以下几个方面:首先,本文在前人的研究基础之上,提出了基于主动学习的本体概念关系辅助判断方法。依据关系判断任务特点将主动学习应用到本体概念关系的辅助判断中。对边缘采样、熵采样、最不确信采样等主动学习查询生成策略进行了比较研究。在此基础上,从实际应用角度出发,讨论了在叁种不同样本初始情况下主动学习技术的应用。对于初始样本正反例充足的情况,采用基于熵采样和边缘采样产生查询;对于初始样本仅有正例的情况,依据样本相似度生成候选反例;对于缺乏初始样本的情况,依据概念对的共现文本频度以及在文本中的间隔距离,生成候选正例和候选反例。实验结果表明,在本体概念关系判中使用主动学习技术能用较少的训练样例获得较高的关系推荐准确率。其次,搭建了基于主动学习的本体概念关系辅助判断系统。该系统以概念对集合为输入。首先,对输入集合中的概念对进行关系预判。然后,利用主动学习技术对预判结果进行筛选,挑选出具有较低关系判断确信度的概念对交由用户确认。最后,将用户确认后的概念对与具有较高关系判断确信度的概念对一并存入概念关系库。该系统的最大特点是能够对概念对集合进行有针对性的筛选,减少用户参与程度。最后,以《中国航空百科词典》作为数据源,构建了航空领域概念关系库。规划出“主体-部件”、“主体-材料”、“主体-用途”、“主体-制造与工艺”、“主体-属性”5类概念关系。利用上述技术,共获得4000对概念关系对。

苏永浩[7]2016年在《基于知识图谱的跨语言实体链接与语义查询》文中研究表明近些年,数据的关联语义信息受到人们的普遍关注,语义查询技术取得了长足进步。知识图谱作为语义查询的重要支撑,包含大量命名实体及语义关系,提供开放的知识访问接口,能够一定程度反映真实世界的实体间关系。相比于YAGO、 Probase等具有丰富实体和语义关系的英文知识图谱,中文知识图谱仍处于发展阶段,实体及实体间关系不丰富,难以有效支持中文语义查询。一个很自然的问题是,如何利用成熟的英文知识图谱对中文数据进行语义查询。本文提出一个基于跨语言图谱的跨语言查询框架,并基于图模型完善跨语言图谱的结构语义信息,设计并实现了跨语言查询应用系统,提供在线的跨语言查询服务。基于实际百科数据进行测试,测试结果验证了本文提出的跨语言查询框架的有效性。本文的主要贡献包括以下四点·提出跨语言图谱概念与基于跨语言图谱的跨语言查询框架。该框架在线解决存在未知跨语言链接的中文实体提及查询问题和实体消歧结果重排序问题,实现准确的跨语言语义查询。·提出一种分类-排序模型与基于关系图的随机游走算法,解决中英文Wiki-Sketch(关键百科)之间跨语言属性标签链接、属性缺失语义发现、错误链接属性识别、缺失属性补全等关键问题。Wiki-Sketch是抽取自百科数据的面向程序的、结构化的实体集。·提出一种结合跨语言实体链接,以及跨语言属性标签链接的缺失属性补全方法,补充了中文维基百科80,566个实体的347,124条缺失信息框属性,以及60万中英文维基实体的4,500多万条缺失链接属性。·设计并实现了跨语言语义查询系统,在线提供并支持多种客户端的近实时访问。借助用户查询历史和用户反馈,实现查询的自适优化,提高查询准确性。本文从跨语言查询框架的构建、跨语言图谱结构语义信息完善、跨语言查询系统效果提升叁个方面开展研究,实现了中文实体的跨语言语义查询,对中文语义信息挖掘与补全有重要意义。

孙娜[8]2014年在《耗散结构理论视阈下的双语词典出版研究》文中提出辞书是一个国家、一个民族文化的集中体现。辞书出版家陆尔奎说过“一国之文化,当与其辞书相比例,国无辞书,无文化可言也。”蔡元培指出:“一社会学术之消长,观其各种辞典之有无与多寡而知之。”可见,辞书在国家和民族文化建设中的重要作用。双语词典是辞书的重要组成部分。作为工具书,双语词典的出版可以满足人们学习外语的需求,增强人们的外语水平。作为跨文化传播媒介,双语词典的出版可以促进不同语言和文化的传播与交流。作为语言、文化普及工具,双语词典的出版有助于推广民族语言和文化,增强国家文化软实力,对我国的经济建设、科技发展、文化繁荣等都具有很强的实用价值。改革开放以来,中国的双语词典出版得到快速发展,但在市场经济条件下,双语词典出版也出现了一些消极现象:盗跖横行、劣品充斥、抄袭成风、秩序混乱。如何使双语词典出版从混乱走向有序,拷问着辞书出版人的神经。耗散结构理论是广泛用于人文社会科学各分支的研究方法论体系,它研究一个复杂开放系统如何通过与外界物质、信息、能量的交换,从混沌无序走向稳定有序,或者从较低的有序状态向较高的有序状态演化。目前,将耗散结构理论应用于出版研究的文章极少,对双语词典出版的系统研究暂付阙如。文章从耗散结构理论的视角出发,把双语词典出版视为一个开放的远离平衡态的非线性系统,分析了双语词典出版系统的耗散结构特征和主要熵增。在全面统计数据的基础上,论文结合外部熵流的变化,分析了改革开放以来我国双语词典出版系统的发展演变趋势及阶段特点,另一方面结合内部熵增的因素,分析了双语词典出版系统积累己久的问题。最后,针对存在的问题,文章从引进外部负熵和抑制内部熵增的角度提出了实现双语词典出版系统整体功能优化的策略,以期为双语词典出版的有序发展提供参考意见。

郑泽芝[9]2005年在《基于动态流通语料库(DCC)的汉语字母词语识别及考察研究》文中认为字母词语是汉语中出现的一种新型外来语(如:WTO、CT、OA等)和构词形式(如:HSK、GB、3C等),目前,它们在汉语中的使用呈现飙升的趋势,而且一定程度上存在使用形式混乱,同一个概念两岸四地有多种表示,如不及时发现、收集和规范,势必影响科技信息的理解、交流和汉语汉字的信息化发展。在大规模真实文本中对字母词语进行考察分析的结果是国家语言文字管理部门制订规范的一个重要依据。 字母词语尤其是那些与汉字搭配组成专名、术语的字母词语,它们作为中文信息处理自动分词中的未登录词语,信息检索中的叙词,机器翻译中的翻译单位,自动分类、自动文摘、语音识别的关键词语和命名实体……,其正确识别与否,将直接影响到语言信息处理系统的召回率和准确率。 为此,我们基于北京语言大学应用语言学研究所的DCC动态流通语料库,选择2002年全年的《人民日报》《北京青年报》《羊城晚报》网络版文本,共1亿66万字的语料,建立了字母词语考察语料库。在此基础上,对字母词语的使用状况进行考察,并寻找一种快速有效的字母词语识别方法。 本文对字母词语的使用状况和字母词语的自动识别进行了较深入的分析和研究,取得了以下几项有特色的研究成果: (1) 提出了形式化的字母词语工程定义(ELWP~1)。这个定义从面向信息处理、面向字母词语考察的角度出发,对字母词语进行了工程界定(以下的字母词语均指ELWP),并通过字母词语自动提取系统和标注系统显示了该定义的可操作性。 (2) 通过对字母词语自身的特点和其出现的上下文语境的深入分析,提出了以字母串为中心的“中心扩展的规则+统计”的字母词语自动提取算法,并设计和实现了一个字母词语自动提取系统。实验结果表明该系统的正确率达到了82%左右。本系统还特别为字母词语双语对释的情况设计了编码系统,进行了专门的识别处理,从提取结果直接可以得到一批字母词语双语资源,目前已取得712条。 (3) 建立了56万字经人工校对的字母词语标注语料库,其语料可以用作字母词语自动识别和提取的训练语料与测试语料。 (4) 在自动提取规则集基础上,采用基于错误驱动的机器学习策略对已有规则

叶其松[10]2010年在《术语学核心术语研究》文中研究说明任何学科的建立都离不开一套理论系统和可用于阐释相应理论的术语系统,它们是以少数核心术语为基础建立起来的。“术语学”、“术语”、“术语集”、“术语系统”、“术语编纂”、“术语标准化”等正是建立术语学学科必不可少的核心术语。本文从上述术语出发,考察其在不同语言中的形成和发展过程,分析其所称谓的概念内容,揭示与其相关的术语学理论。论文注重比较上述术语与其他相关术语的关系:从术语学的独立学科地位出发,重新审视术语与词、术语编纂与词典编纂的关系;基于不同术语学派理论系统的特点,界定科学语言、专用语言、次语言,术语集、名称集、行业用语,标准化与规范化,标准化与整理、统一、协调等术语的范围;运用术语标准化的方法,辨别术语和名词的关系;透过术语所称谓概念的差异,指明区分术语和术语集的必要性等。因此,论文围绕上述核心术语,揭示概念内容,比较不同学派的理论差异,确定相关术语的关系并尽力划清它们之间的界限,这反过来为上述术语学术语的确定提供依据,为建立术语学术语系统奠定基础。

参考文献:

[1]. 基于百科词典的知识获取系统的研究与实现[D]. 许勇. 北京工业大学. 2001

[2]. 基于本体的航空产品知识库构建研究[D]. 蔡盈芳. 北京交通大学. 2011

[3]. 基于百科词典的知识获取系统的研究与实现[C]. 许勇, 宋柔. 第一届学生计算语言学研讨会论文集. 2002

[4]. 基于实体—属性框架的航空领域知识库的构建及应用[D]. 王迎春. 沈阳航空航天大学. 2010

[5]. 俄国语言学研究中的词典化现象[D]. 李海斌. 黑龙江大学. 2015

[6]. 基于主动学习的本体概念关系辅助判断技术研究[D]. 李文博. 沈阳航空航天大学. 2012

[7]. 基于知识图谱的跨语言实体链接与语义查询[D]. 苏永浩. 华东师范大学. 2016

[8]. 耗散结构理论视阈下的双语词典出版研究[D]. 孙娜. 西南交通大学. 2014

[9]. 基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D]. 郑泽芝. 北京语言大学. 2005

[10]. 术语学核心术语研究[D]. 叶其松. 黑龙江大学. 2010

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于百科词典的知识获取系统的研究与实现
下载Doc文档

猜你喜欢