句子级知识抽取在情报学中的应用分析,本文主要内容关键词为:句子论文,情报论文,学中论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
信息爆炸与知识相对匮乏的矛盾日益突出,如何解决这一矛盾,是决定情报学在新环境下能否快速发展的关键。要解决这一矛盾,需要信息组织从物理层次的文献单元向认知层次的知识单元转换[1],而知识抽取是能够完成这种转换的一种路径。
关于知识抽取的研究近几年引起了很多专家学者的重视,文献[2]对国内外知识抽取的研究进行了综述,文献[3]对知识抽取所涉及的技术进行综述,文献[4]对国外的知识抽取系统进行了调研与综述。《现代图书情报技术》于2008年第8期发表了一组关于知识抽取的专题论文,包括《当前知识抽取的主要技术方法解析》、《实体关系抽取的技术方法综述》、《一种从医学文本中实现自动关键词抽取和筛选的技术方法》、《当前知识抽取的主要技术方法解析》等[5-7],这组专题论文全面综述了以词为处理单元的知识抽取技术方法,并给出了一个关键词抽取的实例。近年来,命名实体识别以及实体关系抽取也取得一些较有成效的进展。通过在中国知网的中国学术期刊网络出版总库进行对比检索,可以分析句子级信息抽取或知识抽取的研究进展情况,如表1所示。
可见,在信息抽取或知识抽取相关研究中,涉及句子或句法的比较少,即使涉及句子或句法,也是对句子进行分析,以判定命名实体或实体之间的关系,以句子为抽取单位的研究还比较少。有些知识并不能用词或短语来完整地表达,要想完整地表达一条知识,句子是比较合适的单位。
图书情报领域存在着从信息服务走向知识服务、从信息管理走向知识管理,甚至从信息科学走向知识科学的趋势。而知识服务、知识管理、知识科学的基础是有可以操作的知识。因此句子级的知识抽取研究可以解决图书情报领域的诸多问题。文献[8]对信息抽取技术与情报学的关系进行了探讨,笔者则着重探讨知识抽取,特别是句子级知识抽取在情报学中的应用分析。
1 知识抽取的概念
知识抽取,是通过对文献进行内容分析处理,把文献中所蕴含的知识点(也称知识元)逐条抽取出来,对知识的属性进行标记,以一定形式存入知识库中。
知识抽取是一个新的研究热点,它主要指从文本信息中抽取知识单元。与知识抽取相近或相关的概念有很多,包括数据挖掘、知识发现、数据库知识发现、知识挖掘、知识元挖掘、信息抽取、信息发现、智能数据分析、探索式数据分析、信息收割、数据考古等。这些概念看似相近,实则不同。概念不清晰,会给相关研究与学术交流带来很多不便,例如,有人对某些数据仅仅作了一些统计,就称之为数据挖掘;有人从网页或文献中抽取了一些实体(如人名、地名、机构名)就称之为知识抽取[9]。
与知识抽取最接近的几个概念是知识获取、知识发现与信息抽取等。知识抽取是知识获取的一种方式,是知识发现的基础,与信息抽取的过程与方法有共同之处,但处理对象与结果又不同于知识发现。知识获取有非自动知识获取、知识抽取、机器学习知识3种方式。知识抽取的知识蕴含于文本中,是显性的,是人类总结而来的;而数据库知识发现的知识暗含于数据中,是隐性的,是计算机总结出来的;知识抽取把文献中已有的、现成的知识抽取出来;而知识发现是发现未知的、新颖的、潜在有用的知识。信息抽取的结果是信息,知识抽取的结果是知识,主要是规则性知识、经验性知识。信息抽取与知识抽取的处理对象有所不同,信息抽取的结果以短文本为主,重在获取命名实体以及实体之间的关系等信息,知识抽取的结果以句子或相当于句子的复杂文本为主,旨在获取表达完整意义的知识元。信息抽取与知识抽取尽管处理对象与抽取结果的形式不一样,但从抽取过程来讲,这两者之间又存在着相互借鉴之处。
2 知识抽取的对象与流程
2.1 知识抽取的对象
知识抽取的数据对象有多种格式,按照文本的结构化程度将其分为结构化文本、半结构化文本和非结构化文本。结构化文本包括词典、主题词表、本体、大百科全书等。许勇、宋柔对《中国大百科全书》的知识点表述进行了分类与总结,提出了一种基于隐马尔科夫模型的方法,利用知识点在条目文本中的转移规律以及知识点的词特征分布来判断每个句子的知识点类别[10]。
半结构化文本主要以网络文献为主,处理起来相对容易,数据的获取也较容易。张丙奇等根据规则开发了一个对企业相关属性实体信息进行抽取的CAIES系统,根据中文企业网页对不同企业属性描述的特征,采用了不同策略来对这些企业属性进行识别和抽取,满足从网上获取企业竞争情报的实际需求[11]。
非结构化文本主要指从文献中抽取知识[12-16]。学术文献里蕴含着丰富的知识,凝结了科研工作者的成果,人们需要对这些知识进行有效的组织和管理,但目前的组织与利用还都是以篇章为单位的,如何打破以篇章为单位的组织方式,以更小的粒度进行组织与管理,是文献处理的一种发展趋势。
2.2 知识抽取的流程
由于绝大部分知识是用文本描述的,对文本进行分析处理必然涉及自然语言处理技术,因此知识抽取无法回避自然语言处理的问题。自然语言处理主要从语言的角度对相关内容进行分析,包括句子切分、自动分词、词性标注、词义标注、句法分析、句义分析、语段分析及语用分析等过程。在这些过程中,需要关键词词库、概率词典、语义词典、句法规则、领域叙词表与领域本体等相关资源的支撑[17]。
王璐等针对科技术语的属性研究还不十分广泛,提出了一套科技术语属性的抽取流程:定义获取阶段、属性获取阶段、属性值计算阶段和分析阶段。基于规则的知识抽取主要包括文本预处理阶段、规则构建阶段、知识抽取阶段。其中规则的形成与构建是核心,规则的有效性与覆盖度是决定抽取效果的关键[18]。
3 知识抽取的典型应用系统
信息爆炸与知识相对匮乏的矛盾日益突出。如何从大量的信息中抽取人们所需要的知识,是知识抽取所要研究的内容。知识抽取通过自动分析文本来抽取知识点,分别以面向对象的形式和逻辑命题的形式存储到数据库里,而这种数据库就相当于“结构化的百科全书”。通过知识抽取可将文献处理的颗粒度从篇章层次细分到句段层次(从以篇章为单位转换成以知识元为单位),真正实现文献在知识单元上的组织、管理和利用,实现信息组织从物理层次的文献单元向认知层次的知识单元转换,从而改变传统的知识组织和管理方式。
通过知识抽取研究,有望为信息泛滥与知识贫乏问题提供解决方案和技术路径。同时,它可用于学术文献中的知识提取,如文献自动综述;还可以用于学术规范,如学术论文抄袭的自动判定以及参考文献自动标注等。因此,开展本项研究不仅具有一定的理论价值,而且还有较好的实际应用价值。
知识抽取在图书情报领域的应用系统如图1所示。以句子匹配分析为处理重点的知识抽取研究有望解决以下几个方面的问题。
图1 知识抽取典型应用系统
1)学术抄袭检测系统。抄袭检测系统是一种实用的工程系统,技术上实现起来比现在的搜索引擎更简单。抄袭检测系统难点在于数据方面,主要有以下3个难点:①真正的电子版数据比例不高,扫描数据仍占相当大的比重。②没有一家数据库商能提供论文、报纸、网页、图书、专利等十大文献源。③跨语言匹配问题,现在引用或抄袭英文文献越来越多,中英文之间的句子匹配难度还是相当大的。
2)参考文献自动标注系统。抄袭检测是一种后控检测,如果作者在论文投稿之前用系统检测一遍,就可以实现参考文献的自动标注。现在已有一些参考文献的管理软件,如EndNote,NoteExpress等,可以很好地管理并标注参考文献。但是标注在文章的哪个地方,这些软件实现不了,还需要人工标注。如果文章写完了,由参考文献自动标注软件直接在文中相应的位置进行自动标注,会大大减少作者标注时间。抄袭检测系统与参考文献自动标注系统技术实现上几乎一样,只不过用途不同而已。
3)文献自动综述。学术抄袭检测系统检测出相同的句段,而不同的句段按照一定顺序组合在一起,即可形成综述报告。从理论上来讲,如果运用句子匹配分析技术,把相关主题的文章综合到一起,进行句子级的滤重与重组,就可以实现综述型文章的自动完成,即文献自动综述。文献自动综述主要指针对某一专题的所有相关论文的内容按照知识属性重新组织起来,形成内容全面、论述详尽的主题研究进展报告。文献自动综述系统有利于科学研究初期的文献调研,可以实现科研项目的辅助查新,完成情报检索与获取的初步筛选与甄别。
4)构建知识库,支撑知识服务。目前,数字图书馆是以文献(篇)为单位进行存储与管理的,通过知识抽取,可以使其变成以句段甚至以知识点为单位进行组织与存储。知识抽取将文献处理的颗粒度从篇章层次细分到句段层次,真正实现在知识单元上的组织、管理和利用,从而改变传统的知识组织和管理方式。清华同方的科技元数据库(http://deine.cnki.net)以及Google的定义服务(用define:进行检索)就是以知识元为单位的知识组织与检索服务。这种以知识元为单位的知识组织有利于精确检索,形成以内容为导向的知识链,并为知识发现提供必要的知识基础单元。
4 知识抽取的难点与关键技术
知识抽取的研究取得了一些进展,但总结起来主要存在以下几个方面的不足。
1)缺少从学术文献特别是期刊论文中进行知识抽取的研究。科学文献中蕴含着大量知识,有着很高的应用价值,特别是期刊论文,凝聚着科学家的研究成果与智慧,论文中知识点非常丰富,而且比较新颖,但从学术文献特别是期刊论文中抽取知识的研究很不充分。充分分析科学文献的特征与结构,经过自然语言处理的各个分析层面,从自由文本(未经过人工标注)中抽取知识,值得进一步地研究和探讨。
2)抽取的模式缺少对句子及文献结构进行深入分析。句子是组成文章的重要单位,也是表明作者行文观点的最小单位。一般来讲,词不能完整地描述一条知识,能够完整描述知识的最小单元是句子。围绕句子的分析处理应该是文献处理的重点,特别是从文献中抽取知识。句子匹配分析来源于机器翻译,在自动摘要与自动问答等领域得到了迅速发展。相似句子判定主要考虑词形相似度、词序相似度、句型结构相似度等指标,以及在此基础上构建的向量空间法、依存结构法、编辑距离法。句子匹配分析的研究有很好的基础,但把句子匹配分析用于知识抽取的研究并不多见。以句子为单位进行知识抽取具有很强的可行性与优越性。
3)对于抽取的知识缺少知识属性的标记,而知识属性的方案研究尚属空白。知识工程领域对知识表示的方法研究很多,如一阶谓词表示、产生式表示、框架表示法、语义网表示法等。元数据的研究比较多,但都是针对标题、出处、作者、语种等外部特征。对科学文献的内容进行细分描述的研究很少,没有深入研究内容元数据,如定义、分类、发展历史、应用前景等内部构成。本研究把期刊论文切割成句子,之后与数据库里的句子进行匹配,确定新句子,然后对新句子进行知识属性的标记,把句子标记成定义、特点、意义、分类、发展历史、关键技术、实验数据、实验结果、发展趋势等知识属性。总结所有的知识属性,按照层面划分成顶级属性与次级属性,形成完整的知识属性方案,即内容元数据方案。
5 知识抽取的3个转向
通过上述分析,知识抽取的研究主要向以下3个方面发展:抽取对象转向以学术文献为主,抽取目标转向以构建知识元数据库为主,中间的处理过程转向以总结文献特征与规律并利用这些规律进行抽取为主,如图2所示。
图2 基于IPO的知识抽取研究转向
1)抽取对象转向以学术文献为主。目前,知识抽取对象主要集中在词表、百科全书、网页等文献。词表的结构较为简单,抽取较容易一些。百科全书的规范化程度比较高,抽取也不困难。而网络文献特别是网页内容形式各异,内容质量参差不齐,很多网页的内容并没有经过同行评议或审核,抽取结果的可靠性大打折扣。期刊论文、学位论文、会议论文、图书、科技报告、专利说明书等文献载体,知识丰富、结构复杂、质量可靠,是图书情报的研究对象,也是图书馆学情报学与计算机等科学的区别之一。以学术文献为研究对象,更能体现图书馆学情报学的特点,从而增加学科的生命力。知识抽取的对象会逐渐地转向以科学文献为主。
2)抽取技术转向以文献内容结构分析为主。现在的元数据只是描述文献外部信息,如作者、题名、出处等,并没有深入到内容进行描述。只有对学术论文的写作结构、写作手法、句型结构等进行规律性的总结,建立起研究背景、研究方法、关键技术、应用前景、发展趋势等内容元数据,才会真正实现文献内容的分析与解剖。科学文献有综述型、实验型、过程型等类型,不同的类型有着不同的写作结构(篇章结构),不同类型的文章有着不同的写作手法(句型与语用),每个问题都有着几种常用的句型。充分总结文献的类型以及问题表述的方式,把这些知识抽取所用到的知识形成规则(即元知识),有助于深入到内容层面进行分析抽取。
3)抽取目标转向以构建知识元数据库为主。情报领域存在着从信息服务走向知识服务,从信息管理走向知识管理,甚至从信息科学走向知识科学的趋势。而所有这些发展趋势的根基是拥有知识,都是要实现从信息到知识的转化。目前,知识资源库已经非常丰富,而以知识元为组织存储单位的知识库还很缺乏,其原因是缺少从知识资源中获取知识元的有效手段,知识抽取恰恰可以担当此任。知识抽取的任务就是从文献中抽取知识元,形成知识库,在知识库的基础上实现智能语义精确检索、数据库知识发现、文献自动综述等智能信息系统,促进现代网络信息环境下文本信息的智能分析处理与应用。
收稿日期:2011-09-27