信息抽取技术在数字图书馆中的应用研究,本文主要内容关键词为:数字图书馆论文,技术论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
任何一项技术的研究都不能孤立存在,需要相关技术的补充与推动。自然语言处理技术、人工智能技术、语言工程技术的发展推动了信息抽取技术走向成熟。当前国外对信息抽取技术研究较多,例如AVENTINUS[1]、ECRAN[2]、GATE[3]、LaSIE[4]等研究项目,长期对信息抽取及自然语言处理技术进行跟踪研究,同时也形成了如ANNIE[5]、MELITA、AMILCARE等较成熟的系统。
随着数字图书馆采集技术、存储技术、检索技术的进步,数字图书馆的技术瓶颈日益集中在数字信息的深层次分析处理之上。面对数量日益庞大的数字信息堆积,如何高效地对这些数字信息进行加工处理,有效地实现数字资源的开发利用成为当前数字图书馆研究者必须面对的一个课题。目前国内将信息抽取技术应用于数字图书馆信息处理中的研究比较少见。本文基于这种考虑,探讨一下信息抽取技术在数字图书馆中的应用前景。
1 信息抽取概念与技术简介
1.1 信息抽取的概念
信息抽取(Information Extraction,IE)是自然语言处理 (Natural Language Processing,NLP)研究中一个正在走向成熟的研究领域。IE的目标是自动实现从文本信息中抽取出预先想要的信息(知识),它提供了一条从浩瀚的信息堆积中抽取出与用户相关的信息的一条思路。
作为NLP中一个发展得很快的研究领域,对于信息抽取的表述很多,这些表述方式尽管不同,但对于信息抽取具有的一些特点我们认为是可以取得共识的:①信息抽取是当前文本挖掘中最为突出的一项技术。这一技术结合了自然语言处理、语料资源以及语义技术,目前正趋于成熟。②信息抽取不是从文件集中选择一个与用户需求相关的子集(如信息检索),而是从文献中直接抽取出与用户需求相关的事实或数值信息。③从另一个方面看,信息抽取可以作为一个从无结构的自由文本或其他信息资源中抽取出结构化的、无二意性信息的过程。由于具有这一特性,信息抽取可以成为元数据抽取、信息分析、信息索引及检索的基础[6]。
信息抽取虽然需要对文本进行一定程度的理解,但与真正的文本理解还是不同的。在信息抽取中,用户一般只关心有限的感兴趣的事实信息,而不关心文本意义的细微差别以及作者的写作意图等深层理解问题。因此,信息抽取只能算是一种浅层的或者说简化的文本理解技术[7]。
1.2 信息抽取与信息检索
与信息抽取密切相关的一项研究是信息检索,但信息抽取与信息检索存在差异,主要表现在3个方面:①功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。②处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合,不需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。③适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。
另一方面,信息检索与信息抽取又是互补的。为了处理海量文本,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入;而信息抽取技术又可以用来提高信息检索系统的性能。二者的结合能够更好地服务于用户的信息处理需求。
1.3 信息抽取的类型
信息抽取技术有多种分类方式。根据各种工具所采用的原理分为5类:基于自然语言处理方式的信息抽取、包装器归纳方式的信息抽取、基于Ontology方式的信息抽取、基于HTML结构的信息抽取和基于Web查询的信息抽取[8]。
较具有代表性的MUC(Message Understanding for Comprehension)系列研究项目[9]根据信息抽取内容以及所抽取出的信息的集聚水平的不一样,将信息抽取分为以下的几种主要类型:NE命名实体识别(Named Entity Recognition)、MET多语种实体识别任务(Multi-lingual Entity Task)信息抽取、TE模板元素(Template Element)信息抽取、CO参照(Coreference)、TR模板关系(Template Relation)信息抽取、ST情节模板(Scenario Template)信息抽取。其中NE命名实体识别是信息抽取中最为基础的类型,它仅仅需要系统能够从众多信息中标识并分离出相关的命名实体。NE具有非常直接的实用价值,在对文本中的名称、地点、日期等进行标注之后,即提供了对这些信息进行检索的可能。对于许多语言处理系统,NE都是其中一个很重要的组件[6]。目前命名实体识别的难点在于:在不同领域、场景下,命名实体的外延有差异;数量巨大,不胜枚举,难以全部收录在词典中;某些类型的实体名称变化频繁,并且没有严格的规律可以遵循[7]。
1.4 信息抽取的方法与过程
当前,设计信息抽取系统的方法基本分为两种:基于知识工程的方法和基于自动训练的方法。①知识工程方法。由专家对语料库进行分析、调整从而人工制定规则、模板。比如对命名实体(人、公司、地方、单位的名称)的识别,可以采用基于规则的方法,采用有限状态自动机来实现。②自动训练方法。给出标注的例子文档集,通过机器学习来推导模板和模板的自动填充规则,也可以应用统计学的方法来抽取,比如中文人名的抽取[10]。
基于知识工程的信息抽取系统主要有以下特点:基于规则;需要有经验的语言工程师来开发;个人的直觉能够对系统的性能起到很大的影响;性能较好;开发周期较长,一旦成形之后不容易进行修改。基于自动训练的信息抽取系统采用统计或其他机器学习方法,开发者并不需要掌握语言工程知识,但需要大量的经过标注的训练数据,如果需要对这类系统的核心进行修改,则相应的所有训练数据也需要重新标注。这两种信息抽取系统尽管采用的方式不同,但信息抽取的基本过程大致相似。Sheffield大学的GATE项目组认为,典型的信息抽取系统应当包括三大过程:预处理过程、命名实体探测过程和事件探测过程[6]。
2 信息抽取在数字图书馆中的应用
信息抽取作为一项日渐成熟的技术,在信息处理自动化中具有重要地位。在数字图书馆中,运用信息抽取技术,可以对数字信息标引、知识获取、数值库建设带来巨大的推动。
2.1 构建模板挖掘平台
模板挖掘,指基于自然语言文本中的模式识别和模式匹配,从数字文献和文本数据库中抽取不同种类的信息。在数字图书馆环境下,采用模板挖掘抽取数字资源中有价值的信息进行数字内容的自动标引与元数据获取是一种应用策略。
1)自动建立数字文献的引文数据库。通过快速而简单地审查一些数字图书馆的电子期刊发现,模板挖掘可用于自动地从在线文章中建立引文数据库,这种引文数据库可在后来被用于各种引文分析和其他目的。这些数据库包含ISI数据库熟悉的一些信息,例如引用作者,引用作者的地址,引用论文的标题,关键词,以及作者,标题,引用论文的书目信息等等。
2)自动抽取电子期刊新闻条目信息。电子期刊通常包括新闻条目,用简单的模板挖掘方法能抽取一些重要的信息用于建立数据库或者其他目的。通过对D-Lib Magazine第九页的浏览发现,有一块叫作“Goings on”的区域,提供了关于“conferences/seminars/workshops”的信息。这预示着构造一个简单的模板就可以抽取关于各种即将召开的会议、研讨会等信息。特别的信息,例如地点,日期,Web地址等等,也能被这样的模板抽出。当然,这样的模板挖掘方法需要规范的格式与设计。
3)自动识别用于研究的资金/赞助机构。通过浏览文章中的“致谢”一节,可以发现它们包含研究的资金/赞助机构的名字,地址,授权号,等等。因此对电子期刊中各种文章的研究能帮助产生一种模式,通过这种模式形成适当的模板,而这种模板可以在更多的应用中抽取相关的信息。
4)利用元数据和模板挖掘进行信息抽取。元数据是从数字文献中发现资源的重要工具。它们不仅帮助用户定位需要的信息资源,也能帮助检查、选择(或拒绝)检索条目。元数据标记,例如DC元数据格式的主题和描述可以被扩展并形成各种特定的结构化的模板。例如,有专家提出用预组配标题索引法(Pre-coordinate Indexing)原理建立主题模板来进行信息抽取。用模板挖掘方法结合元数据格式能更好地进行信息检索,并能自动产生文献代理来帮助最终用户挑选输出信息。这对网络环境下图书馆的信息检索是非常必要的[11]。
2.2 构建情报自动搜集平台
情报研究分析需要有大量的相关信息作基础,而数字图书馆中的信息搜集面向大量的Web网页。信息抽取提供了一条进行大规模数据及信息采集的思路。通过信息抽取,能够从自由文本中抽取出数值数据和结构化的信息,建立可供研究分析的联机分析系统。
一般的Web网页需要抽取4种类型知识:基本知识、块模式知识、确定模式知识、非确定模式知识[12]。针对这4种抽取知识类型,利用网页智能搜索技术和网页内容自动抽取技术,可从诸多门户网站中,自动搜索出感兴趣的网页,并从中自动识别和抽取所需要的信息内容。情报自动搜集平台可以由三大模块组成,见图1。
图1 情报自动搜集平台架构
1)基于最佳搜索路径的目标网页搜索代理。该模块利用中文词库,目标网页相关搜索知识,对信息门户URL集合中各个门户网站进行智能搜索,快速搜索出所需要的目标网页。其中目标网页搜索知识主要包括两部分:最佳搜索路径上的网页链接识别知识和目标网页识别知识。
2)网页内容抽取代理。该模块接受目标网页搜索代理搜索获得的目标网页,对网页内容的数据记录表示格式,进行自动学习归纳,并最终自动获取记录信息描述模式,然后根据这些记录信息描述模式,将目标网页中所需要的记录信息抽取出来;并将这些抽取出的信息记录存放在相应的信息记录数据库中,以提供给用户查询。
3)搜索知识增强学习模块。该模块接受网页内容抽取结果成功与否的结果,将所抽取的网页作为目标网页搜索相应的正反实例,并利用增强学习来完成目标网页的搜索知识[13]。
2.3 构建问题解答系统
问题解答(Question Answering,QA)系统能够让用户以自然语言的方式提出问题,系统通过对大量相关数据的查找、分析和推理,从知识库中整理出针对这一问题的答案。利用信息抽取构建问题解答系统,可以解决数字图书馆中的服务方式从检索方式到问题解答方式的转变。NLP技术的进步,已经开始显示出自动从知识库中获得答案的可能。已经有研究表明,信息抽取技术能够为问题解答系统提供坚实的支持。
目前Cymfony公司已经有用于问题解答的信息抽取技术研究模型。图2是已经开发的Textract信息抽取系统结构[14]。
图2 Textract信息抽取系统体系结构
如图2所示,系统的核心由3个信息抽取模块和6个语言模块组成。这些模块保持域独立。多级语言模块作为下级支持系统服务于不同的信息抽取模块。信息抽取的结果被存储在不同的数据库中,这些数据库是与信息抽取相关的应用模块,例如QA,BR(智能浏览),以及AS(自动摘要)。可以看出,每一级别的信息抽取都可以用于增强信息检索系统的功能。例如,NE,CE和GE都支持QA。换句话说,我们不需要去等待形成更复杂的模块,可以利用现有技术构建QA。
图3描述了Textract/QA模型的系统设计[14]。QA模型有两个组件:问题处理器与文本处理器。
图3 Textract/QA原型体系结构
2.4 构建图书馆大型知识库、数值库
数字图书馆的长远目标是从信息检索服务转向知识提供服务,因此,需要建立图书馆自身的大型知识库、数值库。通常,数字图书馆的信息库建设,需要从置标文献中抽取信息来补充数据库,或者通过结构化的置标来建立新的超文本文献。采用信息抽取方法,通过置标语言和自然语言处理技术可以成功地达到这项目的。目前已经有成型的信息抽取系统,可以从HTML文本中选择信息填充到书目数据库中[15]。它分为HTML置标和自然语言处理两个步骤。图4是信息抽取过程的数据流图。
图4 信息抽取过程的数据流图
1)应用HTML置标技术。HTML格式的文本由称为分割器的工具分割,这种分割器抽取了所有基于HTML置标的相关信息的所有字符串。用这种方法,可跳过一些不相关的信息。而要做到这一点,必须观察我们所感兴趣的每个字符串的第一项规范化特征,并记录下可能预示着我们所寻找信息的位置的变化。
当一个人快速浏览文章时通常会注意到:字体的改变,突出的显示,标题,解释等信息,这些特征帮助我们识别正在寻找的信息,并忽视文本中的其余部分。这里,系统对原始资源的观察转换成分割器程序的过滤指令。当文本的格式一致时,分割器帮助我们去抽取高精确信息中的字符串。然后用NLP技术为每一抽取串建立一个相关信息的模板。
2)应用自然语言处理技术。①命名实体识别。使用一系列“启发式”规则从串中抽取相关信息,抽取的信息包括作者、标题、出版商等。所有的实体共享一组特性。这些特性组成了一系列规则。一方面,更新关于每一种实体信息的一组规则;另一方面,根据规则来识别每一种实体类型。②模板处理。模板处理有两个方面。模板填充:在每一个已识别的实体上加一个特定的标注来标记被填充模板的属性。通过识别所有字符串的实体,得到一个标记串,然后,在每一个模板上填充相应的各项。数据储存:所有的模板被储存在关系数据库中,这些模板中的所有项被填充(当然一些项的属性可能为空)。因此,就得到包含出现在字符串中的所有书目项的数据库。
目前,通过这种方法,专家们已经评价了HTML文本中许多不同的片断。在模板过滤中精确度达到了83.5%。此外,这种方法在作者、标题和定位识别上达到92%的精确度,这种方法成功地识别了66个模板。在命名实体任务中,这种方法达到了92%的精确度[15]。
3 结语
信息抽取经过20多年尤其是最近10多年的发展,已经成为自然语言处理领域一个重要的分支,其独特的发展轨迹——通过系统化、大规模的定量评测推动研究向前发展,使得信息抽取技术走向成熟。随着数字图书馆相关技术的发展,信息抽取技术在图书馆信息处理自动化中将具有深远的发展前景。未来数字图书馆的建设,应当充分借鉴信息抽取的研究成果,加强信息抽取技术在该领域中的应用。
标签:自然语言处理论文; 数字图书馆论文; 信息检索论文; 实体关系图论文; 文本分类论文; 相关性分析论文; 文本分析论文; 模板工程论文; 网页模板论文; 元数据论文;