信息抽取技术及其在数字图书馆中的应用前景分析,本文主要内容关键词为:数字图书馆论文,前景分析论文,技术论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】 G250.76
随着数字图书馆采集技术、存储技术、检索技术的进步,数字图书馆的技术瓶颈日益集中在数字信息的深层次分析处理之上。面对数量日益庞大的数字信息堆积,如何高效地对这些数字信息进行加工处理,有效地实现这些数字资源的开发利用成为当前数字图书馆研究者必须面对的一个课题。
自然语言处理(Natural Language Processing,NLP)是计算机科学中一个越来越得到高度重视、并且被许多国家或地区的管理机构认为需要优先发展的领域[1]。与NLP相近的几个概念如人类语言技术(Human Language Technology,HLT)、语言工程(Language Engineering,LE)、计算机语言学(Computational Linguistics)目前也得到高度的关注。它们的存在和目前所取得的许多进展,可以为数字图书馆研究者实现深层次的信息(知识)开发利用提供有益的借鉴。
信息抽取(Information Extraction,IE)(有人提出Knowledge Extraction,KE)是NLP研究中一个正在走向成熟的研究领域。IZ的目标是自动实现从文本信息中抽取出预先想要的信息(知识),它提供了一条从浩瀚的信息堆积中抽取出与用户相关的信息的一条思路。本文简述IE的主要研究思路和当前研究热点,并对其在数字图书馆中的应用前景进行分析。
1 基本概念
由于考虑的角度不同,研究者对什么是信息抽取的提法也稍有所异。
有的研究者认为“如果说信息意味着权利和财富,那么并不是信息的数量在体现其价值,而是在适当的时机、以最适合的形式取得的信息才会发挥作用”。他们认为信息抽取的目标正在于此。信息抽取分析各种自由文本,能够自动地抽取出预先指定的与某个事件、某个实体以及与它们之间的相互关系有关的各类信息[2]。
有的研究者经常将信息抽取和信息检索进行对比[3][4]。他们认为信息检索仅仅从文件集(数据库)中找出相关的文献(数据)并简单地显现给用户,而信息抽取不是仅仅指出某篇文献适合用户的需要,而是抽取真正适合用户的那些信息片段提供给用户,并且提供所抽取信息与原文献之间的参照,以使用户能够参考原文献的内容[5]。
有的研究者将信息抽取比做一个输入/输出过程。认为信息抽取是将未知文本信息作为输入,并以固定格式、无二意性数据(信息)作为输出的一个过程。这些被抽取出来的数据可以被直接显示给用户,或者可以存储于数据库或电子表格中以供随后分析,还可以被用于索引系统,以便于将来进行检索访问[6]。
也有的研究者认为,信息抽取的任务在于从自然的语言文本中标识出特定的信息,并将这些信息填入某个模板之中,以呈现出相互之间的关系。例如,对于一次车祸事件的报道,信息抽取系统能够标识出事件的时间和地点,车祸事件的类型以及车祸事件的受害者。填充后的模板可以被存储于数据库中以供以后检索,或作为主要元素支持自动文摘[7]。
作为NLP中一个发展得很快的研究领域,对于什么是信息抽取,当然还有许多表述方式,这些表述方式尽管不同,但信息抽取具有的一些特点我们认为是可以明确共识的:
·信息抽取是当前文本挖掘中最为突出的一项技术。这一技术结合了自然语盲处理、语料资源以及语义技术,目前正趋于成熟。
·信息抽取不是从文件集中选择一个与用户需求相关的子集(如信息检索),而是从文献中直接抽取出与用户需求相关的事实或数值信息。
·从另一个方面看,IE可以作为一个从无结构的自由文本或其它信息资源中抽取出结构化的、无二意性信息的过程。由于具有这一特性,IE可以成为元数据抽取、信息分析、信息索引及检索的基础。
2 影响IE发展的研究活动
在IE发展过程中,有几个项目深刻地影响了今天IE的研究。其中主要有:
2.1 MUC
MUC是Message Understanding for Comprehension的简写,但更多的人认为MUC是Message Understanding Conference或 Message Understanding Competition。MUC对于信息抽取的促进作用如同TREC对于信息检索一样,有的人甚至认为,从某种意义上讲,正是MUC创建了信息抽取这一研究领域[4]。
这项在20世纪80年代末由美国国防部的DARPA(Defense Advanced Research Projects Agency)发起的研究活动,其目的在于应对越来越多的联机信息,它通过一系列国际化的研究系统测评,来推动信息抽取的研究,提高信息抽取的能力。MUC唯一任务就是“信息抽取”:对自由文本进行分析,标识出某一特定类型的事件,并将有关这一事件的信息填写到相应的数据模板中。
最初的MUC1—2关注的是对电子邮件信息的抽取,然而自20世纪90年代之后的MUC3—7主要关注对新闻文章的抽取,主题涉及恐怖活动、国际风险投资、企业成功管理经验等[8]。MUC对于信息抽取的研究内容、信息抽取方式的分类、信息抽取系统的评价等都起到重要的促进作用。有关内容将在后面做更深入的阐述。
2.2 MET
MET是Multlingual Entity Task Evaluation的缩写,它也是DARPA发起的一个测评项目。与MUC主要针对英语文本进行分析和信息抽取的情况不同,MET的主要是对日语、汉语以及西班牙语等多语种新闻文献进行命名实体抽取。MET-1和MET-2测试分别于1996年和1998年进行[9][10]。
2.3 ACE[11][12]
ACE(Automatic Content Extraction)是一个开发自动内容抽取技术,以支持文本形式的人类语言处理自动化的项目。这一项目由美国国家安全局(NSA),美国商务部技术管理部门(NIST),以及中央情报局(CIA)一同主管。这一项目关注三种信息的自动化内容抽取:网络上的在线新闻、通过ASR(自动语音识别的)得到的广播新闻、以及通过OCR(光学字符识别)得到的报纸新闻,希望通过这一工作,能够为新的应用,如数据挖掘、链接分析、自动摘要等打下基础,并通过将相应的信息提供给相应的分析师,以提高信息分析的能力。
这一为期5年的项目分几个阶段进行。ACE Phase-1(1999.7—2000.12)优先发展的是实体探测及追踪(EDT,Entity Detection and Tracking)。ACE Phase2(2001—现在)被称为EDT+RDC。其中RDC为Relation Detection and Characterization。ACE第二阶段希望在第一阶段实体探测的基础之上,引入了对实体关系的评测,需要能够将标识出的实体之间的关系揭示出来。
3 信息抽取的几种类型
MUC根据信启、抽取内容以及所抽取出的信息的集聚水平的不一样,将信息抽取分为以下的几种主要类型[9][10]。
NE 命名实体识别(Named Entity Recogni-tion)是信息抽取中最为基础的类型,它仅仅需要系统能够从众多信息中标识并分离出相关的命名实体。此类信息抽取需要系统能够识别出实体名,并将相应的实体名进行归类。MUC测评需要信息抽取系统能够从自由文本中识别并抽取出人名,组织名、日期、时间、地点以及某种类型的数字表达式(如货币数量,百分数),并在文本中对这些信息进行标注。NE具有非常直接的实用价值,在对文本中的名称、地点、日期等进行标注之后,即提供了对这些信息进行检索的可能。对于许多语言处理系统,NE都是其中一个很重要的组件。
MET 多语种实体识别任务(Multi-lingual Entity Task)信息抽取。MET除了能够对英文命名实体进行识别之外,还需要能够对多语种的命名实体进行识别,例如可以对中文、日文或西班牙文进行命名实体识别。
TE 模板元素(Template Element)信息抽取将特定的描述信息与实体联系起来。它需要从文本的任何地方将与组织、人物或其它实体相关的基本信息抽取出来,并将这些信息作为实体的属性进行聚集,形成实体对象。在MUC评测中,TE系统需要能够从文本中抽取特定类型的实体信息,并将这些信息填写到预先定义的小型的属性模板之中。例如对人物实体的模板元素抽取,需要信息抽取系统能够抽取出预先定义的人物的名称、职务、国籍等属性。
CO 参照(Coreference)涉及在进行NE或TE任务时,从文本中标识出对同一实体的不同表达方式。例如连接某同一实体的不同称谓,将某一名词和其相应的代名词进行连接。在MUC中,CO之所以得到重视,是因为它能够为创建TE和ST(见下文)打下基础。CO可以将散布在文本中不同地方的同一实体的描述信息连接起来,同时通过分析实体在文本中不同地方出现的情况,以及此实体在不同场合与其它实体之间的关系,有助于情节信息的抽取。
TR 模板关系(Template Relation)信息抽取:TR需要在TE的基础之上标识出模板元素之间的关系。例如职员和组织之间的关系(employee of),产品和生产企业之间的关系(product of),以及公司和地区之间的关系(Iocation of)等。TR是MUC-7定义的一项新任务,它的抽取包括相关元素模板,以及元素模板之间的相互关系。
ST 情节模板(Scenario Template)信息抽取。ST抽取某一事件中的事件信息并将事件信息与某个组织、人物或其它实体相关联。ST需要标识出特定事件及事件的相关属性,包括将事件中的各个实体填充到事件的相应角色中,通过各个对象之间的关系,能够还原出整个事件的“原型”。
以上几种信息抽取类型,有些是与领域无关的,如CO和TR,而有些则与领域的关系密切,例如NE、TE和ST[6]。
在MUC中,采用准确率,召回率和F-指数来评价系统的性能。在MUC-7测试表明当前各类信息抽取的F-指数性能基本在表1所示的范围之内[9]。
表1 各类信息抽取及其F—指数
┌─────┬──────┐
│IE类型│F-指数 │
├─────┼──────┤
│NE│
<94%
│
├─────┼──────┤
│TE│
<87%
│
├─────┼──────┤
│CO│ <62%│
├─────┼──────┤
│TR│ <76%│
├─────┼──────┤
│ST│ <51%│
└─────┴──────┘
4 信息抽取系统
按照信息抽取系统设计方法的不同,可以将信息抽取系统分为两种类型:基于知识工程的系统和基于自动训练的系统。
基于知识工程的信息抽取系统主要有以下几个特点:这类系统是基于规则的系统;需要有经验的语言工程师来开发;其中个人的直觉能够对系统的性能起到很大的影响;应当说这类系统比基于自动训练的系统能够得到更好的性能;但是这类系统开发周期较长,并且一旦成形之后不容易进行修改。
基于自动训练的信息抽取系统采用统计或其它机器学习方法,开发者并不需要掌握语言工程知识,但需要大量的经过标注的训练数据,如果需要对这类系统的核心进行修改,则相应的所有训练数据也需要重新标注。
这两种信息抽取系统尽管采用的方式不同,但信息抽取的基本过程大致相似。University of Sheffield的Gate项目组认为,典型的信息抽取系统的应当包括三大过程:预处理过程、命名实体探测过程和事件探测过程[13][14]。
其中预处理过程并不实现信息抽取,但它是信息抽取的前提。在这个过程中,系统需要完成对文本格式的检查(Format Detection),特征化(Tokenisation),分词(Word Segmentation),歧义消除(Sense Disambiguation),句法分割(Sentence Splitting)和语法标记(POS tagging)等。通过这些预处理,可以将文本分解成为有一定语言意义的语言片段,并对这些语言片段进行标记,使文本能够被转换成为更易于被信息抽取系统处理的模式。
命名实体探测过程实现对命名实体的探测,并通过参照实现实体之间的联系。在这一过程中,通常需要借助辞典来实现人物、组织、地点、时间等命名实体的探测,辞典中也可能会包括一些相应的指示词(如Ltd.提示公司名称)用以指示相应的实体内容。一些系统还具有语义标记的功能。如ANNIE系统,通过JAPE书写的规则,能够对实体进行更深入的语义标注。
事件探测过程是在命名实体探测过程基础之上实施的一个过程,它抽取某一事件中的事件信息并将事件信息与某个组织、人物或其它实体相关联,构造出事件的概貌。它需要完成句法分析、模板填充、模板合并、模板关联和事件探测等。
图1是University of Sheffield的ANNIE(A Nearly-New Information Extraction System)系统的主要组成。
图1 ANNIE的信息抽取模块,引自文献[15]
5 信息抽取在数字图书馆中的应用前景
从以上信息抽取的研究内容可以看到,作为一门日渐成熟的技术,信息抽取在信息处理自动化中具有基础性的地位。许多与文本、信息、知识的获取、加工、分析、管理相关的应用领域都可以利用信息抽取技术。在数字图书馆的建设中,信息抽取技术也具有很好的应用前景。笔者认为在数字图书馆的建设中,需要充分借鉴信息抽取的研究成果,特别是在以下几个领域,信息抽取将会为数字图书馆的建设带来强劲的推动。
5.1 数字内容的自动标引和元数据获取
数字图书馆面对海量的信息资源,需要提供有效的信息检索和内容揭示方式,内容标引和元数据加工是数字图书馆区别于其它低品质信息检索系统的一个重要方面。但是,随着信息资源的迅猛扩增,手工的内容标引和元数据加工已远不能适应这一需要。探索有效的内容标引和元数据抽取成为一个十分迫切的问题。
正如前面所看到的。对信息抽取的一种理解就是从自由文本中抽取中格式化的信息,它可以作为一个从无结构的自由文本或其它信息资源中抽取出结构化的、无二意性信息资源的过程。实际上,国外的一些研究人员已经注意到了信息抽取在数字图书馆元数据建设方面的作用,出现了将IE应用于数字图书馆的内容标引和元数据抽取的相关研究[6]。相信随着研究的深入,会出现更具有实用价值的成果。
5.2 数据挖掘和情报研究分析
数据挖掘是从大量的、有噪声的、模糊的、随机的数据集中识别出有效的、新颖的、潜在有用的、以及最终可理解的信息的一个过程,数据挖掘的前提是大量相关数据的采集。数字图书馆的情报研究分析亦需要从大量的相关信息中研究分析出事件发展的各种态势。大量的数据和相关信息是进行研究分析的基础,但这些信息和数据从何处而来?
信息抽取提供了一条进行大规模数据及信息采集的思路。通过信息抽取,能够从自由文本中抽取出数值数据和结构化的信息,建立起可供研究分析的联机分析系统,进而实现大规模的数据挖掘和信息分析。
5.3 大型知识库、数值库建设
数字图书馆的长远目标从信息检索服务转向知识提供服务。知识提供的前提是知识的获取。如何有效地获取知识呢?
目前NLP的许多研究人员已经看到了有必要将人类语言工程(HLT)和知识获取结合起来,提出了通过Ontology驱动的信息抽取来实现知识的获取[17][18]。也有一些系统提出了从非结构化的文本中建设知识库的思路[19]。这些都是表明,利用信息抽取技术,来建设大型知识库和数值库已并非是遥不可及了。
5.4 参考咨询中的问题解答
问题解答(Question Answering,QA)其实也是NLP研究中的一项重要内容。问题解答系统能够让用户以自然语言的方式提出问题,系统通过对大量相关数据的查找、分析和推理,从知识库中整理出针对这一问题的答案。
数字图书馆中的参考咨询正在促进着数字图书馆服务方式从检索方式到问题解答方式的转变,目前的参考咨询系统主要凭借馆员个人的学识对读者的问题进行解答。然而NLP技术的进步,已经开始显示出自动从知识库中获得答案的可能。已经有研究表明[20],信息抽取技术能够为问题解答系统提供坚实的支持。
6 结语
信息抽取作为一门正走向成熟的技术,在信息处理自动化中具有基础性的地位。数字图书馆的建设,应当充分借鉴信息抽取的研究成果,加强信息抽取技术在本领域中的应用。面对着日渐丰富的海量信息资源,数字图书馆建设的重点也将会转向数字信息的深层次加工、处理以及利用之上。