信息抽取技术在情报学中的应用分析_自然语言处理论文

信息抽取技术在情报学中的应用分析_自然语言处理论文

信息抽取技术在情报学中的应用分析,本文主要内容关键词为:情报论文,学中论文,技术论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

信息收集与组织理论方法是情报学核心研究内容之一。从科技情报工作实践看,信息收集与组织位于科技情报工作的前端,是科技情报工作的中端——信息服务(如信息检索服务、原文提供服务等)和后端——情报研究的基础。

信息收集与组织依赖于信息发布技术和传播渠道。20世纪80年代之前,信息主要以印刷技术发布的印刷本的形式发布和传播,其收集相对简单,采用订购等方式就可以完成,其组织是采用人工标引的方式来完成,如采用主题法、分类法对信息进行组织,通过信息检索技术实现对信息的检索和使用。

在这种模式中,主题法、分类法对信息组织起到关键性的作用,通过专业情报检索人员的帮助,使用信息检索系统,采用扩检或缩检等检索方法,可以控制检索命中的文献记录数,为用户提供相关的信息。

20世纪80年代以来,特别是90年代中期以来,数字技术成为信息发布的成熟技术,互联网成为信息传播的主要渠道。数字技术和互联网技术的快速发展使信息发布、传播和存储方式都发生了深刻的变化,这为情报学发展提出了新的研究问题。如Web页面等网络信息的收集与组织问题以及对以数字化方式全文存储的科技文献信息的组织问题等。这些问题都直接影响到所提供信息的相关性,也是由“以技术为中心”向“以用户为中心”转变的关键[1]。

Tenopir和King研究发现,在2001—2002年间,读者用于发现、获取并阅读学术文章的时间比以前年度有所增加,但用于单篇文章的阅读时间有所下降。这似乎表明,当文章数量增长时,读者检索并获取到具有高相关性文章的难度反而增加了,因此,当真正用于阅读的时间下降时,花费在寻找、发现的时间就会增加[2]。

2007年4月,加拿大科技情报研究所委托Outsell公司,调查研究科研人员信息需求与信息评价问题,通过该项研究发现,科研人员最关心的是获得的学术文章与他们的研究工作的相关性,他们仅需要与他们研究工作最相关和最有用的学术文章,其次是学术文章的写作水平,如表达是否清晰,再次是学术文章被引用的次数。此外,缺少只提供最相关和最有用信息内容的信息检索和信息过滤等工具是科研人员获取信息的主要障碍之一[3]。由此可见,高相关性信息和相关信息利用工具对于科研人员的重要价值。

因此,尽管科技文献信息以“爆炸”的方式产生,并且各种信息检索工具如Google不断涌现,但信息相关性仍然是用户最关心的问题并且没有得到很好解决。这些问题的解决取决于信息收集和信息组织方法的创新。

1 信息抽取关键技术

信息抽取技术(IE)是从自然语言文本中抽取预先指定的实体、关系等信息,形成结构化的数据并填入数据库的过程。其处理的主要对象是自然语言文本,其文本类型一般可分为3种:非结构化文本、半结构化文本和结构化文本。

消息理解系列会议[4] (Message Understanding Conference,MUC)和自动内容抽取评测会议(Automatic Content Extraction,ACE)对推动信息抽取技术的发展起到重要作用。MUC由美国海军情报部门提出举行,主要目的也是处理大量海军军事情报,从1987年开始到1998年,MUC会议共举行了七届。ACE是由美国国家标准技术研究所(NIST)组织召开,该会议2000年5月首次举办,到2007年已经举办7次会议。

在这两个会议的大力推动下,信息抽取技术的研究内容逐步深化,主要侧重于实体识别与跟踪技术、实体关系识别与跟踪、事件或事实的抽取以及系统移植能力、多语种文本处理能力、Web信息抽取以及对时间信息的处理,等等。

随着信息抽取技术的深入发展,目前信息抽取的关键技术主要有实体识别、实体关系识别和事件模板构造3个方面。

1.1 实体识别技术

实体是指在现实世界中具体或抽象的对象,而识别出这些对象在文本中的表达形式则为实体识别技术。在该技术中不仅要识别并标注出一般的命名实体,如人名、地名、机构名、产品名称等,还包括一些对实体解释性的描述以及指代实体的代词等,有时在具体应用中有关时间和数量表达式也被作为实体来识别。由于实体表现形式多样,并且绝大多数实体名称不会在普通词典中出现,因此识别并不容易。根据MUC评测结果,英文命名实体识别的准确率能达到90%以上。实体识别的方法主要分为基于统计与基于规则的方法。基于统计的方法主要利用人工标注的语料,通过机器学习的方式来识别实体。其优点是人工代价少,学习速度快,但缺点是识别的准确率不高,一般需要大规模的语料进行训练。基于规则的方法在性能上要优于统计的方法,但基于规则的方法由于在系统健壮性和灵活性方面没有统计的方法好以及对语言和文本格式等依赖较强,而且编制复杂等缺陷而逐渐被统计的方法所取代。

基于规则的方法通过人工方法构造规则,然后根据句子对规则的匹配结果来识别不同实体。规则的构造一般复杂且工作量较大,为了减轻人工构造规则的负担,可使用有指导的算法,从人工标注的样本集中来自动归纳规则以识别实体[5]。因为实体类型广泛,形式多样,规则的方法不适应大量实体识别任务。因此,现在大部分抽取系统使用基于统计的机器学习技术来识别各类型实体,这些系统主要使用统计学习的方法来训练识别模型,然后再使用训练好的模型识别实体类型。

近年来,实体识别的方法也逐步增多,其中比较有代表性的统计方法主要有N元模型(N- gram)、隐马尔可夫模型(Hidden Markov Model,HMM)、决策树(DecisionTree)等。

1.2 实体关系识别技术

实体关系识别技术是识别句子中出现的成对实体间的关系。例如当句子中出现一个人名和一个组织实体名称时,那么这个人与组织之间是何种关系需要辨别;当出现机构名称和地名时,这两者之间又具有何种关系;如果出现两个人名时,这两人之间具有何种社会关系等。在ACE评测中[6],对这些关系进行了归纳,把所有关系划分为角色关系、部分与整体的关系、位置关系、方位关系和社会关系这5个基本类型。实体关系识别的主要问题在于句子中出现的实体对间的关系并不总是明确的,有时需要结合上下文才能辨别。当句子中出现多个实体时,多个实体间的关系更难以识别。

在实体关系识别方面也有两种技术路线,一种是使用规则的方法,主要是基于模式匹配技术;另一种是统计的方法,主要基于机器学习的技术。前一种方法在识别的准确性上表现较好,但编制规则需要耗费大量的人工代价,且适用范围较小。而使用统计方法的机器学习技术准确性虽不如规则方式,但其适应性强,人工代价少,系统的移植能力也增强较多。

在规则的方法中,关系模式可以人工定义,其优点是模式定义准确,概括性强,能较好地适应不同的句子状况,但人工工作量比较大,不易于大规模定义与维护。为了减少人工代价,可以采用关系模式自动获取技术。例如通过对大规模语料库中出现的实体对进行聚类来自动归纳关系模式,或者通过种子集与已标注文本集中出现的实例句子的反复作用来自动学习新关系模式等,这些模式就可以作为判断实体关系的基本规则。但这样获得的关系模式一般质量不高。在统计方法中,分类技术是一种常用技术,它将关系的提取转化为一个分类问题。对句子中所含的实体对,通过提取上下文、标志信息等特征来构造出特征向量,然后使用分类器来判断实体间的关系。这种方法属于有指导的学习方法,需要有大规模的标注了实体间关系的语料库支持。

1.3 事件模板构造技术

信息抽取的最终目标是识别出用户感兴趣的事件或事实信息,并将其组织成结构化的数据,因此事件识别技术是直接反映抽取结果的技术。在信息抽取系统中,通常要限定在某个具体的领域内进行抽取。在对具体领域内事件或事实进行抽取时,主要根据事件的组成要素来定义事件描述模板(Event Description Template)。事件描述模板是一个对事件的要素进行综合概括的有组织的表达结构,它描述了需要抽取的概念及其相互关系,这些概念与关系能够完整地描述事件。例如在公司发布新产品事件中,它一般需要包括公司名、产品名、发布时间、产品性能等一些事件要素。事件简单时,模板构造很容易,一般使用人工方式就可以构造,然而事件复杂时,由于涉及的实体众多,且相互关系不易辨别和确定,则模板构造也变得困难。有时为了降低复杂度,使得事件模板描述的事实关系明确,逻辑清楚,可以使用嵌套分层的模板集来描述一个事件或事实,不同的模板中描述的仅是事件的部分信息,各个模板组织在一起才能够对事件中涉及的各个方面构成完整的逻辑描述。

当信息抽取系统抽取的领域发生变化时,事件描述模板就需要重新构造,这对于人工构造模板方式来说,代价就比较大,这样就产生了信息抽取系统的移植问题。为实现系统的自动移植,可以使用机器学习的方法来自动分析事件构成要素,并自动构造事件描述模板的方法。如使用在内容上相近,并预先定义了句子间语义关系的文本集来确认和分析事件的基本要素以及它们之间的相互关系;或者收集同一事实的不同表达实例的多个文本,然后通过这些文本的交叉检验来自动确定事件要素[7-8]。

信息抽取是领域相关的,它所处理的信息范围有所限定。一般在开发信息抽取系统时,就已经人工预先设定好了待抽取的有限种类的事实信息。例如要对病历信息进行抽取,那么所有病历信息就是系统要处理的领域,而病历中出现的人名、病症、生理指标等则是系统要抽取的要素。此外也可通过本体描述或解释要抽取的领域,由于本体定义了组成主题领域的词汇表的基本术语及其关系,还有结合这些术语和关系来定义词汇表外延的规则,所以本体还可以对相关信息抽取提供一定的辅助知识,即可以用本体在一定层次上解释文本内容,从而使抽取结果更为准确。

2 信息抽取的应用

2.1 信息抽取的信息搜集

互联网上的海量信息是重要的信息源。然而这类信息由于表现方式多样,结构复杂,数量巨大,因此有价值的信息、知识和情报不易收集和利用。使用信息抽取技术,按照预设的领域,对网页等信息进行抽取,并自动组织成具有相关性的整体数据,这些数据在保存到数据库后就可以形成所预设领域的比较全面的信息。当互联网上的信息发生变化时,使用这一技术还可以使数据库中的信息实时动态更新,因此这样收集到的信息更具有整体性、连贯性与时效性,且花费的人工代价少。例如跨语言的信息抽取系统TREE[9],该系统为欧盟成员国内的求职者和雇主提供了一个网络服务平台,它可以从互联网招聘广告中抽取职业信息及电子邮件地址等信息,然后将其以统一的格式存储于数据库中,使用者可以使用自己熟悉的语言在数据库中搜索招聘信息。互联网是竞争情报的重要信息来源,可以使用本体描述金融危机管理、IT运营风险管理等领域的语义信息,利用信息抽取技术对互联网上这类信息进行自动收集,构造出企业竞争情报收集系统,为用户提供企业的最新信息,如公司的名称、主要活动、雇员数量等[10]。

此外,科技文献数据库是高质量的信息源,在这些科技文献数据库中,除标题、作者、主题词和关键词等数据以结构化形式存储外,文献的正文仍然是以非结构化文本的方式存储,因此使用信息抽取技术可以对文献的正文进行深度处理。

比如信息抽取可以用于抽取生物、医药信息,很多学者研究使用信息抽取技术从生物医药的科技文献中抽取诸如基因、基因制品、蛋白质等有关的信息,或者通过信息抽取技术在医学文献中查找有关基因、蛋白质关系等方面的实验证据。如两种应用于分子生物学的信息抽取系统[11]:EMPathIE和PASTA,分别从生物学期刊中抽取有关酶、新陈代谢方式和蛋白质结构的信息。

2.2 IE的信息组织

信息抽取技术从文本内容中抽取预先指定的实体和关系即信息片段,所抽取的信息片段从一个角度反映了文本内容的内在特征,由于这些抽取的信息片段是同类的,因此,本质上是通过这些同类信息片段对文本进行了组织,这种组织方法的价值在于这些信息片段是结构化信息,因此它可以作为知识服务技术的前端和基础,可以进一步使用机器方法从中发现知识、挖掘知识,这就对人们寻找知识和利用知识提供了有力的支持。如数据挖掘技术是揭示存在于数据里的模式及数据间关系的技术,其处理的对象是结构化数据库。信息抽取技术可以把各种非结构化数据和半结构化数据转化成结构化的数据保存到数据库中,所以信息抽取可以作为数据挖掘技术的前端,而数据挖掘以信息抽取的输出作为输入,实现对非结构化数据处理。这样就在非结构化数据与数据挖掘技术间架起了桥梁,使得数据挖掘的应用领域可以拓展到更广泛的信息领域中去。文本挖掘技术是从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,主要用途是从未经处理的文本中提取出未知的知识,信息抽取是它应用的基本技术之一[12]。

使用信息抽取技术,文本挖掘可以实现从文本中抽取关键信息、按主题组织信息。所以信息抽取技术可以辅助一些知识技术对文本的内容进行深度处理以发现有价值的知识。

2.3 信息检索与信息抽取

信息检索(IR)与IE在应用目的、适用领域和使用技术等多方面存在差异,但二者也并不是完全无关的,在一些具体应用中二者可以共存互补。

IR返回的结果是符合检索表达式要求的文献集合,用户必须从检索到的文献集合中通过阅读整篇文献来判断信息是否相关。当文献集合较大时,用户花费在阅读上的时间代价是比较可观的。为解决这一问题,IR也使用了一些改进技术为用户查找最相关的文献,如使用以概念与关系为基本元素的模型来检索和过滤信息,这些概念与关系被赋予不同的参数用于描述用户感兴趣信息间的相关程度,最后只有最相关的信息才被提供给用户[13],Google为提高检索结果的相关性采用了对检索结果排序的技术,将网页按与用户检索信息的相关性的大小排序后显示给用户[14]

IE在应用中的主要目标是如何将用户需要的信息从各种文本中提取出来并进行有效的组织,然后生成简洁明了的事件列表,从而提高信息相关性,用户可以直接阅读抽取出的事件内容,而不需要先阅读整篇文献以进一步判断是否相关,当需要阅读整篇文献时再去详细阅读,用户可节省阅读时间。

虽然IR和IE是两个独立的信息处理过程,但IR和IE可以互补结合,给用户提供更好的信息服务。比如对于用户需要的信息,可以先用信息检索技术获取相关的信息,然后在对这些信息使用信息抽取技术处理,以得到与用户实际需求高度相关的信息。

同样,也可以先用信息抽取技术对某个领域的事实信息进行抽取,在抽取出大量事实信息的基础上,在对抽取结果进行深度检索以获取用户最感兴趣的事实。在这样的处理过程下,就可以大大提高获取信息与用户实际需要信息的相关性[15]。

3 结束语

对于科研人员和情报研究人员来说,能够快速、高效地获得高相关性的信息意义重大,因为它不仅能够节省他们在信息收集与阅读等方面的时间,而且由于信息经过了有效组织,能够方便地对信息进行分析、比较、研究,这就使得科研人员和情报研究人员可以把精力更多地投入到科研工作与情报研究上去。

通过对信息抽取技术的探讨,可以看到,信息抽取技术对情报学学科和科技情报工作具有重要价值与意义,是信息收集和信息组织的一种有效方法,同时信息抽取技术可作为数据挖掘、文本挖掘等技术的前端和基础,与这些方法相结合,实现知识服务。

收稿日期:2008-04-24

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

信息抽取技术在情报学中的应用分析_自然语言处理论文
下载Doc文档

猜你喜欢