基于段落检索和段落内容分析的知识检索系统设计_语义分析论文

基于段落检索和段落内容分析的知识化检索系统设计,本文主要内容关键词为:段落论文,检索系统论文,内容论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

目前,信息系统已经能够帮助用户快速便捷地检索出大量可能相关的文档,但是这些文档中往往只有部分段落与用户需求相关,用户还需在大量的长篇的文档中挖掘出与自己需求真正相关的段落,而且还要分析和归纳这些相关段落之间的内容关系,才能从认知与利用的角度真正获得相关的有用的信息。针对这个问题,本文设计了一个基于段落检索、鉴别和内容关系分析的知识化检索系统,并对其中的关键技术关键问题进行了探讨。

1问题的提出

表1 检索方式的比较

传统的信息检索

基于段落检索和内容分析的知识化检索

服务对象 一般性的学术跟踪 前沿的研究——On Track、On Problem

检索目标 比较系统地了解

研究的深层内容及其相互关系(语义关系、

研究状况 应用关系等)如一个课题研究的源流、发

展、变化,研究中用到的方法、技术、规

则,相关方法技术应用的其他领域等

检索对象 物理对象—文献

逻辑内容对象—文档段落、文档段落内容

之间的关系

检索结果 全面阅读 总结分析,整体把握(结构、趋势、演变、

利用方式 异常等)

表1粗略地表示了不同信息需求与检索结果细粒度要求之间的大致关系。可以认为,与进行学习或一般性学术跟踪为目的的信息检索不同,那些处于研究前沿的用户,对于相关领域已经有了比较深入的了解(On Track),其信息检索往往是针对具体研究问题(On Problem),所需要的不是包含文献综述、研究线路、关键技术、操作方法、结果描述、分析与结论等在内的整篇文献(物理内容对象),而是与研究问题直接相关的深层内容,往往体现为文档中涉及该问题的具体段落(可能分别关于某个具体的观点、思路、算法、实验设计、采用设施与方法、专门结果、分析结论等,可称为逻辑内容对象)。而且,当这些逻辑内容对象分别来自不同物理内容对象时,人们往往需要分析这些逻辑内容对象之间的关系,构成对研究问题的整体知识对象,从而从认知和利用的角度获得相关知识。

当前,多数检索系统还停留在检索出大量可能相关的文献。即使有些系统采用多种技术对相关性判断进行优化(例如Google的PageRank)[1-2],也有些系统利用共词分析建立起检得文档之间的关联关系(例如斯坦福大学的Grokker)[3],但都还没有深入到文档中的段落层次,因此无法精确地对相关度和内容关系进行分析。为了解决这个问题,检索系统需要对检得的相关文档进行段落划分,检索和鉴别与用户需求相关的段落(段落检索),分析这些段落的内容特征及相互之间的关系,并用可视化方式展现这些段落及其关系。对此,人们曾进行了持续的努力,例如TileBars[4]等系统。但是,这些系统对于来自不同文档的多个段落之间的关系没有进行深入分析,尤其是缺少对段落内容在逻辑上的关联关系的分析。本研究专门针对基于段落检索和段落内容关系分析,规划了相应的系统架构,设计了支持完整分析的数据流关系,提出了段落检索鉴别和段落内容关系分析的关键技术,并在开源段落划分和可视化软件支持下验证了整个技术流程和检索系统结构。

2系统功能框架

2.1系统主要功能模块

系统以全文检索为基础,在检出大量相关文档后,对检索结果进行段落划分、段落检索、段落内容特征分析、段落关系分析、段落集可视化呈现等处理,最终提供给用户最相关的文档段落内容和按照段落内容间的关联关系进行可视化浏览,从而帮助用户更好地理解和把握检索结果包含的知识内容。系统包括全文检索、段落检索、段落关系分析及可视化处理等4个主要功能模块。系统功能框架如图1所示,图中展示了系统各功能模块及其子模块关系。其中段落检索模块和段落关系分析模块是系统的核心功能模块。

图1系统功能框架

文档检索模块:借助现有的检索系统,检索符合初始检索提问要求的相关文献,并利用下载代理自动下载这些相关文献的全文数据,转换为本系统可处理的文档格式,形成可供进一步分析处理的相关全文文档集,作为后续段落划分和段落检索的基础。

段落检索模块:对全文文档进行段落划分,然后利用检索提问对段落进行检索,检索出与检索提问相关的段落,形成相关段落集。

段落关系分析模块:分析段落内容特征,并根据这些特征分析文档段落之间在语义逻辑和应用关系上的关联关系。

可视化处理:把相关文档段落间的关联关系通过可视化的方式呈现出来,并把文档段落内容按照关联关系组织起来显示给用户,为用户理解结果内容提供帮助,并为进一步检索提供依据。

2.2系统数据流

系统数据流指系统各个功能模块所依据和形成的数据之间的关系。本系统形成的系统数据流如图2所示。用户输入检索式,系统将检索请求发送给现有系统(数据库),从中检索获得与检索式相关的文档,形成相关文档集;对相关文档集中的文档进行段落划分,形成段落集;对段落集中的全部文档段落通过与检索式进行相关度计算,获得与检索相关的相关段落集;并对相关段落集通过特征词提取、向量构建和概念标识,分别形成相关段落的特征词表示、概念表示和向量表示,以此为基础,计算段

落内容之间的关联关系,获得关联关系向量集。

图2系统数据流

其中,在获取段落集之后、进行关系分析之前需要对段落内容进行相应的处理,包括段落与检索式相关度的计算和对段落内容的处理(包括特征词提取、概念标识和向量构建)。在这二者处理的时间顺序上,有两种选择。

1)先对所有的段落进行内容处理,获得所有段落的特征词表示、概念表示和向量表示形式,再进行与检索式相关度的计算,筛选出相关段落。这样可以获得所有段落的不同形式的表示,在进行关联关系分析时,可以通过一些扩展手段来获得与检索式相关度值较低(如不包含检索词)但内容上有较大相关性(在语义上或逻辑上相关)的段落。但这种方式需要对所有的段落进行处理,系统处理的计算量比较大。

2)先进行与检索式相关度的计算,然后只对相关度大于一定阈值的段落进行内容处理,系统只处理这些相关段落的特征词、概念和向量。这种方式需要处理的段落比第一种大大减少,从而降低系统计算量,提高处理速度。但这样做可能会使一些相关段落(尤其是没有包含检索

词、但在语义上或逻辑关系上相关的段落)被筛选出去。

这两种方式各有利弊,考虑计算量的大小,系统采用了第二种方式进行处理。

3系统核心模块设计

段落检索模块和段落关系分析模块是系统的核心模块,是系统设计实现的重点内容。

3.1段落检索

文档段落检索是获得与检索提问最相关部分段落的过程。段落检索[5]包含两部分处理内容:段落划分和相关度计算。根据段落划分与相关度计算的时间关系,可以把段落检索分为文本分割和段落提取。系统采用基于文本分割的段落检索算法,主要考虑3个方面的因素:检索精确度、计算复杂度和段落主题的完整性和聚合度。为了满足用户对信息的检索需求,必须达到一定的检索精确度;而太高的计算复杂度会降低系统的处理性能,延长返回时间,降低检索效率。

3.1.1 段落划分 系统采用一种基于语义迁移的方法来进行段落划分。基于语义迁移的段落划分方法能够在很大程度上保证划分出来的段落在主题上的聚合度,对于后续的内容分析阶段提供良好的基础。系统采用TextTiling[6-7]算法实现段落划分。该算法利用独立于领域的词频和信息分布来分析文本各个子主题之间的关系,实现基于文档子主题结构将文章划分为相应的段落的功能,是目前采用比较多的一种基于语义迁移的段落划分算法。该算法将文章分成一系列大小相等的块(Block),对每一对邻近的块计算它们之间的余弦相似度。算法假设它们越相似,就越有可能是一个主题的延续;相反如果相似度较小就意味着它们之间可能是一个子主题的转移。算法主要包括3步:

1)划分Token序列。先将输入文本进行分词,同时记录下文本中每个自然段的结束位置,称为真实边界。之后过滤掉停用词、标点等,留下实词。此时文本的表现形式是一系列的词语,记为Token序列。定义一个常数k,每k个Token做为一个伪句子。

2)相似度计算。相邻的伪句子组成块,计算相邻块的相似度。一个块中包含伪句子的数目记为w。块之间的相似度由余弦公式来计算。

3)边界划分。段落边界的划分由相似度值的变化来确定。计算过程中所用到的块和伪句子是按长度划分的,划分出来的段落边界为人工边界,在确定文档的段落分界时应恢复为真实边界。以与人工边界最接近的真实边界作为文档子主题的分界点。

3.1.2相关度计算 在段落与检索式相关度的计算方面,系统采用基于词频统计的算法。采用这类算法主要出于两点考虑:①这类算法最容易实现,计算复杂度低,处理速度比较快。②后序分析主要基于段落内容上的关联,精确度较高的算法可能会遗漏较多逻辑上相关而与检索式相关度较低的段落。

系统参照MITRE的词重叠算法[8](Word Overlap A1gorithm)实现。该算法计算在段落中和检索式中同时出现的词,即重叠词的数量,并以此为标准对段落进行相关度排序。最早的算法只简单计算重叠词数量,后来为了提高精确度,通过加权对算法进行了改进。

3.2文档段落间的关系分析

段落间关系分析的主要目的是获得与检索主题直接或间接相关的文档段落之间在语义上和应用逻辑上可能存在的某种相互关系,从而揭示出检索结果在知识结构上的相互关系,有效地将文档段落内容以利于用户理解的方式组织起来,并提供相关反馈,实现对检索的扩展和求精,从而实现检索的知识化目标。

3.2.1段落间的关系类型 文档段落之间主要存在两种类型的相互关系:

1)显式物理关系。主要包括发表时间关系、文内位置关系、引用关系、同一作者关系、同一研究机构关系,等等。参照段落所属文档的相关属性和传统的文档关系处理方式,在文档进行段落划分时为每一个段落保留文档的时间、作者、引文等信息,同时保留段落在文档中的位置信息。

2)隐含逻辑关系。包括语义逻辑关系和应用逻辑关系。前者主要包括段落内容特征词之间的各种语义关系,如同义词、反义词、上位词、下位词、同族词、类属(is-a)、隶属(part-of)、用于(used-in)、因果(caused by)、组成(consists of)、产生于(resulted from)、共现(co-occurence)、推理(inferred from)等。应用逻辑关系,是指科学研究过程中各类对象(文献、设施、人员、机构、数据、会议等)相互应用所产生的关系,如顺序(followed by)、采用(uses)、引用(referred)、应证(proves)、反驳(disputes)、讨论(discusses)、依据(as evidence)等。通过信息抽取算法和词表、领域本体(Domain Ontology)、科研关系本体(Research Relation Ontology)可以揭示相关概念、术语的语义关系,从而获得相关内容的相对关系。

3.2.2段落间的关系分析 段落间关系分析是本系统的核心部分,重点是获取段落间隐含的语义和应用上的逻辑关系。每个段落都包含多个代表段落内容的特征词,同时也包含多个概念和概念关系;特征词之间可能存在着隐含的关联关系,概念之间存在着多种逻辑和语义关联。

段落特征词:这里特征词指的是段落文本中包含的具有实际意义、能代表段落内容的词。系统处理上通过对文本进行分词、去除停用词等处理的方法来获得。

段落概念:概念是对领域中对象的抽象定义。领域本体中定义了该领域包含的概念和概念间的关系。系统通过对段落文本中的词或词组与本体中的概念进行匹配获得代表段落内容的概念。

段落向量:向量空间模型[9-10]把文档表示成一个多维的向量。根据向量空间模型的原理,系统提取段落文本特征词并进行词干处理(Stemming),通过加权算法(如tf/idf)生成表征文本内容特征的向量。

段落向量根据段落特征词构建,但在构建向量时主要考虑的是特征词出现的频率和段落文本长度等因素,忽略了特征词在文本中的位置关系和其他关联关系,因此段落向量虽然能从整体上反映段落文本的语义特征,但是无法揭示出由特征词的位置和其他关联关系导致的段落文本在内容上的关联性。在特征词与概念之间可能存在多种映射关系,如一对一、一对多、多对一、多对多等。虽然很多情况下特征词之间的关系可以通过对应的概念关系来获得,但本体中很难包含所有的关系。此外,某些特征词(如新出现的词)本体中没有与之相匹配的概念。因此,仍然需要对特征词出现的规律通过关联规则等挖掘算法进一步分析,从而揭示段落文本内容之间的隐含关系。

基于以上考虑,系统从段落包含的特征词、段落包含的概念以及段落整体语义特征3个层次来分析段落间隐含关系,构成如图3所示的多层关系分析框架。

图3多层关系分析模型

1)段落层相似度计算。本系统基于向量空间模型计算段落层之间的相似度。向量空间模型利用段落特征词生成段落向量,通过计算段落向量之间的夹角余弦值获得它们之间的相似度,用两个源段落编号和相似度值表示。由于这个相似度只考虑了特征词,没有考虑概念词,所以可称为简单相似度。

2)概念层关系计算。系统通过段落中包含的概念之间的逻辑关联关系,计算段落间关系,包括关联关系类型和关联强度。这部分关系分析基于领域本体实现。领域本体定义了特定领域中的概念以及概念之间的关系。文档段落的内容总是关于特定概念的,因此,通过将文档段落与本体中的概念建立关联,可以获得文档段落内容间的在语义、逻辑上的相互关系。

概念层关系分析涉及特征概念确定和标识、核心概念识别、基于概念间关系的段落关系计算等几个关键问题。

·概念确定和标识。通过将段落特征词与领域本体中的概念进行匹配,确定段落中出现的所有概念及概念出现的位置和频率。在进行概念匹配时可能出现以下几种情况。①存在与特征词直接匹配的唯一概念词,此时直接以此概念词作为标识。②存在与特征词直接匹配的多个概念词,此时需要根据段落内容的上下文语义来选择最合适的概念词。即根据该段落中其他特征词对应的概念词在本体中的位置作为概念词的选择判断依据。③存在与特征词部分匹配的概念词。这种情况下,概念词表现为一个词组,特征词语词组中的一个词相匹配。此时,增加一个临近的特征词进一步进行分析。④不存在与特征词匹配的概念词。此时有两种处理方式:作为一个新的概念,不进行概念标识,但做特别标注,在进行特征词层关系分析时进行重点处理。作为一个新的概念处理时,由于本体中不存在这一概念的相关信息,系统无法直接确定该概念与其他概念之间的关系。可以通过特征词关联规则挖掘等来计算该概念与其他概念的关系,但实现上具有很高的复杂度,并且与特征词层的关系分析有很大的相似性,因此,系统采用第二种方式来对这类特征词进行处理。

·核心概念的确定。一般来说,一个段落中通常包括多个概念,其中最能体现段落内容的概念,称之为核心概念;其他为非核心概念。系统按概念在表达段落内容的重要性对概念进行排序,重要性最高的概念作为核心概念来处理。概念的重要性程度,可以由以下几个因素确定:①概念在段落中出现的次数。通常出现次数多的概念具有较高的重要性。②概念在段落中出现的位置。出现在标题中的概念具有最高的重要性;其次出现在段落首句、段落尾句的概念重要性较高。系统按照语义迁移的算法完成对段落的划分,划分时采用文档段落的真实边界,保留了文档的自然段结构,因此,段落首句和尾句仍然存在一定的特殊性。③概念所处的语法地位。通过句法分析,区分概念的语法角色。不同语法角色的概念有不同的重要程度。主语、宾语中的概念重要性要高于出现在补语、状语中的概念。④指示性短语引导的句子通常是对一段叙述总结性的陈述,因此这类句子中出现的概念常常具有较高的重要性。这类指示性短语包括:“综上所述”、“总之”、“由此可见”,等等。⑤段落中的概念在本体中的相对位置。如段落中同时出现一个上位概念和多个下位概念,则上位概念具有较高的重要性。这些因素综合考虑将使计算复杂度比较高,因此系统在实现上主要考虑第一、第二和第五这三种因素。

·基于概念间关系的段落间关系计算。核心概念之间的关系代表段落内容间的关系。考虑两个段落之间的关系,有核心概念相同和核心概念不同两种主要情况。对于核心概念相同的情况,可以认为两个段落内容有较高相似度,如需要进一步分析则考察核心概念与非核心概念之间的关系。对于核心概念不同的情况,又存在以下几种可能:①核心概念之间存在直接关联。这时两个段落之间具有较高的关联强度,并以核心概念之间的关联作为两个段落之间的主要关联。②核心概念之间存在间接关联:即两个概念本身不存在直接的关联关系,但同时与某个其他概念相关联。这时两个段落之间存在关联,但关联强度较第一种弱。③核心概念之间不存在关联。这时可以作为两个不关联的段落进行处理,如需要进一步分析则考察核心概念与非核心概念之间的关系。

3)特征词层隐含关系计算。采用关联规则分析方法,挖掘段落特征词之间的隐含关联关系,计算段落间关系类型和强度。关联规则[11]是数据挖掘中的重要方法,主要通过项间的关联关系发现隐含着的行为模式。系统将关联规则应用到文档段落关系分析的主要目的是基于特征词在文档段落中出现的规律(如共现),来发现段落特征词之间的关联关系,进而分析文档段落内容之间的隐含关系。这种隐含的关系不易于被发现,但是可能具有重要的意义。

主要考虑两种类型的关联规则:正关联规则和负关联规则。正关联规则的挖掘基于支持度一置信度框架。具体在本系统中,正关联规则主要表现为同一段落中两个或多个特征词的共现。假设存在两个特征词A和B,正关联规则表现为特征词A与B的同时出现在同一个段落中(可记为“特征词A出现导致特征词B出现”);负关联规则表现为特征词A和B不同时出现在同一个段落中(可记为“特征词A出现导致特征词B不出现”)。

3.3可视化处理

可视化处理模块对段落关系分析获得的段落间关系进行可视化,将各种关系以图形化的形式直观地展示给用户,从而帮助用户理解检索结果之间内在的逻辑关系。理想的可视化要能够以尽可能简单的形式表达尽可能丰富的内容,从而尽可能地降低用户的认知负担。可视化处理阶段主要涉及可视化对象的选择确定和可视化形式选择。

系统可视化的目的是为用户提供易于理解的信息组织形式,使用户能够直观地获得检索结果之间的关联关系。因此,系统主要实现对段落内容关系的可视化。包括3种关系:段落层相似度、概念层关联关系、特征词层隐含关系。段落层关系主要展示检索命中段落在语义内容上的相似度,表现为一个无向图,节点表示段落,边表示段落间的相似度;概念层关系主要展示检索命中段落在逻辑上的关联类型和关联强度,以段落的核心概念为主要判断依据,表现为带标签的有向图,节点表示段落,边表示段落间的关联强度,标签说明关联关系的类型;特征词层隐含关系主要揭示检索命中段落间的隐含关系,表现为无向图,节点表示段落,边表示段落间的关联强度。

4 总结

所有检索出来的相关文献内容,实际上都是整个知识体系中的一个部分或者节点。知识体系中的各节点、部分之间存在着语义和应用上的逻辑关系,这些关系本身是知识体系中的重要内容。对于用户来说,这些内容也是需要了解和分析的对象,对于用户全面把握相关知识领域的各个方面与层次有着重要的作用。本文所提出的基于段落检索和内容分析的检索框架试图为用户提供挖掘和呈现这些复杂关系的机制。在后续论文中,将介绍系统实现方法和实验验证过程,并对进一步解决的问题进行讨论。□

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于段落检索和段落内容分析的知识检索系统设计_语义分析论文
下载Doc文档

猜你喜欢