基于法律框架网络本体1的信息检索研究_自然语言处理论文

基于法律框架网络本体的信息检索研究①,本文主要内容关键词为:本体论文,框架论文,信息检索论文,法律论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

当前网络信息资源的检索主要依赖于搜索引擎实现,但搜索引擎主要基于字符串匹配、字词出现位置、词频统计等进行检索,一般忽略上下文的相关性和情境的相关性,这样易于导致检索结果存在着查准率不理想、误检和漏查严重等问题,用户需要在大量毫不相关的检索结果中再次寻找有用信息,从而延长了用户查询时间,降低了信息检索的效率。尽管目前一些信息检索过程采用了自然语言处理的词语切分、词性标注、句法标注等方法,但这种单纯的句法分析对于检索结果的改进并不明显[1],因此如何从Web检索的结果文本中抽取满足用户需求的有用信息,如何从语义角度描述词与词、概念与概念之间的关系,将语义分析的知识构成网络,在语义网络中获得更好的检索结果,已经成为基于Web的信息检索系统迫切需要解决的问题[2]。当前许多研究者从不同角度探讨基于本体的信息检索方法,旨在利用本体知识实现对用户提问及网络资源的语义理解与分析,实现概念而不是字词匹配检索,从而提高查询的精确率[3~5]。本文基于已构建的法律框架网络本体,探讨在领域本体之下的语义检索的解决方案,旨在提高用户检索网络法律信息资源的效率。

2 法律框架网络本体库的构建

由Fillmore主持的始于美国加州大学伯克利分校的FrameNet工程,已成为当前公认的本体之一。它除了以框架为中心实现词汇语义层面的聚合外,还描述了各框架之间多样化的横向和纵向关系,如依照概念间的相似性比较形成概念的逻辑关系、属种关系(继承关系)、使用关系、参照关系等,根据概念的个体在空间或时间上的连接性形成总分关系、因果关系等。同时采用DAML+OIL、XML/RDF语言对框架库、例句库进行形式化描述,显示出FrameNet的本体知识,从而具备了机器可读性和可理解性,使其对语义网络资源的描述成为可能。

我们对FrameNet工程中涉及的法律领域的框架进行整理,大约有86个法律框架,其中刑法及刑事诉讼法的框架约60个。考虑到刑法及刑事诉讼法作为国家的基本法律,是我国社会主义法律体系的重要组成部分,我们将其作为法律本体构建的重心。由法律专业人员在60个框架基础上,依据中国法律特点和法律文本语料库进行修正,同时分析现有法律体系,由此分析出其主要核心概念大致分为犯罪行为、诉讼程序、刑罚、强制措施几个方面,较为完整地体现犯罪者实施犯罪活动的过程及之后公检法部门对该犯罪进行的一系列相关处理活动,旨在未来能够处理涉及犯罪场景类型的文本,并根据概念之间的相互作用构建概念之间关系。以继承关系、总分关系、框架-词元关系、框架-框架元素关系处理为核心。我们已构建的法律本体模型如图1所示。

图1 刑法、刑事诉讼法法律知识本体模型

在此基础上,我们所构建的法律框架网络本体数据库主要包括3个部分:框架库、词汇库和标注例句库。

(1)框架库。是语义框架的集合,是框架网络的基本组成单元。每个框架包括框架的名称及其定义,框架元素表(包含框架元素名称、语义类型、描述及若干示例),该框架与其他框架之间的关系,包含的词元集合。

(2)词元库。从法律文本语料库和现有法律词典中抽取法律术语,作为重要的法律信息资源,如犯罪、盗窃、抢劫、逮捕、审判、诉讼、律师等。主要包含每个词条传统的词典释义,各词元的语义结构(配价)模式,词元所属框架的框架元素句法实现模式,与标注例句库的链接,与所对应的框架库的链接。

(3)例句库。以法律文本语料库为加工原材料,以词汇库的词语为目标词,标注句中框架元素、框架元素所在短语的短语类型以及框架元素的句法功能,构成例句库。

3 基于法律框架网络本体的信息检索方案

基于法律框架网络本体的信息检索过程应充分利用该本体的框架语义特征,来完成目标检索任务。语义检索过程如下:①根据用户的检索提问,在法律本体的支持下,对检索提问进行语义扩展,确定查询对象,明确用户检索内容。②利用搜索引擎搜索或者浏览专门的法律网站,下载一批法律文本,对文本进行预处理,基于法律本体进行语义标引,形成语义文本实例库。③将查询对象与标引过的文本进行匹配,将其转化为框架元素实例的匹配查询,保证用户提问与信息描述的一致性,实现其精确匹配。

3.1 基于法律框架网络本体的检索请求处理

为了让用户更好地表达检索意图,我们向用户提供自然语言检索入口,允许用户用自然语言向系统提问,例如提问“赵某某偷了什么东西?”。系统收到用户提问后,利用一些自然语言处理技术,运用法律框架网络本体库对用户的提问进行分析,得到用户的真正检索意图,将检索请求提交给检索部分。对用户检索请求处理的具体步骤如图2所示。

图2 检索请求处理框架图

3.1.1 对用户的检索请求进行分词及词性标注

我们利用山西大学计算机应用研究所开发的分词软件“分词2000”对用户提出的检索请求进行分词和词性标注。对于用户以问句形式提出的检索请求,根据疑问词表,找出句中的疑问词。例如,对句子“赵某某偷了什么东西?(Q1)”进行分词处理后的结果为:

Q1:赵某某nhh偷v了u什么r东西nd?w

根据分词结果判断出用户的检索请求是一个问句,结合疑问词表及专有名词表,对其中一些基本词汇、专有名词及疑问词进行捆绑处理。同时为了减少问题分析过程中的噪声,滤掉了只起语法作用、本身没有什么具体意义的虚词,如本例中的“了”。最终的处理结果为:

Q1:赵某某nhh偷v什么东西r?w

3.1.2 确定目标词元

按照框架语义学的思想,句子中一个含有述谓意义的词汇激活一个事件场景。场景中有各种角色参加[6]。在框架网络数据库中,这个被激活的事件场景称为“语义框架”,激活框架的具有述谓意义的词汇称为框架的词元。因此,只有在确定述谓意义的词汇的前提下才可确定目标词元。为此目的,我们考虑采用核心依存句法分析方法,将述语动词认为是支配其他成分的“控制项”,其实为激活语义框架的目标词元,句中与“控制项”具有依存关系的成分(被称为“依存项”)就是控制项激活的框架所要求的框架元素[7]。我们依然以句子Q1为例,其依存句法树如图3。其中控制项是句中的作为目标词元的动词“偷”,名词性短语“赵某某”和“什么东西”分别作为“偷”的主语和宾语依存于该控制项。

图3 Q1的句法依存树

3.1.3 确定目标框架

根据框架网络本体库中的知识,确定目标词所属的语义框架。由于一个词元对应一个或多个语义框架,当目标词元激活唯一的框架时,这时可以确定该框架即为目标框架;当一个词元激活多个(两个或两个以上)框架时,我们可根据框架与框架之间的关系即框架所处的背景知识决定其取舍。本例中,目标词元“偷”激活了它唯一所属的语义框架“盗窃”。

3.1.4 对用户提问进行框架语义标引

基于目标框架的词元配价模式以及框架元素的句法实现模式、语义类型,根据句子中各依存项的句法特征如在依存树中的位置、短语类型和句法功能,判断它们在目标框架中充当的框架元素,最后将各依存项填入框架。配价模式信息是指一个词元与所属框架的框架元素相结合的序列,反映了该词元的语义结合能力。“盗窃”框架的词元“偷v”的配价模式及各框架元素对应的句法实现模式如图4、图5所示。其中图5定义了各框架元素的语义类型,如知觉能力者(sentient)、实体(entity)、时间(time)、处所(location)、来源(source)等。

1)犯罪者+偷+物品+目的

2)犯罪者+偷+物品

3)犯罪者+来源+偷+物品+目的

4)犯罪者+物品+偷+目的

5)犯罪者+修饰+偷物品ini

6)犯罪者+环境+偷+物品

7)犯罪者+目的+时间+偷+物品+数量

8)犯罪者+时间段+偷+受害者+物品

9)受害者+偷+频率犯罪者ini 物品ini

10)物品+偷犯罪者ini

11)时间+犯罪者+物品+偷

12)时间+物品+犯罪者+偷

13)时间+犯罪者+地点+偷+物品

14)时间+犯罪者+来源+偷物品dni

15)频率+物品+偷犯罪者ini

图4 词元“偷”的语义配价模式图

短语类型及语法功能符号说明:

np—名词性短语;tp—时间短语;vp—动词性短语;mp—数词短语,dp—副词性短语;subj—主语;ext—外部词元;adva—状语;obj—宾语;comp—补语

图5 语义框架下词元“偷”的框架元素句法实现模式

句子Q1的“主语+目标词+宾语”的句法结构与图4模式中的1~8、12、13相匹配,再根据句法及语义类型分析,可知“犯罪者”语义类型为“有知觉能力者”,“什么东西”做宾语的名词性短语,语义类型为“实体”。由此可准确判断各成分所代表的语义框架元素。图6是将分析结果填入语义框架。

图6 句子Q1的框架语义分析图

这样就为表示用户检索请求的自然语言赋予了语义信息,使语义框架中的框架元素实例化,由此我们完成对Q1句子的语义标引:

Q1:[〈perp-np-subj〉赵某某nh]〈tgt〉偷v[〈goods-np-obj〉什么东西r]?w

其中句子的“目标词”用〈tgt〉表示,目标词的依存项对应的语义成分被包围在“[]”范围之内,用“〈〉”表示框架元素名称、短语类型、语法功能。

3.1.5 确定提问的目标框架元素

疑问词所在的框架元素即为用户提问的目标框架元素。经过以上对Q1的分析,可知“物品”即是目标框架元素,用户的检索目标就是查找“盗窃”框架下表示框架元素“物品”的实例。通过一系列对用户检索请求的处理,我们将用户以自然语言提出的检索请求转化为对框架网络本体库中的语义框架、框架元素及其实例的检索,其转换结果见图7。

图7 检索请求Q1的转换结果

3.2 语义型语料库的加工处理

基于法律框架网络本体库,以语义框架为核心对文本进行语义分析,以计算机辅助人工标注的方法,给语义框架所在的句子进行语义标引。对标引过的句子,抽取其中的特征信息,按一定的结构存储在数据库中,形成语义语料库。这样就使原来非结构化的文本信息变得结构化,便于计算机“阅读”。具体处理过程如图8所示。

图8 语义语料库的生成过程示意图

我们通过搜索引擎在Internet上下载一批法律领域相关的文本,以手工方式去掉其中无用的不相关信息,如网页目录、网页链接、图片等,对其进行分类统计,作为生语料等待进一步处理。对生语料的分析加工,可具体划分为5个步骤进行:

(1)对文本进行分词及词性标注,根据词元库抽取包含法律领域词元的句子。

(2)对句子进行依存句法分析。假设生语料中包含句子“A1:某华侨农场赵某某为了吸毒,1998年盗窃群众的自行车30多辆。”其句法分析见图9。

图9 句子A1的句法依存树

(3)对句子进行框架语义标引。根据目标词所激活的语义框架,分析句子中目标词元的依存项在语义框架中充当的框架角色,将其填入框架中相应的语义槽。如目标词汇“盗窃”,激活相应的目标框架“盗窃”。对框架元素实例化处理即填槽,如图10显示其对应的框架元素。

图10 句子A1的框架语义分析表

利用本项目组成员开发的“汉语框架网络数据库例句辅助标注系统”,对句子进行句法和语义标引。对句子A1的标引结果显示如下:

[〈pert-np-subj〉某r华侨n农场n赵某某nh][〈purp-pp-adva〉为了p吸毒v],w[〈time-tp-adva〉1994m年nt]〈tgt〉盗窃v[〈victim-ap-atta〉群众n的u][〈goods-np-obj〉自行车n][〈quanti-np-obj〉30m多m辆q]。w

(4)提取句子中的词元配价信息,判断词元库中是否存在该条配价信息。如果不存在,将该信息加入词元库中。例句A1中词元的配价信息为:犯罪者+目的+时间+“盗窃”+受害者+物品+数量。

(5)选取适当的形式,将标引过的句子作为语义信息实体存储在语义语料库中,并与本体库链接。标注好的文本,已经具有机器可以识别的结构,但是还需要将标注文本与本体数据库进行关联,并建立索引,以便于计算机迅速检索到用户要查找信息的句子或者文本。如图11,可建立的逻辑关系模式有如下类型:框架元素与框架关联表,词元与框架关联表,词元配价表,句子标注表,框架元素语义实现模式表等。

图11 本体库与语义语料库中的部分逻辑关系模式信息

3.3 实例化语义信息的检索

在文本的预处理阶段,我们将法律领域相关的自然语言文本根据法律框架网络本体的知识转化成了大量的按语义框架归类、以框架元素为最小单位的信息实例。在问题处理阶段,我们将用户的问题转换成对某个语义框架的框架元素及其实例的查询。经过这两部分的处理,我们就将自然语言检索的问题转换成了对实例化语义信息的检索问题。图12描述了实例化语义信息的检索流程。

图12 实例化语义信息的检索流程框架图

(1)根据从用户请求处理部分提交过来的目标语义框架,通过图11中的表2找出与之相匹配的语义框架ID,再由表3指向所有具有该语义框架ID的词元。

(2)对所有词元的各种配价模式进行遍历,以用户检索请求部分分析获得的词元配价模式为参照,通过表4获得包含所有要求框架元素的配价模式ID,我们将其称之为目标配价模式。

(3)通过表5获得目标配价模式指向的标注句子ID,可确定目标句子,根据用户提问解析获得的框架元素实例约束条件(犯罪者=“赵某某”),通过框架元素语义实现模式表6查找到用户所需要的语义部分,再去重处理获得最终的检索结果。比如依据“盗窃”目标词找到所标注的句子A1,从标注过语义的句子中找出“物品”对应的实例为“自行车”,向用户直接准确地提供检索结果。

4 结束语

领域框架网络本体应用到传统的信息检索中,主要从两个方面提高信息系统的检索能力:一是在对用户问题进行理解的过程中,利用领域本体的知识,将用户的检索请求锁定在基于某个语义框架的查询范围内,并且确定目标框架元素及信息检索约束条件,在通过目标语义框架所包含的词元扩展查询范围、提高检全率的同时,又通过目标框架元素及约束条件对用户的检索请求进行精确化,可以提高检准率;二是在对文本信息进行分析时,利用领域框架网络本体库中的知识,以句子中的目标词元所属的语义框架为基础,以框架元素为核心进行多层语义分析,提取出句子中框架元素实体的语义实现模式信息和以框架元素表示的词元的配价模式信息,在检索时可以直接从这些信息入手查找到相应的信息实体,从而提高检索的精确度。然而,框架网络本体在信息检索方面的应用并不限于此,根据语义框架之间的关系,如使用关系、继承关系、总分关系、因果关系等,可进一步实现推理,这将是我们今后研究的重点。

需要指出的是,汉语语言表达形式多样,而且自然语言是在不断发展的,难以穷尽语义框架下的每个词元所有可能的语义实现模式,需要在应用过程中根据遇到的实例不断地进行补充。本文假定了一个句子只包含一个目标词,而实际上,存在一个句子包含多个目标词元、分属于不同的语义框架的情况,这样就存在对句子中的承担不同角色的语义要素进行区分的问题。另外,当前对文本中句子的语义分析采取的是机器辅助式人工标注方法,要实现大规模的文本分析,有待开发基于本体的自动语义标注软件。可以预见,计算机自动进行的语义分析,将是基于本体的信息检索技术的发展方向。

注释:

①国家社会科学基金项目“汉语框架网络知识本体构建研究”(06CTQ004)。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于法律框架网络本体1的信息检索研究_自然语言处理论文
下载Doc文档

猜你喜欢