知识检索中的知识提取与可视化研究_自然语言处理论文

知识检索中的知识抽取与可视化研究,本文主要内容关键词为:知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G350 文献标识码:A 文章编号:1007-7634(2010)11-1719-05

1 引言

知识检索是为了适应知识组织的发展趋势,以解决信息检索机制检索效率低下的弊端而提出的一种新的检索理念[1]。它在知识组织的基础上,实现知识关联和概念语义检索的智能化的检索方式。它是一种综合应用信息科学、人工智能、认知科学及语言学等多学科的先进理论,融合知识处理和多媒体信息处理等多种方法与技术,基于知识和知识组织,充分表达和优化用户需求,高效存取所有媒体类型的知识源,并能准确精选用户需要的结果的高级信息检索方法[2]。

知识检索的实现需对检索的信息对象进行知识抽取。知识由信息加工、提炼而成,信息中知识点的抽取随信息对象的不同而异。知识点隐含于原始信息对象(例如,文献)的关键词、标题词、语义描述(自由词)之中。因此,知识点的抽取以文献的关键词、标题词和全文高频自由词为基础。从某种意义上来说,知识抽取是以信息抽取为基础的。文本信息资源知识点的抽取以词为基础,主要用关键词、标题词和全文中自动切分统计出的高频词进行标注与索引。用这些词作为知识点进行抽取与存储,作为知识检索实现的基础。

从检索过程来看,知识检索的结果是用户查询需求选择的对象,一般来说,反馈的结果很难体现检索对象的内容和及其对象之间的关联关系及相关性,这使用户面对众多的检索结果,很难做出正确选择来获取用户所需要的知识[3-4]。因此,许多的研究学者采用了各种方法来解决这一问题,其中,在检索过程中可视化技术的运用就是一个很好的解决方案。目前可视化技术在检索的结果的可视化、检索过程的可视化交互、检索式的可视化等方面得到了广泛的应用。其中检索结果可视化最为重要,在本文主要讨论知识检索中检索结果的可视化。

2 知识抽取与可视化方法

2.1 知识抽取的方法

知识抽取以信息抽取作为基础,是自然语言理解技术和实际应用相折中的产物。自然语言处理有着从根本上解决人机对话问题的良好前景。然而,目前的自然语言处理水平尚不能对任意的文本进行深入的分析,不具备深入理解自然语言的能力。与自然语言理解不同,信息抽取一般不对文本作深入的全面分析,它的主要功能是根据预先设定的任务,抽取特定类型的信息[5]。例如,一个用于从新闻报道中抽取恐怖主义事件的信息抽取系统,只需提取诸如受害者、加害者、事件中使用的武器等信息即可达到要求。信息抽取的优势在于简化了自然语言处理的过程,只关注相关的信息,而忽略无关的内容。通过抽取获得的信息,可以通过信息处理(如相关性分析、频率统计等)和图形技术等来实现知识抽取的目的。

另一方面,知识抽取技术可视为信息检索技术的一个深化。信息检索从文档的集合中寻找与用户要求相关的文本或段落。知识抽取则是在相关文本或段落的基础上,发现用户需要的知识。信息检索一般对文本的语义不进行分析,而由用户对文本的语义做出解释。知识抽取则由系统分析文本的语义,在此基础上,给出用户需要的信息。在实际的应用中,知识抽取和信息检索可互补使用[2]。如,由信息检索系统寻找相关文档,而后由知识抽取系统在相关文档中抽取所需信息;反之,也可在知识抽取的基础上,进行知识的检索。

从知识需求的角度看,无论是领导层面的决策者还是科技工作者,他们越来越重视知识的提取工作,往往对信息工作者提出十分明确而具体的要有时候会细化到要求得到某个统计数据或工艺参数。这样的要求无疑对文献信息的标引和检索工作提出了挑战。

2.1.1 知识抽取的方法

目前,知识抽取的方法有很多,一般来说,主要通过以下几个方法来实现知识的抽取[2]:

(1)词典标引法:首先构造一个机内词典(主题词典,关键词典,部件词典等),然后设计相应算法与词典匹配,若匹配成功则将其抽出作为文献的标引词。

(2)切分标记标引法:将能够断开句子或表示汉字之间联系的汉字集合组合成切分标记词典输入计算机。当原文本被切分词典分割成词组或短语后,再按照一定分解模式将其分成单词或专用词。

(3)单汉字标引法:在标引时将概念词拆分成单个汉字,以单汉字作为标引词,采取后组方式,将检索词串分解成单个汉字,以逻辑乘关系进行组配,利用汉字索引文件实现自动标引和逻辑检索。

(4)统计标引法:利用在某一特定文献中的出现频率或词的文献频率高者作为标引词。它建立在较成熟的语言学统计研究成果基础之上,具有一定的客观性和合理性。词频统计方法要进一步发挥其功能,就必须融合其他因素,在加权统计标引法中,文献频率加权标引和词区分值加权标引主要依赖于词的频率特征和词的区分能力。

(5)句法分析标引法:指通过分析句子中每个词的语法作用和词之间的语法关系来选择具有标引意义的词或短语。它必须辅之以语义分析,才能保证自动标引的准确性,一般要借助于一定的解析规则或语法词典,需要较多的人工干预。

(6)语义分析标引法:通过单值分解将词、文献和提问,依语义相关程度组织在同一空间结构中,在这一空间中,分散在不同文献和提问中的同义词相近放置,具有不同的词但主题语义接近的文献和提问相邻组织。语义矢量空间模型在现有的矢量空间模型基础上,融入格式语义结构,通过标引词的语义矢量构造描述文献的语义矩阵,使文献的标引得以在语言的深层结构—语义层上实现。

(7)人工智能标引法:人工智能应用在标引中的具体技术是专家系统,专家系统的知识表示方法主要有产生式表示法、语义网络表示法和框架表示法。

2.1.2 知识抽取方法比较

词典切分标引法和切分标记法都是先组式标引法,检索速度较快,但构建分词词典较困难,词典维护量大。

切分标记标引法对切分后的词组或短语需要再分解,但分解模式和分词知识库很难适应汉语灵活的构词变化,较易产生标引错误。

统计标引法是建立在词典切分法和切分标记法二者的基础上,既有两者的优点也有两者的缺点。相比于其他自动标引方法,统计标引法较为简单实用,因而使用较普遍,也取得一定的实际标引效果,它同时也是其他一些类型自动标引方法中重要的组成部分。但是语言是有意义的符号序列,这类方法要克服单纯统计的形式化缺陷,取得更高的标引质量,就必须结合语法语义分析。

单汉字标引法避开了分词障碍,易于实现,也不存在词典构造问题,但很难用它来处理文本中隐含的主题概念,而且会产生虚假组配现象。

句法语义分析标引法和人工智能标引法是汉语自动标引技术发展的必然趋势,标引质量较高,但现在这方面的技术还不很成熟,都还处于试验阶段。

2.2 知识检索可视化方法分析

在检索过程中,可视化技术在检索的结果的可视化、检索过程的可视化交互、检索式的可视化等方面得到了广泛的应用。尤其是检索结果的可视化应用更受关注。将检索结果用图形化可视化方式进行显示不仅可以使人们直接观察到检索对象中包含的知识,也能检索的动态交互;不仅能揭示检索对象间的关系,还能揭示对象中包含的具体知识内容。而且还能帮助用户快速找到符合要求的知识。

检索结果的可视化方法有很多,下面主要介绍了三种可视化方法:

(1)自组织映射SOM[6],它是由芬兰教授T.Kohonen首先提出的一种无导师自组织和自学习网络。它将一个高维输入数据集映射到二维网格上的节点,且尽可能保持原有数据的关系。SOM采用神经元的有序结构,每个神经元表示一个n维列向量w=(w1,w2,…,wn)T,其中n依赖于初始空间维度。使用一维和二维网格的原因是高维空间结构引起数据显示问题。神经元通常在矩形或六边形细胞状的二维网格的结点上,神经元之间也相互作用,映射格子上神经元之间的距离决定了这个交互的程度,图1显示矩形或六边形网格的距离,格子中神经元的数目决定了算法结果的映像度。

图1 映射网格上的神经元

(2)TreeMaps方法(图2)[2,7-8],TreeMaps可视化技术是Johnson和Shneiderman于1991年首次提出的,它是一种表示层次信息的可视化模型。它利用层次结构的元素填充反复分割的矩形区域的这样一个空间填充算法。它将一排排数据作为能整理、按尺寸分类和填充颜色的矩形组以便于图形化地揭示内在的数据模式。这种算法方便终端用户认清本身并不明显的复杂的数据关系。

图2 TreeMaps 可视化技术

图3 双曲视图

(3)双曲视图显示是显示巨大层次信息结构的较新的可视化技术(图3)[9],由Xerox PARC研制(Lamping和Rao,1995,1996;Pirolli等人,2003)。双曲视图的基础是双曲空间的数学模型。双曲模型适合显示巨大的、非均衡的层次化结构。视图中心的结点以高清晰度显示,边缘结点以较小尺寸显示。用户可以选择上下文中的任一结点到视图中心以查看详细信息。

3 知识检索模型中的知识抽取与可视化实现机制

通过上面对知识抽取与可视化的分析,这里设计了一个知识检索模型(图4),通过模型分析可以看出,标题词表、正文词表、关键词表等形成的知识概念表是知识检索的基础,它们建立的合理性和完整性影响了检索的检准率和检全率。而检索结果的可视化技术的运用,提高了人机交互的检索能力,并能根据视觉快速并准确地定位到所要检索的知识。因此这里我们主要讨论模型中知识抽取和可视化实现的机制。

图4 知识检索模型

3.1 知识抽取实现机制

通过上图可以知道,知识抽取的过程主要是完成标题词表、正文词表(自由词表)和关键词表的设计。

(1)关键词表:直接使用文献中标注的关键词。每篇文件一般都会标注若干个关键词,将它们逐个在原文中遍历,统计其出现的频率。

(2)标题词表:对于文献的标题,我们首先对其分词,然后统计非停用词的词频。

(3)自由词表:自由词表是由正文中词频最高的一部分非停用词构成。这些词一般也是该文献主题或相关内容。在抽词过程中,我们首先对正文分词,并去除停用词。然后对结果进行词频统计,输出词频最高的5-10个词进入词表。

对于上面两个词表来说,前者是由文献作者标注的,其优点是主题突出,比较能够表达文章的中心内容,但是缺点是这些词不一定就是正文里面的词频最高的那几个词;后者作为出现在标题中的词,对于文章的主题具有高度的概括性,但是另一方面却显得全面性不够。

知识抽取的主要实现机制如图5,从图中可以理解知识抽取实现原理,首先从检索的资源库中获取文本格式的源文件,将它们分解成单一的文献文档;然后将但以文档分成标题部分、关键词部分和正文部分,对标题部分和正文部分进行分词处理,并对分词进行词频统计,形成标题词频表和正文词频表;而对关键词进行遍历统计词频,形成关键词表。

图5 知识抽取流程图

3.2 检索中的可视化实现机制

(1)查询可视化。查询可视化是对查询扩展、翻译的可视化展现。可视化映射可以选择图、树、双曲树等方式[8]。例如,我们可以采用双曲树方式展现,根节点为原始查询词,二级节点为扩展词汇,三级节点为各个扩展词汇的目标语言翻译形式。节点随用户的浏览自动重建,焦点始终处于屏幕的中央,同时在三级节点提供交互功能,鼠标在其上方时实现回翻功能,鼠标右击时提供一个窗口供用户操作,例如选择该释义作为原词汇的翻译。

(2)查询结果可视化。查询结果的可视化分为两个层次[3]:文档集合可视化和单个文档可视化。文档集合可视化是把检索到的所有文档作为可视化的数据源,以可视化的形式将文档集合的总体情况展示给用户,并提供交互功能供用户进行简单过滤。单个文档可视化则以单个文档作为可视化的数据源,以可视化的形式将单个文档的细节信息展示给用户,目的在于让用户快速准确地把握文档信息。

(3)查询反馈可视化。查询反馈可视化是把检索过程中产生的反馈信息以可视化的形式提供给用户。例如,为了方便用户二次检索,可以把检索结果中文档的关键词和自由词以可视化的形式提供给用户。

通过检索的可视化机制,能使用户将检索结果用图形化可视化方式进行显示,不仅可以使人们直接观察到检索对象中包含的知识,也能检索的动态交互;而且能揭示检索对象间的关系和检索对象中包含的具体知识内容。同时帮助用户快速找到符合要求的知识。

4 实证研究

根据上面的知识抽取与可视化分析,可以了解它们实现的基本原理,现在我们以一个知识检索原型系统来分析它们的实现过程。

本检索系统使用Visual C#.NET作为开发语言。界面力求简洁、明了。支持关联式数据库检索,用户首先需指定检索入口(标题、关键词或正文),之后输入检索词,可以获得检索结果。在检索结果中,用户可以直接查看文件,也可以通过点击相关词进一步查找相关文档。同时还能查看文档的结构和每段的章节大概内容。

检索系统中主要包括两个模块:①知识抽取模块,完成文档中知识的抽取,生成相应的索引库;②检索可视化模块,主要运用可视化的相关理论、方法和技术帮助用户交互检索所需要的知识,同时把检索的结果通过图形的方式展示给用户,让用户快速的抓住信息中的知识。

图6 交互检索的可视化

在检索过程中,用户可以根据选择的检索词进行检索,通过可视化技术中的双曲树映射方法形成交互查询,以便用户根据线索进行选择和查找(图6)。同时对于用户查询得到的单个的文本信息,系统中使用了高维空间描述法完成的单个文本知识内容的可视化映射,通过该图用户能够快速把握文档知识结构,并找到文档的相关知识部分内容(图7)。而且,系统把检索得到文本信息的自由词和关键词作为反馈信息以树的形式返回给用户,用户可以根据自己的查找的需求,选择相应的自由词和关键词,进行二次检索(图8)。这样,用户可以获得查询需求的相关文献和再次检索的检索词,提高了检索的准确率和检全率,同时也提高了检索的效率。

图7 单一文献的知识内容的可视化

图8 自由词和关键词可视化

收稿日期:2010-05-12

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

知识检索中的知识提取与可视化研究_自然语言处理论文
下载Doc文档

猜你喜欢