维基百科知网的构建研究与应用进展,本文主要内容关键词为:进展论文,维基百科论文,知网论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
知识挖掘能够将不易表达传递的隐形知识显性化并加以利用,为国内外信息机构在Web2.0环境下开展个性化、专业化、语义化和智能化的知识服务提供了技术支撑[1]。目前维基百科的规模不断扩大,其质量与结构化程度得到广泛认可,特别是中文维基百科知识质量高、数量大、更新程度快以及半结构化信息丰富等特点,具有其他语料库资源无法比拟的优势。
1 维基百科及其基本元素
维基百科是一种开放编辑和免费共享的百科全书,其知识的创建与维护来自于世界的自愿者,他们可以自由地访问、添加、编辑其中的内容。维基百科以页面为单位形成一个具有丰富链接结构的超文本文档集合,包括以下基本元素。
(1)文档(Article)和信息框(Infobox)。维基百科的基本结构单元是文档页面,每个文档有唯一ID标识以对一个概念作详尽描述。这里的概念泛指如医院、飞机、军事演习等一般的概念,也可以是如军事演习、歼20战斗机等一个具体的概念实例。文档首句对某个概念概述性定义,包含以黑体字出现的文档概念的同义词,第一段对概念总体描述,接着从不同角度对概念进行细节性描述与总体介绍,以构成文档的文本内容。概念一般具有许多相同的基本属性,信息框提供标准化相似概念基本属性的统一模板,所显示的属性从不同侧面表述了文档的特点,如描述“战斗”信息框提供的基本属性为:日期、地点、结果、起因、参战方、兵力与伤亡等。信息框可以在文档中相互引用,便于计算机自动抽取语义知识,这种特性为本体构建中定义概念属性与属性值提供了便利,YAGO和KOG[2]等都利用这一特性研究了语义知识库的自动构建。
(2)目录(Directory)和链接(Link)。维基百科的一个文档至少属于一个目录。同一目录类别下的文档通常描述具有相似性的概念。可以将目录视为一个概念,所以目录可以隶属于高一级的目录,最终形成一个层次化的目录结构。分类目录间的单向多对多从属关系,使得维基百科的目录结构近似一种有向无环的层次结构。将目录结构中的概念视为节点,从属关系视为边,则可利用图的方式描述完整的目录结构。对于一个文档,用户可以从某个根节点出发,通过不同的路径找到该文档。这种目录结构避免了大众分类法缺乏层次、检索不便的缺陷和传统叙词表类别更新缓慢的缺点,方便用户从多维角度与多条路径检索、浏览文章。除了文档与目录之间、目录与目录之间可以关联,文档与文档之间也可以通过页面内容中的超链接联系起来。类似传统的Web超链接,维基文档中包含锚文本(Anchor Text)指向其他文档。通过这些超级链接,可以由一个概念扩展出若干个相关联的概念。像文献中的引用关系,在浏览某篇文档时,可以通过正文中的超链接跳转到其他文档去了解相近或者相关的概念,更准确更全面地去了解某一个概念的背景知识。需要注意的是,锚文本的指向文档指代一个确定的概念,链接概念是有人为编辑在文档中的正确词义,而锚文档通常与自然文本一样,其表现形式是多义词或指代歧义词。同时,文档中的超链接存在一定噪音,一些引用概念未必与文档描述概念紧密相关。除了页面内容链接外还有外部链接,这可以看做是编辑页面内容的参考文献。
(3)消歧页(Disambiguation)。一些词语在字面上相同却有多种语义,即一词多义现象。除了词语固有的多义性外,随着事物的发展变化,一些词语的指代对象也会发生变化而具有新的含义。常用的词义消歧方法主要是根据多义词在文本中出现的上下文信息来确定其语义[3]。消歧义页面提供的词语与多个文档的一对多关系与说明性解释,能够增加歧义词的背景知识,解决文本中的一词多义与命名实体消歧问题。文档中罗列了所有多义词可能指代的文档,并对概念作了简明的解释,这非常有助于消除文本中的歧义问题。
(4)重定向(Redirect)。重定向是一种特殊的页面,用户在进入文档或点击指向该名称页面链接时,维基自动导航到重定向页面内部指定的另一相关页面中,从而实现相关页面可以通过多个名称进行访问。文档名称重定向内容页面中有黑体字标识的简称,可以用来建立类似《同义词词林》的同义词库,是文本处理中可以利用的重要资源。
(5)其他。维基百科还提供了编辑历史、讨论、帮助与管理等一些特殊页面,如维基百科提供了大量的人物、地名、历史列表等列表页面,组织具有共同属性的文档,为用户编辑、相互交流提供帮助便利。
2 维基百科语义知识网络的构建
维基百科中的众多基本元素与结构化信息构建了一个丰富的语义知识网络。在维基语义知识网络中,文档间与目录间蕴藏了大量的超链接,主要构成了文档图与分类图这两个结构化关系图。前者侧重于反映比较文档描述概念内容之间复杂的关联,可以通过文档页面内容中的超链接生成;后者表达了文档与目录、子目录与父目录之间的等级关系,从文档页面与分类页面中构建,都是语义知识网络的基础。消歧页面、重定向和信息框的使用丰富了维基百科所包含的语义关系,从不同角度和维度反映着语义关系,在语义知识挖掘中起着重要作用。
由于文档是维基百科最主要的组成部分,文档之间的超链接的生成与文档内容密切关联。将维基百科中的每篇文档作为一个节点,超链接作为有向边,就可以得到维基百科的文档图。文档图集中反映了文档与文档之间的语义关联性。同样,分类目录之间、文档与目录之间的从属关系,构成由节点、边构成的反映维基百科中各基本元素间语义关系的目录图。另外,消歧页面、重定向页面、锚文本等反映了词语概念间的不同语义关系,这些关系交织在一起,即形成了能够展现词语间多种关系的语义图。为形象地描述维基语义网络中的结构,如图1设计了一个维基百科语义图模型。
图1 维基百科语义图模型
语义图由抽象到不同平面的文档、目录、同义词、多义词节点与节点间的连接边共同组成,表现的语义关系主要有文档-文档关系、目录-目录关系、文档-目录关系、一词多义与同义关系。针对文档、目录、消歧、同义、链接等基本元素,维基语义图定义为:G=(V,E,T,L)。
其中:概念集合V表示维基语义图G,指代的概念词称为G的一个概念节点;边集,指代维基百科中存在语义关系的节点之间的连接边;T是V的类型集合,V中的每一个节点v的类型T(V)={文档、目录、多义词、同义词};L是边的类型集合E中每一条边e的类型,L(E)={文档链接关系、目录从属关系、同义关系、多义关系等}。
可以发现,维基百科分类体系吸收了传统叙词表与社会化标注分类方式的特点,其分类关系的种类和数量是没有限制的,并且与传统分类体系形成的树形结构不同,每一个节点可以包含多个子分类或文档,也可以从属于多个上层分类。文档图中的超级链接关系密集,反映了更多节点之间纷繁复杂的联系,各节点的连接度通常远大于分类图中的节点,但是这些链接关系只反映文档概念内容之间的引用和被引用的关系,很少有明确的语义关系。文档间的链接关系由文档中的节点与边表现为包含几万甚至上百万计的节点文档图,其中包含丰富的链接边。如在中文维基百科中,除目录页与重定向页的文档数有352 138篇,还包含13 762 307个文档链接,即每篇文档平均包含超链接39个,而一些节点的链入或链出数量超过500个,327个节点的链入链接数超过1000个。维基百科具有密集的链接结构,具有较高的聚类系数与高连通性。
与文档图中的链接引用关系不同,分类图区别于文档图的最大特点是节点之间存在等级层次关系,子目录节点与父目录节点两端具有明显的从属关系。目录图的边指向方向表示由抽象到具体,逆向方向则从具体至通用。由于文档可以直接映射到多个分类,这样文档图与分类图之间可以相互连通成为一个整体。同时,文档与同义词之间的连接边表示了词语之间的同义关系;文档与多义词集之间将多义词与其相应文档作为节点,链接关系作为边,表示词语含有多种意义。将同义词、多义词对应的边与节点,投影在相应平面,与文档图同样可以显示为平面图结构,构成同义词语义图、多义词语义图。各个子图可以投影在不同平面形成一个立体的网络结构,也可以投影在一个平面,形成包含多种关系的语义图。节点与边将文档、目录、同义词、多义词关联为一个整体,统称为维基百科的语义图。
3 维基知识挖掘中的词义消歧和文本分类聚类
维基百科的内容页面、消歧页面、重定向页面以及文档间超链、目录结构与信息框等,共同构建了知识丰富的语义资源,具有广泛的研究价值与作用。许多研究者已不仅仅把维基百科看做一部百科全书,而且将其作为语义词典、语义文本库、数据库与本体,用于词义消歧、命名实体识别、文本分类聚类、信息检索、信息抽取、本体构建等研究与应用[4]。由于维基百科中的文档以自然语言方式记录了大量的人物、地理、时事、新闻等概念,并且以各种链接方式赋予了各种语义关系。近年来,维基百科知识逐步被用于知识挖掘的各种研究与应用。
3.1 词义的消歧
维基百科是一个集广泛性与结构化为一体的用于自然语言处理的理想资源,具有许多天然的优势。词义消歧是根据一个多义词在文本中出现的上下文环境来确定其词义。为提高词义消歧的准确程度,当前常见的方法是通过知网等语义知识资源提供的各种词语关系作为计算机理解的背景知识。维基百科的出现为词义消歧中的语义知识提供了另一种替代方式。维基百科的文档具有唯一的名称,由说明性内容作为明确解释。当一词多义时,可以通过重定向页面和消除歧义页面提示或指示到具有唯一名称的文档。也就是说,维基百科中每个文档概念的词义是没有歧义的、唯一的,因而这些维基提供的文档链接、文档内容、消歧义页面等结构化的语义信息都可以用来进行词语语义关系计算。与知网、词网相比,维基的覆盖范围更广、知识更全面、内容更新更快,为消歧工作提供了比传统资源更丰富的背景知识。
(1)利用维基百科建立歧义词注解进行消歧。Mihalcea等[5]提出维基百科页面中的锚文本通常与指向的文档所用的词语不同,一般是指向实体的简称。如:超链接“滚石”,通过标注可以链接指向滚石唱片公司、滚石乐队和滚石(杂志)等,这是歧义消解任务中宝贵的语义信息。首先,自动搜集所有该类词语,将锚文本作为歧义词,锚文本指向的链接文档中标题作为消歧词;然后,人工将歧义词与对应词匹配到词网中的相应词义中,从而构建一个多义词分类器;最后,提取标注文本中的上下文进行分类学习,实现消歧义。实验中,对SENSEVAL数据集中的49个多义词进行测试得到84.65%的准确度,取得较传统方法更好的效果,证实了维基百科用于词义消歧的可行性。
(2)计算歧义词候选文档与存歧义文档的相似度进行消歧。Wang等[6]基于维基文档内容利用TFIDF计算歧义词候选文档与存在歧义的文档的相似度实现排歧;Bunescu等在命名实体消歧中计算多义词上下文语境与候选概念文档的余弦相似度作为识别依据;Gabrilovich等[7]将维基百科作为词典对大规模的文本中出现的命名实体进行消歧。这些方法虽获得一定的消歧结果,但没有充分利用维基中的网络结构关系。史天艺等[8]也利用目录与文档的语义图,计算消歧词所在文本与候选词文档的相似度、歧义词与候选词上下文语境的重合度以及类别重合度,采用线性加权得到最终结果。
(3)基于文档图和目录图的网络结构方法进行消歧。Cucerzan在命名实体消歧将语义信息中的目录层次与文档链接融入在一起,将文档与目录作为语义图中的节点,计算歧义词与候选词上下文中词语的链接文档与目录之间是否存在边,以余弦相似度计算两向量的相关程度识别命名实体;Rotinov等[9]将消歧方法分为利用维基百科文档内容的局部方法与基于图论的全局方法,分析了两种方法的优缺点,通过结合两种方法获得了更好的性能,并指出基于文档图、目录图的网络结构方法在消歧性能上可以进一步提高;Li等[10]利用维基中的网络结构,将词义消歧转化为词语相关度计算任务,选取歧义词上下文中的词语作为背景信息,将歧义词候选词与上下文词语匹配到维基百科中的文档节点,以是否出现锚文本与候选名称不同的比例以及上下文词语之间的相关度作为过滤上下文词语的权重参数,计算上下文词语与候选词的相关度之和,相关度最大的候选词即为正确词义。
3.2 文本的分类与聚类
文本分类的目的是将文档按预定分类识别到语义内容上最相关的类别,旨在将文本分入意义最相关的类别。而聚类则是在没有分类的情况下,旨在将文本自动组成有意义的分组,其基本思想是将文本表示为词语、短语或概念向量,通过计算语义距离或语义相似度表示文本与类别或聚类中心的相关程度,确定文本所属聚分类的标签。维基百科为文本挖掘任务提供了一个关于描述这些词和短语及之间丰富语义关系的知识资源。
(1)明确语义分析方法。Gabrilovich提出利用TFIDF将维基文档表示为词语向量,由于文档是对一个概念的描述,将词语从词语空间转化为概念空间,通过上下文信息处理同义、一词多义问题,增强短文本语义特征,在一定程度上解决语义稀疏问题,并且每个词语可以具有明确的概念名称,具有可解释性。该方法在很大程度上仍依赖于文本中词语出现的数量,容易产生与类别不相关的概念,造成误分。
(2)计算维基概念相关度方法。Hu提出一种处理短文本聚类任务中语义特征稀疏问题的三层模型,首先匹配短文本中的维基概念,然后以最大长度方式寻找匹配的概念并扩展文本的概念特征,最后利用一些启发式规则完成文本语义特征的扩展,并以K-Means算法聚类得到聚类结果。在后续工作中,Huang[11]构建了一个基于维基百科的歧义词分类器,并利用维基概念间的相关度加强对文本的语义表示能力。
(3)建立文本与概念映射方法。黄黎等[12]利用传统词方法建立文本与概念的映射,并利用信息增益(InfoGain)方法选择概念,构造了一个结合外部知识的分类器,以解决文本语义特征稀疏问题,增强文本的语义特征。
(4)利用其他百科扩展的分类方法。杨柳等[13]通过互动百科以及百度百科文档内的链接节点的分类信息,加强自身文档的分类向量,利用扩展后的分类向量计算语义相关度。
这些研究中值得注意的是:词语相关度消歧步骤的引入对于提高聚类性能有较显著的贡献,维基知识能适应于短文本分类聚类,能处理不断更新内容的新闻、博客、论坛等Web数据。这对于当前处理Web上的话题追踪、网络舆情监控等面向不断演化更新的信息处理任务,具有非常有益的帮助。但文本中的词汇并不是每一个都与主题相关。虽然一些百科扩展在信息规模上超过中文维基百科,但它们的语义化程度相对较低,许多信息以社会化标注方法分类,信息框/文档间的链接信息、消歧信息、同义词信息等语义关系较少,语义化程度难以与中文维基百科相比。
4 基于维基百科的Web2.0知识挖掘应用
整合维基百科Web2.0知识挖掘的一项重要应用是网络信息检索。信息检索旨在帮助用户从大量结果中获取有用资料,维基百科的广泛覆盖面和内部链接结构提供了丰富的语义知识。基于维基百科的信息检索的研究主要集中在查询扩展、问答系统上。
(1)查询扩展通过自动扩展同义词、相关词等提高查全率或查准率。Gregorowicz利用重定向页面与消歧义页面构建了一个包含3百万同义词语的查询词库;Li将维基知识用于伪关联反馈查询;Milne将查询定位到维基文档,以布尔组合文档相关词方式进行查询扩展,并将文档分类主题反馈给用户,以识别用户可能的查询主题;Egozi将查询词与概念表示为概念向量进行相关度排序,但这种方法依赖于维基文档词语的出现频率与文档间词语的区分度,查询词与文档以概念表示时很容易产生过多不相关主题的概念;Tu以概念向量表示文档容易产生不相关的概念,设计了一种语义平滑的机制对文档中的上下文词语进行评估,以正确的表示文档来提高查询性能;Muller等将维基百科与维基词典融合用于检索,主要是将维基概念与查询词匹配,查询文档转换为概念向量用于统计分析,并利用维基中提供的多语概念节点链接进行交叉语言检索。
(2)问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。如提问:“谁发现了北美洲?”Kaisser从维基文档标题、句子、段落、内容上挖掘具体答案;Waltinger首先利用目录结构识别口语化查询中问题词语相关的主题类型,对问题词不断优化以确定问题所在的文档与目录标签,并结合多语言机制优化问题的答案;Jeongwoo[14]设计了一种基于概率的问答系统模型,为过滤冗余数据以更精确地提供问题的答案;Miao将答案发现分为广度挖掘与深度挖掘,利用维基百科与Yahoo从回答“是什么”的简单问题上升为对如何回答态度、观点型提问进行了研究。其中,维基百科众多的概念作为广度挖掘数据源,而概念描述中的各种链接作为深度挖掘数据源;Vercoustre[15]的研究结果显示了维基百科的文档图与目录图对检索排序的有效性,利用信息框、目录图、文档图研究检索推荐等。
整合维基百科Web2.0知识挖掘正在发展更多的应用,如信息抽取与本体构建。信息抽取把非结构化数据中包含的信息以结构化方式输出,如located(兵马俑,西安)、isa(歼-20,战斗机)等常以语义关系的方式表现。围绕维基的信息抽取主要任务是:抽取标识维基的文档、目录的网络结构、抽取并整理分析维基概念的信息框、挖掘维基百科中发掘知识丰富现有的本体资源。Ruiz-Casado[16]在维基文档中抽取关系以丰富词网中的概念关系,准确率为61%~69%。这些语义关系的抽取得益于维基文档书写方式的统一,特别是维基文档首句对概念以主谓宾格式语法做出的定义性解释;Chernov等发现所属相同2个目录的文档之间具有很强的链接连通性与语义相关性;Nakayama[17]通过语义计算挖掘出140万个实体之间的语义相关度,这些概念间具有很强的从属关系、属分关系,进一步表明了维基百科自动构建本体的可行性。
典型的大型本体构建工程YAGO建立了一个覆盖面较全、数量质量较高的本体知识库,使用启发式规则从维基百科的文档内容、信息框和分类图中挖掘语义关系,将其组织到词网的概念层次网络中,近期进一步提高对维基百科、词网中上层分类的概念的覆盖程度,实体对象扩充至1000万个,并且大大提高了启发式规则的精度,以采样方法对7000个实体的事实描述数据检测中,YAGO的准确度达到了95%。DBpedia工程以信息框为模板,采用启发式规则寻找符合模板的实体,即以信息抽取的方式发掘信息框中的关系对应实体,目前已包括人物、地名、音乐专辑、视频游戏、组织机构、物种和疾病340万个实体,其中150万个以本体的方式进行了分类,但不像YAGO那样有非常明确的语义关系。国内的罗志成等[18]利用维基分类图,根据句法规则分析文档和目录的链接特征,标注类目之间的语义关系,自动构建包括上下位关系、类与实例关系的语义词典。其统计特征主要根据文档所属目录与目录之间的传递性作为关系判定依据,相对规模较小,主要包括上下位关系。朱晓冰[19]针对当前本体的建设方法规范性低、可扩展性差以及共享和重用难等问题,对维基百科构建本体的可行性进行研究。还有学者利用目录层次关系、短语结构句法模式信息挖掘语义信息,设计了利用相关度计算获取语义知识,并将维基百科中的相关词添加到知网扩展现有本体规模的方法。
Web2.0知识挖掘将对信息的应用从低层次简单查询提升到从数据源中发现知识,分析维基百科基本元素与结构关系特点和其在信息检索、文本聚分类、歧义消解与信息抽取等领域的应用研究,从整体上把握基于维基百科的知识挖掘研究现状与进展,为当前知识服务系统建设提供了一定的借鉴,也为后续研究的内容奠定了基础。