文本文档语义标注研究综述_自然语言处理论文

文本文档语义标注研究综述_自然语言处理论文

面向文本文档的语义标注研究综述,本文主要内容关键词为:语义论文,文本论文,文档论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      doi:10.3772/j.issn.1000-0135.2014.04.011

      1 引言

      在短短的几年里,万维网通过瞬息制造信息和信息的无所不在的应用,极大影响了社会和商业。信息传播从物理方式到电子方式期间,信息内容的编码仍然保持使用自然语言,这也许是网络业务处理模式改革的最大障碍[1]。传统的网络标注技术主要针对关键词、元数据等设置标签,很难挖掘网络资源的语义内涵,难以满足用户语义检索和语义查询的要求[2]。语义网是当前网络的扩展,它使网络中的所有信息都具有语义,能够被计算机自动的理解和处理,便于人和计算机的交互与合作。语义网技术(如XML、RDF、OWL、Ontology等)的应用使得文档中的知识得以规范化的表示,语义网远景的实现需要大量经过语义标注的文档。为了实现语义网,我们需要对当前网络中的大规模的异质数据(主要是结构化和半结构化的文本数据)进行语义标注,当前的企业和个人也都期望数据能够以语义格式(RDF、XML或者OWL)进行使用。本体被认定为语义标注的基础,通过网络资源(网络数据或者服务)中的概念与本体概念的匹配映射,用户可以明确领域中资源的语义[3]。语义标注技术是将语义信息融入到网页或者文档的核心技术之一,它的出现将影响着知识管理、电子商务等领域的进展,并且真正将只能由人来理解的网页或文档内容变成由机器可以理解的形式。语义标注的实现将使得智能检索替代关键词匹配,查询应答代替信息检索,通过本体映射在不同的组织间进行文档交流,并且能通过语义标注表达对文档的看法[4]。

      Oren等提出术语“标注”既可以表示标注的过程,也可以表示标注的结果,通常所说的“标注”指的是标注的结果[5]。本文认为当语义标注表示标注的过程时,指的是标注这一动作的行为过程。此时,语义标注实际上就是相似度计算的过程,计算所抽取的信息与领域本体中的知识元之间的相似度,相似度最大者对应的概念为抽取信息对应的知识元[6];当语义标注表示标注的结果时,其包含了标注的行为过程,指的是先对待标注的对象(网页、文档、图像等)进行信息抽取,再对抽取的结果进行标注,最后得到标注的结果。本文中的语义标注指的是语义标注的结果,即经过两个步骤(信息抽取和标注)后得到标注结果的整个过程,标注对象是目前网络中储量巨大的文本文档。

      2 面向文本文档的语义标注研究现状

      在过去的十几年里,国内外学者在面向文本的语义标注研究中做了大量的工作,他们所采用的研究方法和技术各不相同,其中自然语言处理相关技术的应用最为广泛。

      2.1 国外研究现状

      国外早期语义标注的研究对象主要是Web中的网页,语义标注只是简单地将信息抽取(IE)的结果与本体内的知识进行映射。例如,Embley等利用本体加上一些启发式规则的方法在包含多条Web数据记录的文档中自动地抽取数据,并进行语义标注[7]。同期,Angele等提出并开发了On2broker工具用于处理万维网上的信息资源,依靠本体使得网页具有明确的语义,展示了如何基于语义处理使用HTML、XML或者RDF描述的Web资源[8]。Erdmann等提出了半自动化的自然语言文本标注方法,构思了一个基于信息提取的方法用于半自动标注,该方法已经在SMES(Saarbrucken Message Extraction System)上被实现了,是一个浅层德语文本处理器。SMES扩展了当时基于半自动化信息提取标注的机制,支持语义内容不断变化的性质,还描述其支持语义标注本体的不断进化的想法[9]。Kogut和Holmes介绍了AeroDAML标注工具的设计:AeroDAML是一个知识标记工具,应用自然语言信息抽取技术从网页中自动化的产生DAML标注,并链接DAML本体中大部分的专有名词以及类和属性的一般关系[10]。

      随着语义标注相关技术的发展,国外的研究逐渐转为对Web文档进行语义标注,采用自然语言文本处理等技术进行标注的实现。例如,Vargas-Vera等介绍了MnM项目,其语义标注内置在文档内容中,并可以通过标准API与本体和知识库服务(WebOnto)进行关联[11]。Cimiano等提出了混合范式方法PANKOW(Pattern-based Annotation through Knowledge On the Web),该方法提出以“自我标注网络”的思想来跳出有监督机器学习的恶性循环,基于近似语义考虑将全局可用的句法资源用于支持元数据的创建[12]。时隔1年,Cimiano等又提出了CPANKOW(Context-driven PANKOW,情境驱动的基于模式借助网络知识的标注)方法,该方法缓解了PANKOW中模式产生机制的不足[13]。Michelson和Knoblock提出了非正式语法和结构文本的语义标注的算法,凭借已知的实体和它们的共同属性的集合,调整集合中的成员,利用匹配后的成员进行信息提取[14]。Ghoula等描述了用于在专利上产生语义标注的方法,该方法依赖于专利文档的结构和语义表示[15]。

      近年来,随着Web数据的规模越来越大,国外的研究开始转向结合自动化处理技术对大规模的网络资源进行语义标注。例如,Laclavík等认为可以使用建立在自然语言上基于模式的方法来构建语义标注的解决方案,提出了结合谷歌MapReduce架构的基于模式的注释工具来处理大量文字资料的方法[16]。Giannopoulos等设计了GoNTogle工具,该工具提供了先进的文档标注和搜索设备。GoNTogle工具允许用户使用本体概念标注几种文档格式,并基于文本相似和先前文档标注来自动产生标注建议[17]。Maynard和Greenwood介绍了一种开发工具,以提高访问封装在英国国家档案馆的庞大数据,该系统称为TNA搜索,可使用多范式搜索整个电子存档(42TB任意数据)。其中语义标注成分的F值约为83%[18]。Basile等建设一个大型公共领域的英文文本语料库并且使用句法结构(派生范畴语法组合)和语义表征(话语表达结构)进行半自动化标注,标注对象包括事件、主题角色、命名实体、指代、范围、结构和修辞[19]。

      2.2 国内研究现状

      国内语义标注研究的发展与国外相似,但是国内的研究主要是方法思想层面的而不是实践应用层面的,大部分的语义标注研究没有与具体的工程项目相结合。

      国内语义标注的研究中有部分是基于规则匹配的浅层语义标注,如张庆旭介绍了清华大学黄昌宁教授的研究,黄昌宁教授研究了复合词的词义与其字义(语素义)间的五种联系,发现了词义几乎等于字义相加的构词机制,利用《现代汉语通用字典》和《同义词词林》等两部机器可读词典MRD和机器可循词典MTD,为每一个汉字的每一个义项分配一个唯一的代码,采用基于例子的推理机制来处理文本中出现的词语。对单音节的多义词可根据上下文来确定其词义,在MTD中搜寻待标注词语最接近的例子,并将例子对应的义项标注到待标注的词语上,最后输出带义项的文本,完成真实文本的语义标注[20]。余露等详细阐述了科技论文文档的类型定义(Document Type Definition,DTD)开发过程,在此基础上探讨了基于科技论文DTD生成XML文档的方法,从而实现科技论文的语义标注[21]。李向阳等利用改进的HMM方法来实现语义的标注,以《同义词词林》的层次式结构为依据,提出利用语义层次的提升来改善HMM(Hidden Markov Model)中参数的估计质量,并采用选择受限策略使算法中的假设条件成立,解决层次提升引起的模型辨别力下降问题[22]。段宇锋等从《中国植物志》中随机采集1000个文档作为数据集,采用自主学习规则与先导词相结合的算法实现中文物种描述文本的语义标注[23]。

      在最近的语义标注研究中,根据标注对象的不同大致可分为面向Web网页的语义标注和面向文本文档的语义标注,两者都是以抽取技术为基础,结合自然语言处理等技术,使用本体或者规范词表进行抽取结果的映射。面向Web网页的语义标注有:荆涛等提出了一种在领域本体指导下,针对中文网页的语义标注方法,该方法运用统计学方法与自然语言处理技术,以文档中句子为处理对象,采取识别和组合两个阶段来完成句子向RDF表示的映射[24]。刘兴涛运用计算机配件领域本体对预处理后的网页文本信息文档进行本体语义标注,并以此为基础对文档内容进行结构化信息抽取[25]。陈星光等提出了一种自动化的语义标注的方法,该方法对HTML文档进行结构分析,并参照词汇数据库Hownet和领域本体对文档进行语义分析,找出文档对应的语义分类树,给文档加上语义标签[26]。马安香等针对Deep Web页面提出了基于结果模式的Deep Web数据抽取机制,有效地解决了重复语义标注问题。但是,这个方法仅针对Deep Web页面,并没有考虑普通的Surface页面[27]。杨晓琴等提出基于包装器的Deep Web语义标注方法,该方法在多个标注源标注的基础上进行组合标注,针对单个数据源信息不全面导致的部分属性无法标注的问题,结合同领域其他数据源信息进行同步标注,生成高效率的标注包装器。利用包装器可以对同类网页的抽取结果进行自动语义标注,而不需要对每个页面都重复标注[28]。

      面向文档的语义标注有:张功杰和黄穗以本体的知识组织体系为基础,以抽取文档的语义向量为目标,提出了基于本体的语义标引思想,建立了基于本体的语义标引模型[29]。沙丽华提出一种面向领域文档的语义标注方法SAMDD。该方法在RDF三元组关系识别方面,给出一种比较邻近实例与属性之间关系的方法OCRNIP,避免了将相同概念不同实例的属性值混淆配对的误操作;最后把语义标注方法SAMDD应用到玉米领域中,开发了语义标注原型系统DDSAS[30]。朱嘉贤等为了能对Web资源内部信息进行多粒度的语义标注,支持对文档内部信息的检索,按树根结点、分支结点、叶子结点及资源信息元为粒度单位,即按多粒度进行Web资源的语义标注,并设计了多粒度语义标注的应用框架,给出了基于粒度匹配计算的搜索应用技术的相关算法[31]。戚欣等提出基于本体知识库的自动语义标注方法,为识别出文档中的候选命名实体,设计了语义词典的逻辑结构,论述了以实体之间语义关联路径计算语义距离的方法;并认为语义标注中的复杂问题是语义消歧,提出了基于最短路径的语义消歧方法和基于N-gram的语义消歧方法[32]。米杨和曹锦丹以顶级本体作为本体工程的技术核心,采用基于医学领域顶级本体语义结构形式的整合本体标注策略,提出了以顶级本体为整合要素的多本体语义标注模式,并以此为依据进行了医学领域语义标注案例的实证,实现了整合本体标注电子病历信息资源,并保存为XML形式语义标注库[33]。

      3 面向文本文档的语义标注方法和技术

      3.1 语义标注的技术总结

      现有的面向文本文档的语义标注研究思路基本是一致的,包含两个步骤:信息抽取和标注。信息抽取是为了获得待标注的对象,这些对象需能够代表整个文档的内容特征。标注指的是将抽取出的信息与本体知识元进行映射链接。信息抽取方法是语义标注性能的主要决定性因素[34]。信息抽取工作中包含了对信息类型的识别,这对于标注链接工作中信息与本体知识的映射起到一定的语义消歧作用。

      自动化文本标注是语义标注研究中一个特别重要的需求,因为它可以减缓知识获取的瓶颈,特别是在标注大型文档集的情况下。Reeve和Han从技术层面出发将自动化文本标注技术分为两大类:基于模式的语义标注和基于机器学习的语义标注[34]。本文按照此分类方法简要介绍语义标注常见的技术,这些技术的应用体现在以下几个典型的语义标注系统中。

      (1)基于模式的语义标注

      基于模式的方法可分为模式发现(如Ont-O-Mat:PANKOW)和人工定义模式(又称人工包装器、人工定义规则,如Armadillo和KIM)。大部分的模式发现方法都是基于Brin文章[35]中的方法:定义实体的初始集,遍历语料库发现实体存在的信息模式,该信息模式可以发现新的实体。持续递归这个过程直到不再发现实体为止,或者用户停止这个过程。标注的产生也可以通过使用人工规则来发现文本中的实体。人工定义模式中最常见的支持工具是包装器,包装器使用人工定义规则,最早由Kushmerick等[36]开发,利用结构化的网页来识别信息进行标注。Ciravegna等[37]在Melita系统中也使用了正则表达式(人工定义规则)来抽取的事件的时间。当文档中的信息非常有规律,例如标准的表格数据,包装器和规则是最有用的。

      Armadillo系统[38]使用Amilcare信息抽取工具[37]在网页中通过机器学习来挖掘具有高度结构化的网站,并采用基于模式的方法来发现实体,将人工定义的模式用于发现命名实体,不需要人工标注的文档语料。Armadillo是自我发现初始的一组种子模式,而不是要求有一组初始种子[35]。实体识别的过程中,一旦发现种子模式,模式扩展将被用于发现新增的实体。实体验证方面,通过请求Web服务如Google和CiteSeer,分析查询结果来验证所发现的实体,确认所识别的实例是否存在。

      CREAM框架[39]中的Ont-O-Mat提供了一个扩展的架构Ont-O-Mat:PANKOW,该框架使用了基于庞大规模Web知识的PANKOW算法[12]替代了Ont-O-Mat原始的标注的组件。PANKOW的核心是模式产生机制,从某些模式中创建模式字符串,并传输特定的语义关系[13]。PANKOW执行过程使用来自信息抽取阶段的专有名词,基于语言模型和指定的本体来产生假设短语。假设短语通过提交给Google网络服务来验证,具有最高的检索结果数量的短语使用合适的概念进行标注。这个核心原理称为“最大化证据消歧”,与Armadillo使用的方法相似,使用多个网络服务来寻找证据,不需要人工产生标注网页的初始集和经历有监督学习的步骤。PANKOW[12]论证了Web中的某些模型的分布规律怎样被用作证据来估计网页中实体正式的标注。例如,短语“城市巴黎”出现在网页中出现的次数,将提供“巴黎是城市”这一证据,并被认为是包含“巴黎”的其他模式的依据。随后的C-PANKOW[13]成功扩展了PANKOW,在PANKOW的基础上又考虑网页中实体出现位置的局部上下文。

      知识和信息管理平台(KIM)[40~42]的语义标注过程依赖于预先构建的KIMO轻量本体,KIMO也是领域内的知识库。KIM使用信息抽取技术来构建大型的标注知识库。KIM中的标注是命名实体(人物、地点等)格式的元数据,这些元数据定义在KIMO本体中,并主要在巨型地名词表中进行识别。KIM在语义标注过程中通过人工定义模式发现命名实体,并将实体类型与本体和知识库中的知识元进行匹配,双重映射通过提供基于属性和关系的消歧线索改进了信息抽取过程。

      (2)基于机器学习的语义标注

      基于机器学习的方法有两类方法:概率(如SemTag)和归纳(如MnM和S-CREAM)。概率方法使用静态模型来预测文本中实体的位置。例如,在DATAMOLD算法[43]中使用隐马尔可夫模型来发现HTML网页中的实例数据。归纳方法是从一组训练样例中归纳出抽取规则来抽取文本中的实体。例如,在Armadillo和Ont-O-Mat平台中使用的核心信息提取算法LP2[11],该算法使用包装归纳(wrapper induction)方法来执行文本的信息抽取。

      MnM[11]的标注训练数据是用于信息抽取(IE)系统,而不是标注工具本身。MnM提供了人工标注训练语料的环境,然后将语料用于基于Lazy-NLP(Natural Language Processing)算法的包装归纳系统。输出结果是归纳规则库,规则库可用于抽取文本语料中的信息。Lazy-NLP系统基于语言信息,使用带有相邻词的连接词集合来产生规则。规则归纳过程中有两类规则:标注和修正。一个规则是由一个连贯的单词序列模式组成,然后通过发现模式来匹配文本的一部分。对于标注规则,是将语义标签插入文本中。对于修正规则,基于训练信息插入导致语义标签位置移动的信息。修正的标签在训练语料使用归纳规则被重新标注的训练期间嵌入。如果归纳标注规则发现了不正确的位置,使用修正规则进行修正而不是替换。MnM的一个优点在于,它提供了APIs来链接本体服务器,并用于集成信息抽取工具,使得MnM可以灵活的使用标注格式和方法。

      Ont-O-Mat实现的第一个扩展是S-CREAM(Semi-automatic CREAtion of Metadata)[44]半自动语义标注框架(也就是Ont-O-Mat:Amilcare)。用户先进行标注,然后系统学习怎样再生产用户标注,对于新文档能够产生建议标注。框架中的信息抽取是基于Amilcare组件进行[37],Amilcare是基于机器学习,需要人工标注文档的训练语料。包装归纳过程使用语言信息,同MnM的Amilcare包装归纳过程一致,产生标注和修正规则。

      SemTag[45]是Seeker综合平台的语义标注组件,用于处理大规模的网页标注。它是基于IBM的文本分析平台Seeker,当实体出现的上下文与标注实例相似时,使用相似函数来识别实体。SemTag从少量的训练样本中学习,并自动标记Web中的概念实例。这个工作[1]已经在一个大规模的数据中进行测试,并取得较好的精度。SemTag使用三个步骤进行标注:定位、学习和标注。定位阶段,从源文档中检测标记单词,发现分类词表中匹配的标签。如果发现了标签,保留源文档中标签两旁10个词的窗口。学习阶段,使用语料库的一个样本对分类表中各个节点进行检测,发现术语的语料库范围分布。标注阶段,浏览来自定位阶段的所有窗口并消除匹配的歧义。一旦匹配验证成功,将URL、引用文本和其他的元数据存储起来。SemTag/Seeker是扩展性系统,新的标注应用可以替换现有基于分类表的语义消歧(Taxonomy-Based Disambiguation algorithm,TBD)算法。

      (3)小结

      所有的语义标注方法都需要某些类型的词典和资源[34]。基于规则的系统需要规则,模式发现系统需要有初始的种子集,机器学习系统需要训练集(通常是已标注的),其他的系统需要构建词典。在语义标注中必须使用本体,因为语义标注是标注本体类的实例数据,并且与本体类进行映射。本体有简单和复杂之分,简单本体指的是普通的分类词表和结构体等;复杂本体指的是具有大量关联关系的本体。部分语义标注系统中包含了反馈循环过程,本体和支撑的知识库在每次对文档集的标注过程中学习到更多的信息。这种反馈循环结果使得标注随着时间而更加精确[41]。基于模式的系统需要人工定义规则,不同的是在PANKOW[12]和C-PANKOW[13]研究中使用非监督方法来自动发现种子模式的初始集。

      现有的语义标注大部分都使用了自动方法,例如信息抽取和包装归纳,其最主要的缺点是没有具体修改语义网,也就是这些方法都没有将标注的输入或者输出与本体进行关联[46]。这个问题在SCREAM[44]中进行了讨论,并开发了一组信息抽取结果和本体映射的启发式。然而,这些启发式对于大规模、领域无关的语义标注是无效的。因此,本文认为在信息抽取和包装归纳的过程中需要更加直接的使用本体。

      3.2 语义标注的方法分类

      通过第2章和3.1节的研究现状回顾可以看出,语义标注研究所采用的方法和技术纷繁复杂,如何将这些方法进行归类是研究语义标注方法的先决问题。国内外已有部分学者对语义标注的方法进行分类,如张晓林综合以往的研究,根据语义标注发展历程将标注方法分为三类:一是人工标注;二是利用DTD(文献类型定义)和schema(文献模式)进行概念集映射和标注;三是利用词汇语义分析进行标注[47]。Uren等认为文本的语义标注可分为4类:包装器、集合有监督学习的信息抽取系统、使用无监督机器学习的信息抽取系统、自然语言处理系统[48]。毛平从标注者的角度出发认为语义标注有两种方式:一种是有由发布文档的用户来创建;另一种是让大型的机构例如著名的搜索引擎公司或权威的机构来提供通用的大本体,供普通用户在进行语义标注的时候使用[49]。荆涛等按照语义标注过程中本体的参与程度将标注方法分为应用传统信息抽取技术的方法(Information Extraction,IE)、基于本体的信息抽取方法(Ontology Based Information Extraction,OBIE)、基于自然语言处理的方法(Natural Language Processing,NLP)[24]。沙丽华根据语义标注的自动化程度将其分为手工标注和自动标注,并进一步将自动标注按照所采用的具体方法细分为7个子标注方法[30]。张凯在张晓林的基础上增加一种新的标注方式:分析文档的词汇,建立词汇跟本体概念之间的联系[50]。

      本文认为语义标注方法应从标注过程中本体的使用程度这一角度进行划分。因此,本文在荆涛等人分类方法[24]的基础上,对其每个分类的含义进行深入的探索和解释,并参考了文献[48]、文献[51,52]中方法分类,将语义标注方法分为基于传统信息抽取技术的方法、基于本体信息抽取技术的方法和基于自然语言处理的方法,并使用该分类对现有的语义标注方法进行归类。

      基于传统信息抽取技术的方法指的是将本体当做普通的分类词表,在信息抽取结束后进行抽取结果和本体的匹配映射。例如,S-CREAM[44]综合运用了Ont-O-Mat与Amilcare工具,将Amilcare产生的标注结果与Ont-O-Mat定义的关系元数据内的概念标记匹配。Patil等提出了MWSAF(METEOR-S Web Service Annotation Framework),使用本体半自动化标记网络服务的框架,开发了算法去匹配和标注与本体相关的WSDL文件[53]。陈叶旺等在领域本体知识的语义环境和资源文档结构基础上,提出一种文档语义标注改进方法,分析、计算标签-文档的词频相关性和语义环境在局部窗口的共现性,实现对各类文档资源的语义标注[51]。

      基于本体信息抽取技术的方法指的是将本体作为信息抽取过程中可用资源的一部分参与信息抽取的过程,比如利用本体内已有实例信息来构造列表,简化抽取过程中对于概念实例的识别。例如,SemTag工具[45,46]首先在TAP本体实例集合中查找所有与待标注词匹配的可能实例集合,然后根据待标注词的上下文进行相似度计算,找到与待标注词最匹配的实例。KIM平台[41]在应用现有本体实例集对文本进行标注的同时,进行新实例的生成工作。常平梅等提出一个在本体集成的基础上建立起来的多本体语义标注模型。该模型利用桥本体集成顶层本体和多个领域本体,同时借助基于本体的信息抽取技术对网页进行语义标注,并将标注信息存入标注库,使标注信息与网页分离[54]。

      基于自然语言处理的方法指的是利用自然语言处理技术对待标注的自然语言文本进行句法分析和关系提取,然后将提取结果与本体的三元组知识(元)进行映射。例如,Alani在Artquakt项目中利用Wordnet中的词汇关联关系对句子的谓语动词进行扩充,得到词汇的词义描述,并从中寻找与本体属性相一致的语义来完成映射[55]。Lai和Wang设计了iOkra框架用于处理中文自然语言文档,该框架借助NLP技术和本体定义可以从台湾股票领域的新闻网页中获取相关的知识[56]。Schutz和Buitelaar提出采用了统计方法获取领域中表达属性关系的动词,并在句法分析过程中利用这些已标注类型的动词信息来寻找对应的本体属性[57]。罗旋指定了有标复句本体的标注说明及标注规范,为语义标注提供标注体系结构。综合运用人工智能和语料库语言学的原理方法,设计了一种面向中文信息处理的基于语言学本体的特定语义标注模型[58]。张亮亮提出了基于领域本体的语义标注方法,在文档预处理的基础上,改进现有的权值计算方法,获得特征词,对特征词所在句子进行句法分析,生成RDF三元组[59]。

      4 面向文本文档的语义标注发展趋势

      自从Berners Lee等提出语义网[60]思想以后,越来越多的研究者注意到当今网络现状与语义网之间的巨大差距,语义标注成为当前语义网研究的重要方向。语义标注是很活跃的研究领域,它将推动语义Web走向实际应用,能够提高信息检索的精确性和网络资源的互用性。本文基于语义标注已有的研究,总结了现有标注方法存在的不足,并认为面向文本文档的语义标注今后的工作重点还可从以下4个方面进行:

      (1)支持多种文档格式

      现有的面向文本文档的语义标注方法研究大都不考虑文本的来源,文本大部分来自文本文件,但是文件有许多格式,其中包括Word文件、pdf文件、电子表格以及复杂混合的不同格式。虽然从不同格式的文件中获取文本是一个技术挑战而不是研究挑战,但是文本的获取仍是开展语义标注工作的先决条件。

      (2)语义关系的识别和映射

      当前的语义标注工作,大部分还都只是用单个本体的语义元数据(本体的实例、属性、概念等)为文档作标注,通过在文档中查找是否存在与语义元数据相关的词汇来实现[52]。多数方法在语义标注过程中能够较好地完成类型标注,识别出文本中的实例,但是关系抽取相对较为困难[24]。语义标注方式应该是基于本体语义关系的,即本体的三元组形式,不应当只是通过某个单独的本体知识点来进行标注。自然语言语句的句法结构对语义标注研究是适用的,可以从句法关系出发,寻找实例间的属性关系,有效利用包含主谓宾关系的所有句法关系。现有少数研究者对该方面的研究进行了初步探索,如文献[24]、文献[52]、文献[57]和文献[59]等都是通过句法分析提取句法关系,再与本体中的RDF陈述进行映射。

      (3)支持多本体和本体进化

      文本中的词汇往往涉及多个本体中的概念,少数标注方法如:SMORE[61]工具允许用户使用多个本体标注页面,文献[33]进行了顶级本体统控的多本体语义标注实证研究,但是大多数标注方法不支持使用多个本体来标注页面,这与语义Web的标注环境不符。标注方法不仅需要适当的标准本体格式,还需支持多本体标注。在多本体的语义标注过程中,本体必须被合并或者必须明确声明标注是参考的是哪个本体。此外,随着时间的推移我们将不得不考虑如何来处理本体的变化,例如合并新类或者修改现有的类。在本体发生变化的情况下,我们需要确保本体和标注之间的一致性。

      (4)支持文档内容的进化

      本体是有时会发生变化,但是一些文档却是经常改变。例如,W3C的规范文档已历经了多次修订。本体的进化问题是关于保持本体和标注一致性。这个关于一致性的问题从文本的角度来看,即保持文本中的标注与文本内容的一致性。当文档修订时,文档上的标注需要随之变化,如何针对文档的改变进行标注的修正是我们所需要考虑的问题。

标签:;  ;  ;  ;  ;  ;  ;  ;  

文本文档语义标注研究综述_自然语言处理论文
下载Doc文档

猜你喜欢