语义标注工具的特征分析及适用性研究_数字图书馆论文

语义标注工具的特征分析及其适用性研究,本文主要内容关键词为:适用性论文,语义论文,特征论文,工具论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      21世纪以来,伴随着更加广泛的科学研究和交流以及信息网络技术的飞速发展,科研人员逐渐被淹没在海量繁杂的信息海洋中。科研信息的内容和形式都发生了变化,其传播和交流的方式及途径变得更加丰富和多样化,从而使得用户利用信息的基本方式发生转变,出现了新的科学研究范式。这些改变对数字图书馆服务提出了更高的要求,促使数字图书馆改变原先的以依赖传统的文献类信息产品(Information Items)服务向着依赖信息内容(Information Content)的服务转变,从传统的文献信息服务向着知识服务转变[1]。

      语义Web技术可以为数字图书馆提供新的信息组织与处理能力,通过本体揭示元数据的语义、动态加工提取、组织信息知识,在各个应用领域或不同信息系统间有效实现无缝交换、虚拟集成和互操作性。语义Web及相关技术为数字图书馆向知识服务转变提供了支撑,已成为数字图书馆创新服务研究的热点领域。

      如何将数字图书馆可获取的海量文献资源和普通信息网页转换为富含语义信息和知识的语义页面,如何在数字图书馆资源发布时使用本体中定义的关系词汇,并且显示地表达出概念所属的语义类别,这离不开语义标注(Semantic Annotation)及相关工具。语义标注就是将数据资源中涉及的实体(作者实体,术语实体,机构实体等)与其对应的本体实例(语义描述)相关联,利用本体中定义概念、术语以及语义关系显示地揭示和表达数据资源的语义[2-3]。其核心思想是以形式化知识系统的本体为依托,为网络资源及其各个部分标注概念类、概念属性和其他元数据的过程,是语义推理的基础[4-6]。

      按自动化程度的不同,语义标注工具可以分为手工标注、半自动标注、自动化标注几种类型[7]。数字资源越来越庞大以及大规模自动化标引的需求,使得自动化语义标注工具越来越受到青睐。笔者利用WoS数据库、CNKI数据库以及Google搜索引擎,对国内外自动化语义标注工具的相关研究的文献进行了搜集和整理,发现仅有少数对基于本体的语义标注工具进行了比较[8-11],但发表年份较早,基本上是在2009年以前,还有一些学位论文文献中涉及一部分内容对自动语义标注工具的简单介绍[12-14],近些年集中针对自动化语义标注工具进行比较分析的文献尚未发现,因此,本文在总结语义标注工具相关技术研究现状的基础上,对目前主流的自动化语义标注工具(包含半自动化语义标注工具,下同)进行梳理和比较,总结和分析常用自动化语义标注工具的特征,并对其在数字图书馆资源的自动化知识语义组织中的适用性进行探讨,以期为数字图书馆相关工作实践开展提供参考。

      1 语义标注工具相关技术研究

      国内外众多学者和机构都对语义标注工具和相关技术开展了较多的研究和实践探索。从开始提出基于预定义规则的语义标注方法,到后来的基于机器学习的标注方法,代表性的如Ciavegna等提出的LP2(规则自动学习算法)。同时,相关的改进算法也不断被提出,如IASA等。许多高校和组织也成立了专门的研究小组或资助专项研究课题来对语义标注技术和工具开展研究,如Maryland大学Mindswap实验室研发的标注工具SMORE;W3C(World Wide Web Consortium)组织的专门研究小组研发的标注工具Annotea[15]等。推动语义标注技术及工具研究和实践的还有一些重要的国际会议,如ISWC(International Semantic Web Conference,国际语义Web会议)[16],还有欧洲和亚洲语义Web会议等。在国内,清华大学、上海交通大学、东南大学等相继成立专门的语义Web技术研究中心。

      从研究的内容来看,国外语义标注相关技术和工具的研究热点大致集中在以下3个方面:①对网络资源进行语义标注。即对网络数据内容进行语义标注,J.Jason认为对网络资源进行标注可以使用户更丰富和有效地浏览和检索资源[17],他提出了相关的语义代码转换方法,通过浏览器可以对用户的访问日志、浏览和搜索行为等进行记录和查询,使用户利用更加个性化和智能化;Sym' Previus项目开发了一个数据整合系统,可以依据预定义的食品领域本体进行分类,结合数据抽取实现对数据的标注[18];Web Content项目开发了一个半自动的信息获取工具,可用于挖掘和获得科技文献中的数据表格,依据定义的本体元素进行半自动化的语义标注[19]。②对图像进行语义标注。维也纳大学PRIP团队(Pattern Recognition and Image Processing Group)在调研中比较了基于自由文本、基于关键词和基于本体的标注的优缺点,阐述了图像标注的工作机制,包括标注的准确率和效率[20]。微软亚洲研究院与伦敦大学的学者共同提出一种对图像实现自动语义标注的方法[21],该方法主要是利用了将跨媒体关联模型与全局特征、局部特征和上下文特征相结合的形式。③对多媒体进行语义标注。欧盟的CASAM(Computer-Aided Semantic Annotation of Multimedia)项目将计算机辅助标注引入对多媒体资源的语义标注中,减少了标引过程中的人工参与,实现了对多媒体的半自动语义标注并提高了准确率[22]。ISO组织也进行了“Project 24617”,共包括8个部分,其中关于语义标注框架的第3部分“命名实体”和第4部分“语义角色”为命名实体的标注方式、语义关系的自动标注等提供了参考,形成了语义标注的国际标准。

      国内学者和组织的研究内容,从最初的对国外语义标注技术和工具的介绍和比较研究,到近年来多样化探讨语义标注的技术和方法,从单一纯文本标注对象发展到对网页以及多媒体资源进行标注[23-24]。其中的一个热点领域就是对中文语义标注技术和方法的探索,荆涛等探索了Web上中文语句的RDF表示方法[25];李济洪等探讨了基于自然语言的汉语框架语义角色自动标注方法[26];郑莉等提出的学习对象元数据的XML绑定规范——CELTS-3.2,为自动标注中文语义关系提供了参考[27];于晓繁提出了一种基于本体和元数据的语义标注模型——语义标注瀑布模型(Waterfall Model)和协作式语义标注系统架构,选择了WordNet本体库实例,利用GATE语义标注平台进行试验,解决了语义标注平台中不能进行本体词汇扩充的问题[28]。

      国内外这些语义标注相关技术和方法的研究都为语义标注工具的开发并逐步完善奠定了基础[29-30]。这里需要说明的是,中文语义的复杂度要求更高,相对于国外的大量实践和成熟模式,目前的自动化语义标注工具对中文文献的支持不够。上述国内学者和组织的研究和实践,都是对中文方面的自动化语义标注的有益尝试。国内还有相关的持续项目研究,例如中国科学院国家科学图书馆牵头的“Journal 3.0”研究项目[31],促成了研究人员与业内企业的合作探索。相信在不久的将来,中文自动化语义标注工具会取得突破性进展。

      2 典型自动语义标注工具的功能比较

      semanticweb.org列出了目前已知的语义标注相关工具[32],根据工具自动化学习的方式,可以分为监督学习、非监督学习、无学习3种类型。①监督学习类自动化语义标注工具,如KMI(Knowledge Media Institute)研发的MnM[33]、OntOMat[34]、AKT(Advanced Knowledge Technologies)[35]项目的Melita[36]等。②非监督学习类自动化语义标注工具,如IBM研发的SemTag[37-38]、Armadillo[39]等。③无学习类自动化语义标注工具,如Maryland大学研发的SHOE(Simple HTML Ontology Extension)Knowledge Annotator[40]和SMORE[41]、Manchester大学和Southampton大学共同研发的COHSE[42]、OntoText实验室的KIM Semantic Annotation Platform[43-44]、集成化的Word文档语义标注工具Semantic Word[45]等。

      笔者选择常用的10种自动语义标准工具,从标注工具的标注对象、标注语言、本体来源、使用的本体语言、本体元素以及文件格式等方面对上述自动化语义标注工具进行比较,如表1所示。

      

      3 标注工具特征分析

      3.1 标注工具的特点

      综合比较国外常用自动化语义标注工具,可以发现有如下特点:

      1)设计理念:常用自动化语义标注工具的设计理念可归纳为两种类型,即基于语义网及其技术的方法和基于知识工程的方法,前者以产生语义标注为主、生成本体为辅,如SMORE等;后者是以本体为指导的文档标注,不但形成知识库还实现文档标注,并支持自然语言处理,如MnM等。

      2)工具应用模式:Client/Server或Brower/Server应用模式一般被运用于面向大型用户的自动化标注工具,如COHSE等;而单机运行模式则一般被运用于面向个人或小众的自动化标注工具,如SMORE、MnM等。

      3)扩展性:多数工具采用了插件的形式,一方面利于进行功能的扩展;另一方面便于进行系统集成,如SMORE、Semantic Word、MnM、OntoMat-Annotiser等。

      3.2 标注工具的不足

      通过比较还发现,常用的自动化标注工具均不但具有各自的特点和使用范围,还主要存在以下不足。

      1)不支持多语言。图书馆馆藏资源以及可获取的文献资源包含了多种语言,目前常用的自动化标注工具大多只是针对英文资源的标注,虽然在数字图书馆资源中英文数字资源在很长一段时间内都会占据主流地位且科技含金量较高,但其他语种的数字资源也是数字图书馆资源的重要组成部分,要实现全资源的语义揭示和关联,促进语义网的广泛应用,使不同语言和使用习惯的用户都能自由地实现标注,标注工具的多语言支持是基础。

      2)不支持本体动态演化。本体是共享概念模型的明确的形式化规范说明,包括对象、属性和关联[46]。随着科学技术和知识在不断发展,原有本体也会进行适应式的变化,主要表现包括:①领域(Domain)的变化,领域的变化是最常见的一种。②共享概念模型(Conceptualization)的变化,当在新的任务或领域应用本体时,领域视图或使用角度的不同会使上下文语义发生变化,从而使得概念模型发生改变。③表示(Representation)的变化。将本体从一种知识表示语言翻译为另一种语言时,由于两种语言的语法不同,语义和表达也各异,从而导致显示定义的变化。常用工具中大多数对本体动态演化的支持程度还不够。另外,支持Web内容多本体标注(如SMORE)的工具不多;大多数工具对扩展本体词汇的支持不够;使用的本体元素也有限,有的还不支持“relations”,无法形成重要的关系元数据,如Armadillo。

      3)标注的专业性需进一步提升。目前的工具在对专业性强的知识进行自动化标注时的表现力有限,即使少数工具利用模式匹配与自定义规则可以实现对某一具体特定领域的知识的自动标注,但常常对被标注文章的格式,包括描述方式和句式表达等都有固定的要求,相比于准确标注一般文档中的通用词汇和概念(如食物、生活用品、人物)等,还有很多的工作要做。

      4)集成应用环境不好。自动化语义标注工具应能支持本体的自动化维护,支持被标注文档的自动维护,支持本体与标注的一致性检查,支持多用户的协同操作等,为用户提供一个良好的集成应用环境,降低自动化语义标注的成本投入,包括时间、经费和人力等,尽可能体现低成本投入下语义标注资源在语义检索和互操作应用等方面的优势。目前虽然不少的自动化语义标注工具,如OntoMat、MnM、SMORE等,提供了多种功能满足不同用户的不同需求,但在构建一个集成应用环境方面还处于一个比较低的层次。

      5)工具的效率和效果需进一步提高。表现为:①大多数工具不支持写作与语义标注同步进行,只能在标注前先创建标注内容。②生成元数据的自动化程度和元数据的精度还需进一步提高。③标注工具的易用性、平台的互操作等性能还需不断完善。

      4 自动化语义标注工具在数字图书馆应用中的适用性思考

      自动语义标注工具可以被应用在数字图书馆的资源描述、知识关联、智能检索和可视化呈现等方面[47]。选择何种标注工具对数字图书馆非常关键。无论是新设计还是对现有自动化语义标注工具进行二次开发,笔者认为,数字图书馆在选择和使用自动化语义标注工具时主要应该考虑以下几个方面。

      4.1 对开源软件的使用

      开源软件(Open Source Software,OSS)也称开放源代码软件。数字图书馆若采用开源的自动化语义标注工具对其数字资源进行标注和揭示,优势是开源标注工具的源码完全公开,可以进行个性化再开发;图书馆可以控制软件,不用受软件服务商的影响和束缚,降低使用风险;软件质量上因其透明性、开放性而会不断得到完善;减少技术人员的软件开发工作和投入,降低成本。其劣势是相对于其他商业性或付费软件,发现开源软件系统错误或漏洞后获得补丁的响应可能会慢一些。若数字图书馆的技术(系统)部具备一定软件开发能力,可充分发挥熟悉本馆的数字馆藏资源特点的优势,或在资源建设工作人员的配合下,选择开源自动化语义标注工具,如常用的Swangler、OntoMat-Annotizer、AeroSWARM等,在此基础上进行个性化开发和配置,使自动化语义标注工具更适合馆情。

      4.2 标注工具的易用性

      自动化语义标注工具更应易于使用,操作不能太复杂,用户不用或经过简单的培训即可掌握使用方法,因为数字图书馆不可能投入大量的经费和人力请非常专业的标注人员来进行这项工作,操作复杂会限制自动化标注工具的广泛使用。

      正如3.2节所分析的,标注工具的易用性还表现在为数字图书馆用户提供一个良好的集成用户环境。标注工具应该能为数字图书馆用户提供简单方便地使用接口,使得语义标注的过程尽量简化并不需要或需要很少的人工干预。如为数字图书馆用户提供一个单点登录和标注界面,可以在写作或创建文档的同时进行语义标注,通过集成写作、标注、存取、编辑、分享和发布文档的功能为用户创造一个良好的集成标注环境。另外,还能方便不同用户之间开展协同标注,促进标注文档的交互使用。

      4.3 标注格式

      要考虑自动化语义标注格式,选择能提供标准化、兼容多类型标注格式的标注工具。对数字图书馆资源进行语义标注的经费和资源投入非常巨大,标准和通用的标注格式能避免重复标注劳动,使数字图书馆用户可以访问异构数据库资源,用户之间、数字图书馆之间以及用户与数字图书馆之间可以共建共享语义标注成果,并且可以打破专用格式的知识管理软件的使用束缚。从上述常用的自动化语义标注工具看,大多数都能支持多种标注格式。在所有标准格式中,重要的首推W3C(World Wide Web Consortium)[48]标准化组织制定的语义Web标准,例如W3C于2004年2月开始推荐的一项标准本体描述语言OWL(Web Ontology Language)[49]等。另外,在提供标准化、多类型标注格式的同时,还需要考虑用户之间的共享机制,解决如何共享的问题,如一个共享文档中的标注结果发生改变时,是将改变通知当前所有使用共享文档的数字图书馆用户进行及时标注更新,还是只反馈给最初创建标注的数字图书馆用户;需要考虑自动化语义标注工具支持标准格式的本体的同时,还应支持多个本体。

      4.4 标注文档

      自动化语义标注工具应尽可能支持不同类型的标注文档,主流的标注工具主要以网络上常见的html和xml格式来对文档进行自动语义标注。但是,一方面,数字图书馆资源除了html和xml格式资料外,还存在很多其他格式的文档资源,如音频、视频、数据库格式等;另一方面,标注文档的格式没有发生变化,但内容有变化,如一些标准和规范的版本更新或修订。如何对不同格式的标注文档进行自动标注,如何对内容变化的文档的标注结果进行处理,这都是应该考虑的技术和应用问题。

      4.5 结果存储方式

      自动化语义标注工具还应能根据数字图书馆用户不同需要,对语义标注结果提供不同的存储方式,常见的如嵌入式存储和独立存储两种方式。嵌入式存储的标注结果又可以分为文档集(Document-level)标注和字符级(Character-level)标注两种形式(见图1),人和自动代理都可以识别和处理语义标注文档。由IBM研发的自动语义标注工具SemTag就提供了这方面功能:一方面,支持标注结果和被标注文档分开存储为独立的文件,便于将被标注文档和标注结果分别发送给不同的个人用户或单位用户,方便建立公共语义标注结果数据库共享系统;另一方面,支持将标注结果嵌入到被标注文档中,直观明了,方便数字图书馆用户直接利用。独立存储的灵活性较好,可以随着语义环境及用户需求的变化而变化,是用户针对性较强的动态存储;嵌入式存储维护起来比较容易,但存储内容的容积方面相对较差。

      

      图1 两种结果存储方式比较

      5 结束语

      本文在对语义标注相关技术和工具的研究和发展情况进行梳理的基础上,对国外常用自动化语义标注工具的标注对象、标注格式、标注语言等方面进行了总结和比较,分析了常用自动化语义标注工具的特征,并探讨了自动化语义标注工具在数字图书馆应用中的适用性和关键方面,为自动化语义标注工具的发展以及国内数字图书馆的资源描述、知识关联、智能检索和可视化呈现等方面的语义标注工具应用提供了一些参考。信息技术在飞速发展,各种语义应用工具不断涌现,本研究的不足是仅对常用的一些标注工具及适用性的关键方面进行了分析,还有一些自动化语义标注工具没有涉及。相信随着研究和实践的不断深入,成果会越来越丰富,自动化语义标注工具的发展也会越来越完善。

标签:;  ;  ;  ;  ;  ;  

语义标注工具的特征分析及适用性研究_数字图书馆论文
下载Doc文档

猜你喜欢