服务视角下的知识组织系统研究新进展,本文主要内容关键词为:视角论文,新进展论文,组织论文,知识论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号 G254 文献标识码 A 文章编号 1002-1965(2015)07-0165-08 DOI 10.3969/j.issn.1002-1965.2015.07.030 0 引言 知识组织系统(Knowledge Organization System,KOS)也称知识组织体系,是用于知识组织的各类规范和方法的统称,是获取、利用知识的重要手段,是对各种人类知识结构进行表达和有效组织阐述的语义工具的统称[1]。 2010年之前,贺德方[2]、王军[3]、司莉[4-5]等对国内外知识组织系统的研究现状与发展趋势做了详细的阐述与总结,主要集中在知识组织系统的建设、转化和应用三个方面,建设主要包括各类知识组织系统的构建、相关标准规范的制定和修订等,转化包括不同分类法、叙词表、本体以及其他知识组织系统之间的映射和融合,应用是指各类知识组织工具的专业应用和综合应用[6]。 近年来,随着语义网、关联数据技术的快速发展以及大数据时代的到来,知识组织系统正向着语义化、关联化、开放化的方向迈进,基于知识组织系统的服务内容不断扩展,并且涌现出很多创新性的服务项目。所以,有必要从服务的视角出发,对2010年以来知识组织系统的研究及应用进行系统的总结,剖析知识组织系统研究的发展走向。 为了探究近年来KOS在研究与应用上已有的创新,识别出其未来的创新与发展方向,本研究系统地收集了2010年以来的相关文献与资料。选择了国内外知识组织领域最具有代表性的会议作为数据来源之一,分别是国外的数字图书馆理论与实践国际会议(TPDL)中的NKOS分会、国内的“全国知识组织与知识链接学术交流会”。同时,检索了中国知网、Web of Science数据库中2010-2015年知识组织领域的论文,对收集到的相关文献进行了全面梳理和总结,探索服务视角下KOS研究及应用的前沿和趋势。 1 服务工具:KOS的更新与扩充 KOS是各类知识组织工具的统称,包括人名表、地名表、术语表、分类表、词表、语义网络、本体等。KOS的更新与扩充是当前国际上图书情报学研究的重点课题,将为基于KOS的服务创新提供更多的工具。其中,以词表和本体的发展最为迅速,在实践中的应用最为广泛,所以,本文选择词表和本体这两种具有代表性的知识组织工具作为分析的重点。 1.1 词表的更新与扩充 近年来,无论是在科研服务领域,还是在能源、地质学、气象等工程应用领域,词表的建设和改造工作一直都在持续进行。 中国科学技术信息研究所(以下简称中信所)组织全国的情报检索语言专家开展了《汉语主题词表》(以下简称《汉表》)的修订改造工作。《汉表》是我国第一部大型综合性叙词表,目前正朝着数字化、网络化、语义化、标准化、互操作化和可视化等趋势发展。 新型《汉表》在表现形态、编制方式、功能定位上都发生了根本性的变化。它从一个包含叙词和非叙词的单一词表,转变为包括基础词库、核心词库、叙词词库等在内的知识组织系统,采用RDF、OWL或SKOS机器语言表达概念关系,构造了“基础词库—范畴体系—概念关系网络”三级联动机制,将大规模语义相似度计算、共现聚类、可视化等自动处理技术与领域专家知识相结合,并允许用户参与词表的编制与维护过程,实现其在知识揭示、知识导航、知识学习、智能检索等方面的应用[7]。除了《汉表》在网络环境下的改造,《中国分类主题词表》(以下简称《中分表》)Web版、《中国图书馆分类法》(第5版)Web版也相继发布。 超级科技词表是国家“十二五”科技支撑计划项目“面向外文科技文献信息的知识组织体系建设与应用示范”的重点内容,它是一个融合词表、术语表、叙词表等各种知识组织素材的词网络,由基础词库、规范概念集和范畴体系三个层次构成,它预计收录来自理、工、农、医领域的科技术语不少于500万条,科技概念规范名称80万条,这些概念可以作为本体构建的基础[8]。截至2013年5月,已登记的词表总量1834部,已入库的词表为951部,收集的素材词总量为12008558个,当前主要工作是将素材词转化到基础词库、对概念进行同义归并等[9]。 在能源和交通运输领域,为了应对科技信息资源管理和深度内容分析的需求,中信所立足已有的主题词表,吸收本体的思想,建成了新能源汽车领域词系统,它是汉语科技词系统的典型示范和成功实践[10]。截至2012年9月,新能源汽车领域词系统包含55958条词条,其中包含核心词6117条,关系实例57164个,属性实例18309个,类目实例5656个[11]。中信所目前正致力于新一代工业生物技术、智能材料与结构技术、清洁能源、重大自然灾害监测与防御四个重点领域科技词系统的建设。 在地质学领域,Ma等开发了一个基于SKOS(Simple Knowledge Organization System,简称知识组织系统)的地质年代表多语言叙词表,以消除在线地质图中地质年代表记录之间的语言障碍,使得该领域内知识的语义结构更加丰富,提高了语义网环境下在线地质图的互操作性,同时也为地球科学其他领域内叙词表的构建提供了参考和激励[12]。另外,他还开发一个受控词表来实现不同采矿项目中矿产勘探地理数据的语义互操作[13]。 在气象领域,由于数据量的爆炸式增长和数值模式的高度复杂性,有必要开发一个气候模型元数据系统来支持数据的存储、获取、重用以及质量控制等。为此,Moine等构建了METAFOR受控词表,它包括两部分:模型受控词表,对整个气候模型链中产生的数据进行统一描述;模拟和实验受控词表,对气候模拟实验进行规范化表述[14]。 1.2 本体的更新与扩充 随着语义网的发展和知识共享需求的驱动,本体已成为一种新型的不可或缺的知识组织系统。目前国内外各个领域都相继开发了不同规模的本体系统,如生物医学、电子商务、金融、地理、法律等,其中,生物医学领域是本体开发和应用中最前沿、最活跃的领域之一,已经建立了诸如解剖学基础模型本体(FMA)、基因本体(GO)、蛋白质本体(PRO)、细胞本体(CO)、疾病本体(DO)等常用的本体资源,用于描述解剖结构、生物表现型、生物分子、科研信息、临床医学信息等。 生物医学领域常见的本体库有BioPortal[15]、OBO Foundry[16]、OLS(the Ontology Lookup Service)[17]等。其中,BioPortal是由美国国家生物医学本体中心(National Center for Biomedical Ontology,NCBO)研发的生物医学类本体和术语资源的门户网站,旨在为研究开发人员和临床医生提供本体资源的一站式访问。它包含了500多个生物医学本体,并提供了一系列的功能服务,比如本体的浏览、可视化展示、导航和查询。此外,它还允许注册用户发布、评论本体和术语并与其他用户进行交流。 除了生物医学领域,其他领域的本体和本体库也在不断更新和扩充中,如世界上最大的多领域知识本体DBpedia、OpenCyc和Ontohub[18]等,极大地丰富了知识组织系统的内容,从而为基于KOS的服务创新提供了基础和保障。 2 服务手段:KOS可视化 KOS可视化是其提供服务的重要手段。它用图形可视化工具方式显示知识组织系统的结构,为用户动态、直观、多维地揭示概念之间的关系,方便用户快速、准确地理解和获取信息并挖掘其中隐含的知识,从而在信息检索、知识发现等领域提供高效便捷的服务。 2.1 KOS可视化方法 KOS可视化的常用方法包括:缩进树(Indented List)、节点树(Node-link and tree)、可缩放展示(Zoomable)、焦点加上下文(Focus+context)和3D展示等[19]。但是,这些借助于节点和边的图形可视化方法针对的是概念之间的关系,而对于概念本身语义的可视化展示研究甚少。因此,有学者提出了一种新的基于认知框架的本体可视化方法[20],其中的认知框架是根据人类对视觉信息的感知规则形成的,有利于用户更好地理解概念的含义。 但是,这些可视化方法却很难适应大数据环境的要求,必须要借助新的技术和工具,对本体可视化方法进行创新。Soylu等基于OBDA(Ontology-Based Data Access,基于本体的数据获取)框架,初步实现了OptiqueVQS(Optique可视化检索系统),并在大数据的影响下逐步改进和完善,提供对本体及其元数据的交互式可视化支持[21]。OBDA方法在一定程度上解决了由于大数据的三个V(Volume、Velocity、Variety)特点而导致的难以获取问题[22]。 Kim等学者利用Hadoop实现了RDF本体和DBpedia本体的可视化,这个可视化系统由数据服务器、可视化服务器和客户端三部分组成,如图1所示。数据服务器进行大数据的预处理,可视化服务器处理上一步的输出结果并进行可视化,转换为网页标准格式,最后通过浏览器提供给用户所需的可视化结果[23-24]。这为以后KOS的可视化在大数据环境下的理论研究与实践奠定了基础,同时也促进了更加智能的数据可视化工具和技术的发展与创新。 图1 面向大数据的本体可视化系统 2.2 KOS可视化工具 目前,KOS可视化的常用工具包括:基于思维导图的词表可视化软件(如PersonalBrain)、主题图工具(如OKS Samplers)、本体开发工具(如Protégé)、通用可视化工具(如Prefuse)等。 近年来,相比于叙词表可视化工具,本体的可视化工具发展得更为成熟[25],数量更多,大致可以分为两类[26]:一类是基于Protégé的可视化插件,如OWLViz、TGViz、OntoViz等,它们提供垂直树、水平树、辐射型、喷泉型等多种KOS可视化形式;另一类是独立于本体领域的通用可视化工具,如Prefuse、VTK(Visualization ToolKit)等,它们拥有更加强大的可视化功能和扩展接口,支持缩放、焦点+上下文、三维展示等多种灵活的可视化展示方式。但是这些可视化工具对中文显示的支持力度有限,易用性不强。 针对上述问题,国内有学者提出了相应的解决方案,并设计了专门的KOS可视化工具。比如王雯等提出了一种新的适用于叙词表词间关系可视化的逻辑模型[27],曾新红等针对中文叙词表本体的结构特征,基于信息可视化领域中的力导向算法提出群组布局算法,并结合动画演示技术实现了一个普遍适用于中文NKOS、更贴近普通网络用户需求的可视化软件[28]。 如何选择适用的KOS可视化工具提供服务,是亟待解决的重要问题,很多学者提出:有必要建立一个评价标准来对KOS可视化工具进行分析和比较。比如Guo和Chan对3个常用的本体可视化工具OWLViz、Jambalaya、OntoSphere和一个新的具有3D展示效果和支持动态知识可视化的工具Onto3DViz进行了分析和比较,并设计了一套评价体系,包括概念的层级展示、概念的检索、过滤、编辑、可视化方式的种类、空间布局、可缩放、动态知识可视化、3D等14个评价指标[29]。 2.3 KOS可视化的发展方向 从最初纽约Thinkmap公司开发的Visual Thesaurus(可视化词典)[30],美国国会图书馆标题表的可视化软件[31],为WordNet开发的Visuwords(在线虚拟化视觉词库)[32]等词间关系的可视化,到近年来西班牙格拉纳达大学开发的环境科学领域本体EcoLexicon[33]所提供的概念结构和关系的可视化,再到众多领域本体可视化构建的兴起[34],KOS的可视化作为一种服务手段,正在逐步发展和不断创新。 近年来,越来越多的KOS通过关联数据技术实现了互通互联,但是关联数据只是为KOS映射提供了一种语法层面上的解决方案,要实现KOS在语义层面上的映射,则需要对当前的相关技术和方法进行改革和创新。同时,交互性、集成性的技术环境也给KOS映射带来新的挑战和要求。 在这种背景下,MCD(Meaningful Concept Display,有意义的概念展示)的设想得到推崇。作为一个为KOS应用服务的开发框架,MCD旨在可视化概念展示方面达到三个目标:Meaningful(有意义)、Useful(有用)、Beautiful(美观)。 MCD涉及KOS、关联数据、信息可视化、信息检索等多个领域,其可视化界面提供了术语、概念、文档和其他信息对象的等级、相关等语义关系的展示,有利于用户对复杂知识的理解和新知识的发现,在协助用户进行主动性学习和探索性学习、增强用户浏览体验、优化用户检索查询式、提高查询结果质量、理解用户个性化需求、智能检索方面有重大意义和作用。 自从2012年在数字图书馆理论与实践国际会议(TPDL)的NKOS分会上被提出[35],MCD就一直备受关注与热议。在2014年TPDL的NKOS分会上,Lin等通过用户检索式到艺术和建筑叙词表(AAT)的映射、AAT词汇到ARTstor数字图书馆索引词的映射,演示了MCD检索原型系统的运行过程,实现了用户检索词的扩展和检索结果的可视化展示,为MCD的实践应用提供了典型示范[36]。这个原型系统的创新点包括:促进了非KOS术语和KOS术语之间的映射,展示了KOS的结构和映射结果,激励用户与系统不断交互从而提高查全率和查准率,实现了用KOS术语检索馆藏资源的新方法[37]。目前,美国博物馆和图书馆服务研究所(IMLS)资助了一个MCD方面的研究项目,试图通过利用KOS和开放关联数据(Linked Open Data,LOD)中的知识资本,提高图书馆、博物馆、档案馆在智能检索和社会化标注方面的服务水平。 MCD成为了KOS可视化的新模式、新构想,代表了KOS可视化的一个发展方向。 3 服务内容:基于KOS的应用 基于KOS的服务内容包括:自动标引与分类、术语消歧、查询扩展与推荐、编目和元数据创建、资源导航、信息抽取、自动翻译、语义推理等,这些服务内容体现了KOS在各种工作任务中的功能与作用。2010年以来,基于KOS的服务在以下几个方面取得了较大的进展。 3.1 基于KOS的自动标引与分类 KOS作为信息加工自动化的支撑,其结构化的概念层次和语义关系在自动标引、自动分类等任务中有重要作用。 在自动标引方面,“基于《中分表》知识组织系统的自动标引服务系统”的构建是目前具有代表性的研究之一,它是“基于《中分表》的一体化网络知识服务系统”的组成部分,是“知识组织系统构建与知识服务研究”项目的主要成果之一。该平台面向机器用户开展数字资源、网络资源的自动标引服务[38]。 在自动分类方面,有学者提出基于SUMO和WordNet本体集成的文本分类模型,该模型利用WordNet同义词集与SUMO本体概念之间的映射关系,将文档—词向量空间中的词条映射成本体中相应的概念,形成文档—概念向量空间进行文本自动分类[39]。Bleik等把生物医学领域文本文档中的词与受控词表中的概念进行映射和匹配,并利用概念语义关系构造概念图,然后使用图形核函数计算图之间的相似性,从而实现文本分类[40]。Joorabchi等研究和设计了一种新的概念匹配方法(Concept Matching-based Approach,CMA),基于图书馆中的受控词表DDC和FAST,对科学数字图书馆和数据库中的文献进行自动分类和主题标引[41]。 3.2 基于KOS的术语消歧 KOS在特定领域的知识表示方面也取得了一些新进展。Haghighi等为了实现医疗应急管理中的基于案例推理的智能决策支持,描述了大规模集会领域本体(Domain Ontology for Mass Gatherings)的构建和评价的过程,从而解决了医疗急救人员之间因术语不一致而导致的交流困难问题,同时也为其他复杂问题领域中所涉及的智能决策支持和知识管理提供理论和实践上的指导[42]。Tena等基于交互设计模式和用例叙述的分析以及专家委员会的验证为跨学科的Web开发团队构建一个单语言的Web用户任务受控词表,促使用户案例表述标准化,术语统一无歧义,从而指导用户界面设计[43]。 3.3 基于KOS的查询扩展与推荐 在查询扩展与推荐方面,KOS主要通过与搜索引擎、数字图书馆等信息检索系统、后台数据库资源的匹配和集成,帮助用户获取检索词的同义词、相关术语或上下位词,实现查询扩展和推荐。 由于医学领域的受控词表等KOS起步较早,发展较为成熟,所以近年来这方面的服务研究大多集中在医学领域。Thesprasith和Jaruskulchai使用医学主题词表MeSH对联机医学文献分析和检索系统(MEDLINE)中的每个文档进行手工标引,有助于实现检索词扩展和提高检索效率[44]。Martinez等基于一体化医学语言系统(UMLS)超级叙词表提出了一种自动查询扩展的方法,改善了电子病历的检索效果[45]。白海燕等不仅研究了UMLS在扩展检索方面的应用,还分析和归纳了它在语义检索、问答式检索方面的功能设计、实现方法与实际效果,以期为基于集成式知识组织系统的智能检索应用的场景功能设计、技术开发和实现,提供借鉴和参考[46]。 除了医学领域,Hienert等在社会科学领域的信息门户网站Sowiport上进行检索词推荐服务的研究,评价和比较了三种基本的检索词推荐方式:基于用户检索词(根据查询日志和词的使用词频)、基于Sowiport服务中的术语、基于社会科学领域叙词表中的词汇;并提出了一种将叙词表和检索词推荐系统中的词汇相结合方式,有助于用户检索式的生成和交互式查询扩展的实现[47]。 4 服务实践:基于KOS的新兴服务项目 国外目前能够在线访问并提供KOS服务的典型术语服务系统包括:OCLC术语服务、UMLS术语服务、FAO术语注册与术语服务系统等,它们开发时间虽然较早,但仍在不断更新中。国内也有部分学者致力于术语服务系统的构建,例如:基于《中分表》主题词规范数据的术语服务原型系统[48]、基于本体的医学术语服务系统[49]等。 目前,除了传统的术语服务系统,还涌现出很多创新性的基于KOS的服务项目,比较著名的有跨学科辅助词表工程(Helping Interdisciplinary Vocabulary Engineering,HIVE)、开放关联词表(Linked Open Vocabularies,LOV)等。 4.1 HIVE项目 为了应对KOS创建和维护成本高、互操作难和实用性低的挑战,美国博物馆和图书馆服务研究所(IMLS)资助北卡罗来纳大学教堂山分校信息与图书馆科学学院元数据研究中心开展HIVE项目,美国国会图书馆、美国地质调查局、美国盖蒂研究所提供跨学科的词表。该项目旨在从多个采用SKOS编码的受控词表中抽取叙词来实现元数据的自动生成,即选取最合适的概念对资源内容进行标注。其最终目标是改善受控词表在数字环境下的访问和使用情况。 HIVE模型如图2所示,它可以被形象地比喻为一只蜜蜂去花丛(多个词表)中寻找花粉(用于描述资源内容的概念),然后将有价值的花粉(相关的概念)带回到蜂巢(词表服务器),蜜蜂的活动轨迹代表了HIVE的实现路径。 图2 HIVE模型[50] HIVE的主要任务和计划包括:a.通过自动标引技术,提供一个低成本的自动生成主题元数据的方法;b.构建一个基于SKOS的多词表互操作服务器;c.构建一个实用性系统来辅助资源编目人员和资源作者创建主题元数据;d.成立关于SKOS和HIVE模型的工作小组;e.评测HIVE的有效性和实用性。为了完成这些任务,HIVE系统包含3个模块:一是HIVE Core,实现系统的主要功能,如元数据自动抽取、主题探测、概念检索;二是HIVE Web,提供一个友好的用户界面来浏览和查询词表;三是HIVE REST,提供一个面向机器的接口与第三方软件进行集成。 为了解决其他语言受控词表的集成问题,西班牙马德里卡洛斯三世大学图书馆及信息科学系、西班牙国家图书馆和北卡罗来纳大学教堂山分校元数据研究中心联合发起了HIVE-ES项目,它是对HIVE项目的扩展,以应对西班牙语国家所面临同样的KOS挑战,从而使得HIVE具有了全球化视角。 与《汉表》《中分表》等跨领域综合词表相比,HIVE提供统一集成式的用户界面,用户可以通过HIVE调用不同学科的词表,而不必关心这些词表内部是如何存储、关联和组织的。虽然FAO、OCLC等术语注册和服务系统也提供了获取多领域词表的入口,但是会存在词表之间不兼容的问题。 HIVE目前也存在一些问题,虽然有很多词表被陆续添加到HIVE系统中,但它们都是单语言的,因为HIVE不支持多语言叙词表的集成。但是由于项目的开放性和共享性,HIVE为多语言环境下词表的集成提供一个实践基础和典型示范,并揭开了LOV在全球范围内普及与发展的序幕。 4.2 LOV项目 开放关联词表项目[51]于2011年启动,最初由Bernard Vatant和Pierre-Yves Vandenbussche发起,是法国研究项目Datalift[52]框架中的一部分,2012年7月被开放知识基金会(Open Knowledge Foundation,OKFN)纳入旗下。该项目旨在提供词表的便捷访问,阐明词表之间相互连接的方式,并且为词表在关联数据云下的使用提供了指导和方向,以提高词表的可理解性、易用性、可见性和质量。 LOV采用词表空间的形式展示了所有词表,并通过标签对词表进行分类。LOV使用专用词表VOAF(Vocabulary Of A Friend)实现词表的互连,通过词表创建者、发布者和管理者的协作和贡献共同促进这个词表生态系统的不断成长。 截至2015年1月,LOV包含了475个由RDF、SKOS、OWL描述的词表,46000多个词汇,其中属性28034个,类18815个,其他还包括实例、关系等。词表的创建者、发布者和管理者共有462个,其中个体363个,组织99个。 词表界面所包含的内容有:词表的元数据信息,类、属性等统计信息,词表在LOD数据集中的使用情况,与其他词表相互连接的可视化展示、版本历史等。一个词表能被选入LOV的条件有:被用语义网描述语言RDF或OWL描述,已在网上发布并容易获取,可通过URI进行检索,易于集成和重用。 当前涌现出越来越多的基于LOV的应用实践,例如: OntoMaton是一个由牛津大学e-Research中心开发的项目,在谷歌电子表格基于云计算的协作编辑环境下,可以实现Bioportal中本体和LOV中资源的检索功能[53]。 声音注释Web应用程序(Sonic Annotator Web Application,SAWA)[54]用于在线音频语义分析,它将音频特征本体和相关的开放关联词表相结合,并借助特定的数据抽取和分析软件,以提高音频特征抽取流程的效率,实现音频特征的统一标示,从而为音乐信息检索提供一个平台或框架[55]。 开放关联词表工程(Linked Open Vocabulary EngineeRing,LOVER)是一种协助本体工程师对关联数据集进行建模的新方法,从现存的常用的开放关联词表中选择合适的类和属性推荐给本体工程师。LOVER提供了类和属性的检索机制、词表和词汇的元数据信息、词汇的语义功能,允许工程师对现有词表进行更新和整合,并利用本体构建方法实现关联数据集的建模[56]。 LOV是在关联数据技术蓬勃发展的背景下产生的,正在逐步形成全新的知识组织生态系统,并呈现出以下发展趋势:参与者越来越多、知识组织的粒度越来越细、范围越来越广、知识组织工具之间的联系越来越紧密。LOV是实现词表语义化、关联化的典型示范,是NKOS的最新发展阶段,代表了KOS发展的新格局,可以为用户提供更高质量、更具个性化的基于KOS的服务。 4.3 其他新兴的服务项目 除了以上两个典型的应用范围较广的项目以外,还有一系列的新兴项目也在不断开展中,力求拓宽基于KOS的服务渠道和领域。 PoolParty[57]是位于奥地利的Semantic Web公司开发的一个基于Web的叙词表管理工具,它有基本、高级和企业三个版本,其作用分别是:支持基于SKOS的叙词表的创建与编辑;将叙词表中的概念在网络上发布为关联数据,同时供用户访问词表内容;实现基于叙词表的各种语义网应用,例如:文档标注标签的自动推荐,输入标签时的自动提示,相似文档推荐,语义搜索等。 TaaS(Terminology as a Service)项目[58]由欧盟第七框架计划资助,其目的是:即时访问最新的术语,多语言术语的获取与共享,术语资源重用的解决方案。此项目将建立一个可持续发展的云端平台,提供的核心术语服务有:采用最先进的术语提取技术从用户上传的文档中实现单语言术语的自动抽取;译文的自动识别和获取;允许用户自动获取术语的处理工具;术语共享和重用等。 ESCO(European Skills,Competences and Occupations)项目[59]由欧盟委员会于2010年启动,它是“欧盟2020战略”计划的一部分,旨在为欧盟劳动力市场所需的技能或能力、资格、职业提供一个标准化的多语言的叙词库和分类体系,通过对简历和招聘信息的翻译和编码,促进了欧盟就业市场的透明化。ESCO第一个版本(ESCO v0)已于2013年10月发布,包含了4761个职业,大约5000个技能和资格证书,每个概念都有多种语言,总计共达25万多个词汇,每个用户都可以通过ESCO门户网站免费获取这些信息。 中国国家“十二五”科技支撑计划项目“面向外文科技文献信息的知识组织体系建设与应用示范”于2011年7月启动,由国家科技图书文献中心牵头组织实施,提出构建以内容建设为核心,加工协作和开放服务平台为依托,以自动处理智能检索和知识服务应用为基础的知识组织体系建设和示范应用。项目的核心是构建科技知识组织体系,从而实现国家科技文献信息战略资源的有效组织、深度揭示和知识关联,提供知识检索服务,推进基于国家科技文献信息战略资源的知识发现、知识挖掘和知识计算应用示范,整体提升我国科技文献信息机构的知识服务能力[8]。 受国家社会科学基金项目“中文知识组织系统形式化语义描述标准体系研究”、国家数字图书馆工程“知识组织标准规范”等项目的资助,深圳大学图书馆NKOS研究室[60]建成了中文叙词表本体共建共享系统(OTCSS)和分类法共享服务系统(CLSS),两者都提供了面向机器、系统或者应用程序的术语服务和关联数据服务,实现了术语或概念的浏览和查询以及相关网络资源之间的互相关联。 这些新兴的服务项目所具有的共同特征或发展趋势是:第一,采用RDF、SKOS等语义化描述语言表示KOS,采用关联数据等技术在网上发布词表等知识组织工具,并且与其他开放数据集中的资源建立关联关系,使其成为LOD的一部分,从而拓宽基于KOS的服务渠道和领域;第二,既提供基于Web的用户界面,又提供面向机器的API;第三,提供网络共建服务,即用户广泛参与,允许在线修订,实现动态更新;第四,使得各类KOS在规范、统一、开放的基本架构下进行社会化、网络化服务,提升服务的深度和效度。 对比国内外服务项目可以看出,国外多侧重于应用,涉及的领域较广,服务对象的类型众多,已有许多在线服务系统的实例;而国内多数集中在图书情报领域,主要服务于科研,目标群体大都是科学研究人员。 这些项目的应用和实践有利于加强对增长迅速、类型多样、内容复杂、来源不同的各类KOS的维护和管理,极大地丰富了KOS的内容,使得基于KOS的服务领域得以进一步延伸。 5 结语 本文通过对2010年以来国内外知识组织系统相关会议的报告和论文以及学术数据库中的相关文献进行调研,从服务的角度出发,对KOS及其服务项目研究的新进展进行了总结和阐述。其中,词表、本体是KOS提供服务的重要工具,可视化是KOS提供服务的有效手段,这两个方面的进展,为服务内容的扩充提供了基础,使得KOS可以应用于更多样的任务中。HIVE、LOV、PoolParty、TaaS、ESCO等新兴项目,是基于KOS提供服务的最佳实践与范例。 收稿日期:2015-03-25 修回日期:2015-04-30标签:hive论文; 大数据论文; 可视化管理论文; 数据可视化论文; 语义分析论文; 用户研究论文; 数据集成论文; 元数据标准论文; 数据检索论文; 信息集成论文; 受控论文;