国内外知识组织体系的研究进展及应对策略,本文主要内容关键词为:研究进展论文,国内外论文,体系论文,应对策略论文,组织论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着计算机科学、通信技术和网络技术的飞速发展,如何对异构的、动态的、分布式的海量信息,进行快速的知识组织和集成检索,以最方便、最人性化、最智能化的方式提供给用户,已成为当今图书情报界的重点关注领域。与知识组织相关的研究与应用,有以下几条主线:①从组织的深度看,包括从题录组织、文献组织、信息组织到知识组织的研究与应用;②从组织的环境看,包括手工层面、计算机层面到网络层面;③从组织的用户层面看,包括以信息管理者为主到以用户和机器理解为主等;④从组织工具角度看,有词典类工具、主题法分类法、主题图、本体等;⑤从学科角度看,包括情报语言学、计算语言学等。本文从知识组织体系的构建和应用角度,梳理了知识组织的主要研究成果、研究进展和发展策略,同时,也介绍了中国科学技术信息研究所近年来在知识组织体系领域开展的相关研究和应用工作。
1 知识组织体系概述
1.1 知识组织体系的概念
知识是对客观世界事物本质的认识,对知识的加工、整理、揭示、控制等一系列有序化过程称之为知识组织(Knowledge Organization)[1]。知识组织一词最早出现在1929年和1933年美国著名分类专家布利斯的著作《知识组织与科学系统》、《图书馆的知识组织》中[2]。知识组织体系(Knowledge Organization Systems,KOS)是用于进行知识组织的各类规范和方法的统称,是获取、利用知识的重要手段[3]。在具体应用中一般泛指为语义工具,它不仅仅涵盖了传统的分类法、主题词表和叙词表,还包括用于网站导航浏览用的等级体系结构,或者语义网的知识本体等[4]。其范围也从侧重于书本式信息资源分类标引的体系扩展为包含了规范文档、机构组成等多种类型系统的体系结构。1989年成立的“国际知识组织协会”(ISKO)是研究知识组织的学术机构,涉及主题分类、人工智能等多种方法的知识组织研究,其会刊《知识组织》由以前的《国际分类》改名而来[5]。在图书情报领域,随着网络环境及其应用的普及,用户获取知识的需求不断发生变化,与知识组织相关的概念、工具和研究应用领域也在不断进行着变革和发展。传统图书馆基于文献信息单元的知识组织方法,正向适应计算机海量信息处理的概念单元或知识单元的本体(Ontology)方向发展。
1.2 知识组织体系的类型
根据语义的强弱程度以及语言控制强度,可以将知识组织体系分为三大类:①词汇列表:强调对概念的定义和解释,接近自然语言,一般不涉及复杂的语义关系。例如,各类人名表、地名表、专业术语表、各类词典、同义词环和规范文档等。②分类和聚类体系:强调概念间的层级聚合和类别体系,来自自然语言,具备相对固定规范的语义结构,主要起到范畴归类、聚类导航等作用,是应用广泛、成熟完善的知识组织工具,如标题表、知识分类和图书分类体系。③关联组织:强调对概念之间的各种关系的揭示,且更为复杂和细致,语义结构强,是经过规范化的、机器可读的人工语言,如叙词表、概念地图、语义网络、本体等。
各类知识组织体系可以实现不同的知识组织目的,分别具有各自的应用优势和最佳适用范围。例如,分类法的颗粒度比较粗,适用于学科导航和领域划分等应用;叙词表知识组织的颗粒度相对较小,适用于从概念术语和主题角度组织文献信息;本体的语义关系丰富,适用于知识挖掘和语义推理等智能检索领域。通过对各类知识组织体系的组合应用,可以满足用户多种不同的知识获取需求。
1.3 主要知识组织体系的现状
1.3.1 分类法
1876年诞生的《杜威十进分类法》(DDC)[6],开辟了图书分类法的新纪元;1933年阮冈纳赞的《冒号分类法》出版;20世纪初至50年代,是体系分类法的成熟和大发展时期。
新中国成立初期,我国编制了《人大法》、《科图法》、《中小型表草案》和《武大法》等分类法,并引进了《国际十进分类法》(UDC)等。20世纪70年代编制成《中国图书馆图书分类法》(简称《中图法》),1999年更名为《中国图书馆分类法》,目前即将出版第五版。它是我国大多数图书馆采用的分类法,基本形成了统一规范应用体系,在文献形成的各个环节得到了普及,例如,在投稿或刊出时,多数中文核心期刊论文都要求加注中图分类号,万方、维普、CNKI等国内大型期刊论文数据库基本也是按《中图法》进行分类导航[7]。与《中图法》一脉相承的《中国图书资料分类法》(简称《资料法》),也于2000年修订至第四版,成为我国各类情报与信息机构广泛使用的大型检索语言工具书[8]。其他文献分类法包括图书分类法、档案分类法、专利分类法、标准分类法、资料分类法、公文分类法等。
《美国国会图书馆分类法》(LCC)诞生于20世纪初,实用性强,类目详尽,不但适用于综合性图书馆,也适用于专业图书馆。LCC的分类号现已载入英美等国的在版编目数据、美国国会图书馆发行的印刷卡片以及若干国家的机读目录之中。DDC目前是全球各地图书馆广泛使用的分类法,2003年出版第二十二版,已被全球超过135个国家的图书馆使用。在美国,有95%的公共图书馆及学校图书馆使用DDC。此外,DDC更能用来组织因特网上的各种资源。目前,DDC的更新主要是利用网站形式的WebDewey,自1997年上线使用,每季更新一次。同时,OCLC Dewey Services网站上也提供DDC新增及修订的款目、与LCSH的对照表、相关研究等最新动态消息[9]。
1.3.2 叙词表
叙词表的出现是情报检索方法的一次突破。20世纪60~90年代,是叙词表的大发展时期,1959年,美国杜邦公司编制了第一部用于情报检索的叙词表[10];1960年,美国武装部队技术情报局(ASTIA)首先编成用于电子计算机文献检索的叙词表;1961年,美国化学工程师协会(AICHE)出版了《化学工程叙词表》,为叙词表的发展奠定了基础。目前,国外编制的叙词表有上千部,其中较有影响的综合性叙词表有《工程与科学主题词表》和《日本科学技术情报中心主题词表》;专业性叙词表有美国的《航空和航天局主题词表》、《国际核情报系统主题词表》、英国的《电机工程师协会主题词表》等。
1964年我国编制第一部实用型标题表:《航空科技资料主题表》(第1版),1971年,《航空科技资料主题表》(第2版)问世。1975年我国启动国家“748”工程的配套项目《汉语主题词表》的编纂工作,全国先后505个单位的1378位专业工作者参加编表工作,1980年正式出版,分为3卷10个分册,共收词108 568条,是包括自然科学和社会科学领域的大型综合叙词表。此后出现了大量的专业叙词表,如《航空科技资料主题词表》、《电子技术汉语主题词表》、《化学工业主题词表》、《农业科学叙词表》等[11]。
1.3.3 本体
随着网络信息的普及和发展,语义网将成为网络的主要结构成分。在语义网中,本体主要解决语义层次上网络信息共享和重用的基础,具有非常重要的作用。本体最早是一个哲学概念:西方哲学史认为,本体是指关于存在及其本质和规律的学说;中国古代哲学认为,本体是指探究天地万物产生、存在、发展变化的根本原因和根本依据的学说[12]。从20世纪90年代开始,由计算机人工智能领域研究的本体,在图书情报界成为热点研究领域。目前在图书情报领域,多数学者认同的本体概念包括:“本体给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则”[13];“本体是对一个概念集的规范说明”或“本体是对概念化的精确描述”[14]。规范是为了形成对领域内概念、知识及概念间关系的统一的认识与理解,以利于共享与重用。
2 知识组织体系研究进展
20世纪90年代起,网络逐渐成为用户获取信息的主要方法。多数网络使用了分类法思想组织网络分类目录,如Yahoo和DMOZ等门户网站[15]。但是,由于网络信息以指数形式增加,人工分类速度制约了传统网络分类法的发展,从而诞生了用户参与的大众分类法;另一方面,以主题法为主要工具的网络搜索引擎逐步成为网络信息获取的主流方法,以自然语言关键词进行信息检索在网络信息获取中得以广泛应用。与此同时,人们开始大规模修订改造或者转化融合饱含人类知识和智慧的分类法和主题法,使之逐步适应网络环境,并在新的信息环境下发挥其优势和功能。
知识组织体系的研究进展主要体现在建设、转化和应用三个方面。①建设是指各类知识组织体系的构建、知识库的建设、相关标准规范的制定和修订,还包括分词聚类和知识挖掘等计算语言学的基础研究。例如,分类表或叙词表的编制、主题图或知识本体的构建、汉语分词软件的研制等。②转化是指不同分类法、叙词表、本体以及其他知识组织体系之间的映射和融合。例如,分类主题一体化、从叙词表向知识本体的转化等[16]。③应用是指各类知识组织工具的专业应用和综合应用,包括从技术进步或用户理念等不同角度开发的各种应用系统。
2.1 传统知识组织体系的网络化研究
随着Internet的普及,OCLC及时推出了DDC网络版,建立了专门的网站,并基于DDC的研究项目开发了多个版本,实现在线更新和发布等[6]。DDC成为传统文献分类法网络化改造的经典案例。由于网络信息组织的需求,我国的《中图法》近年来同样开发了电子版,可以在网络上直接检索和浏览类目名称和周围类目,如上位类、下位类和同位类。电子版《中图法》还包含窗口的布局、调整和互动、检索功能与检索方法、用户评注与管理、与编目系统接口等功能[17]。分类法在网络时代的编制和改造工作,还包括用户参与的大众分类法的编制,以及适合网络信息分类的分面分类法的编制和应用研究。
叙词表在网络环境下的改造大致可以分为两种:一种是联机叙词表。这是独立于检索系统而存在的网络信息检索工具,主要是词汇选择,而不直接链接到资源。如医学主题词表(Mesh)[18],UNESCO叙词表[19]。另一种是将叙词表嵌入检索系统,充当检索系统的后控词表,用户进行浏览和检索后,可以直接选用检索词链接到相关的资源,如CAB叙词表[20]、AGROVOC叙词表等[21]。网络化的叙词表可以增强网络检索系统的性能。通过在词表内实现超文本导航,利用其语义关系帮助用户建立检索提问,控制检索范围,从而提高检索效率。
在网络环境下,传统的知识组织体系正在向联机数据库、网络搜索引擎、学科信息门户等新领域拓展,寻求新的应用前景。在经过实用性、易用性改造后,传统的分类法已广泛应用于网络资源的组织与检索。DDC已被多个著名的网站所采用,如Canadian Information by Subject[22]和Renardus[23]等;UDC被多个学科信息门户用来组织各种网络资源,如BUBL Link[24],SOSIG[25]和OMNI等[26];分面分类组织也在许多网站得到应用,如Artifact门户将资源类型分为学术机构、图书、期刊、新闻等,用户可按资源主题和类型进行组配检索[27]。
另一方面,传统分类法可用于信息资源的自动分类,这是自动分类领域的一个研究热点。其中,美国OCLC的蝎子计划是成果显著的一个项目。该计划主要利用DDC的电子编辑支持系统对数字信息资源进行自动分类和主题识别。该项目建立了以DDC和LCC为基础的知识库,开发了自动分类软件“Scorpion-1.0”,并优化自动分类系统,使之接近于人工分类的效果[28]。
2.2 知识组织体系之间的转化研究
传统的知识组织体系经过多年的发展,体系结构相对成熟。将传统知识组织体系转化成新型的知识组织体系,可以加快构建速度,实现对已有知识的再利用。最常见的是吸收传统知识组织体系的概念和词汇,并参考其体系结构将叙词表转化为本体。国外许多学术机构进行了尝试,已经有十多种叙词表被转换为本体。如联合国粮农组织将AGROVOC叙词表转换为农业本体[29],阿姆斯特丹大学信息科学系把艺术和建筑叙词表(AAT)转换为本体[30]。在叙词表向本体的转换研究中,学者们尝试了许多方法,如用XML Schema构建叙词标记语言,用RDFSchema表示叙词内容和关系,用DML+OIL、OWL表示叙词关系。
我国国家自然科学基金2005年资助了从叙词表向本体转化的研究工作。相关的研究成果包括:提出叙词表的概念如何向本体的概念、属性和实例转化;编写了具体的转化程序,可以将叙词表的数据直接转化为RDF或OWL格式的本体数据;研究了转化以后要进行的调整和补充工作。该项目主要选择了食物安全领域,通过构建食物安全本体,来研究本体的构建和转化方式,并构建了一个具有演示功能的食物安全本体原型系统。研究成果对本体的构建和转化具有参考意义,为语义网信息组织工作奠定了基础[31]。
分类表、叙词表、概念图和本体等知识组织工具,都有着各自的适用范围和优势。而在当今的网络时代,资源的组织和管理工作常常需要对这些知识组织工具进行映射、转化或融合,从而在技术上实现互操作等知识共享应用。2006年,ALCTS成立了专门的语义互操作子委员会,并对37个主要的知识组织系统语义互操作研究项目进行调研和评价。其中最为著名的项目有UMLS、HILT、GEMET、Rendurus、AGROVOC、KoMoHe等[32]。
2.3 知识组织体系之间的映射研究
在不同知识组织体系之间建立映射机制,是实现不同知识组织体系集成、整合,进而实现互操作的一种方法。这是目前知识组织体系研究的一大热点,并形成了大量的研究成果及其应用。国外的主要研究项目包括:①高级叙词表项目(High-Level Thesaurus Project,HILT)研究的是不同叙词表以及不同语言之间的映射[33]。②欧盟的Renardus项目,实现了各个网关的局部分类法与全局分类法之间的映射,通过全局分类法就可以对各个网站进行分类浏览[23]。③生物医学领域的UMLS项目,它涉及了100多部叙词表、分类法、术语表等知识系统间的互操作[34]。④美国的Unfamiliar Metadata项目,它是自然语言与受控语言之间的映射的典型代表。⑤GLUE系统,它是基于经典算法研究出的具体的本体映射系统,由华盛顿大学AnHain Doan等提出。这是一种在语义Web环境下进行本体映射的方法,是典型的基于机器学习的方法。它首先对概念的实例进行分类,然后通过实例的分布概率确定概念的相似度,最后结合领域约束和启发知识确定本体映射关系[35]。⑥FOS项目,整合了四个词表系统:FIGIS门户的参考目录、ASFA叙词表、AGROVOC叙词表的渔业部分、One Fish主题树。建设目标是在现有系统基础上建立通用的概念框架下的本体,实现现有系统之间的相互映射和参照,并实现异构系统之间的互操作[36]。
在国际合作方面,2005年联合国粮农组织(FAO)支持了从中国农业科学叙词表向FAO农业多语种叙词表AGROVOC的映射研究。该项目主要将中国农业科学叙词表(CAT)的全部6万多个农业领域概念,按照拟定的概念间关系,映射到AGROVOC的3万多个概念上,提出了叙词表的映射方法,修订了概念匹配规则,展望了映射成果在跨语言检索中的应用等[37]。
在我国,图书馆学和情报学专业的研究人员在这方面做了大量研究工作。20世纪90年代末,山西省图书馆等研制了《中图法》、《科图法》和《人大法》之间的映射对应系统,并且实现了以上三者与《汉语主题词表》的对应;南京农业大学侯汉清课题组,近年来在检索语言互操作领域进行了大量的研究,开发了分类法的自动映射系统,制定了类目映射规则等,为实现我国分类法与西方分类法之间的兼容互换作出了贡献[38];《中国分类主题词表》的编制,也是我国检索语言之间映射的重要进展;在主题法、医学用术语映射领域,中国医学科学院医学信息研究所的研究人员进行了相关的研究,研究建立统一的中国医学语言系统[39]。
2.4 本体研究
各类知识组织工具的一个应用方向是机器理解和机器推理。由于其概念及其语义关系揭示的明确化、模型化和机器可读等特点,本体成为语义网环境下不可或缺的组织工具,受到了信息管理、知识工程、人工智能和机器翻译等多个领域的关注,掀起了一股研究热潮。目前对本体的研究主要集中在四个方面:
(1)本体构建工具:这是用于本体构建、编辑、维护与开发的软件系统。目前研制开发出来的工具有90多种,这些工具在格式、描述语言和推理机制等方面各有特色,但不同工具之间的标准化、互操作和实用性等方面仍然存在着问题。较为成熟的工具包括[40]:OilEd,OntoEdit,Ontolingua,Protege,Webonto,Ontosaurus等。
(2)本体表示语言:本体需要某种语言来对其进行概念化描述,即本体表示语言。其功能在于为构建本体提供建模语言,为本体从自然语言转化为机器可读的逻辑表达形式提供工具。目前有许多语言可用于表示Ontology,其中一些语言是基于XML语法并用于语义网的,如XOL、SHOE、OML,以及由W3C组织创建的RDF与RDFS。建立在RDF与RDFS之上、较为完善的Ontology语言包括DAML、OIL、DAML+OIL以及OWL语言。其中OWL是W3C推荐的网络本体语言标准[41]。
(3)本体构建方法:本体构建研究目前处于发展阶段,还未形成一套标准的本体构建方法。国外开发的几种常见方法包括:METHONTOLOGY法、IDEF5法、TOVE法、骨架法、SENSUS法、七步法、KACTUS法等。国内有研究将这七种方法进行比较,认为:这七种方法都允许系统之间的互操作并提供知识共享和复用的机制,各自有着各自的优势与不足;但没有一种方法体系是完全成熟的[42]。
(4)本体的应用:构造本体的目的在于实现一定程度的知识共享和重用。本体的作用包括:理顺领域知识的结构,从而为知识表示打好基础。为人和组织之间的通信提供共同的词汇,使知识共享成为可能。在不同的建模方法、范式、语言和软件工具之间进行翻译和映射,以实现不同系统之间的互操作和集成[43]。本体在数字图书馆的重要作用在于信息组织、信息检索和异构信息系统互操作。例如,KIM(Knowledge and Information Management)是一个基于本体的信息检索系统。作为OntoText实验室的研究项目的研究成果,KIM Platform提供了一个语义服务平台构架和在此构架上的应用,包括:网页内容的半自动语义标注、本体部署、基于内容的语义索引、检索与知识导航以及知识问答[44]。又如,国际粮农组织的农业本体论服务(AOS)提出[45],AOS的主要目标在于提供一个框架,以便于实现更佳的资源索引和检索,加强农业领域内的互操作。
2.5 用户参与和用户使用优先趋势
传统知识组织工具强调用户体验,但是,其主体用户是信息服务专业人员,因此,在用户体验和用户优先方面贯彻得不太理想。在网络时代,各类知识组织体系编制的前提条件是从最终用户的使用角度出发,直接面向大众终端用户,所以,面向大众用户的易用性和适用性成为知识组织体系的重要指标。
在语法、语义和语用基础上,用户参与也可以借鉴网络搜索引擎在基于用户信息检索方面所取得的成果,将目前的各类知识组织工具面向终端用户,增加与用户的互动,使分类表、叙词表和本体等知识组织工具在用户使用中实现可扩展和可伸缩,在系统应用中实现可互操作,在关系设置和应用中实现简单易用和智能化,在领域知识表达方面实现专业化和精深化,从而达到情报检索语言的大众性,实现知识组织工具的智能应用等。
自从20世纪90年代以来,网络的分类出现了应用已有分类法,或者用户参与编制的各种大众分类法。后者是分类法在网络时代新的发展和创新。大众分类法(folksonomy),是由“Folks”和“Taxonomy”组合而来。其主要特点在于:由网络用户给定标签,经过整理、标引和检索那些统计词频比较高的标签,就可以获得平面非等级的分类信息。这是网络时代用户参与的一种重要分类法,例如,在约舒亚·沙科特(Joshua Schachter)开发的Delicious中[46],用户可以与他人分享和交流网页书签,亦可储存和管理私人书签,其中应用的就是大众分类法;用户在Flickr中可以为照片添加标签[47],使其他用户可以通过博客在线分享照片信息;43things的用户可以添加愿望标签[48],豆瓣网提供图书介绍、读者评论及网上书店价格比较等[49],这些都是大众分类法的典型。
2.6 知识组织体系的标准化研究
对于面向机器应用、以信息技术和网络载体为主要环境的知识组织工具与系统,标准与规范的制定和执行是非常重要的。遵循一定的标准来构建和表示知识组织体系,有助于实现知识组织体系之间的互操作。叙词表编制实践发展了叙词表标准,也使之始终处于不断的制定、修订、执行过程中。知识组织体系(以叙词表为例)的标准规范建设可以大致分为两个方面。
2.6.1 叙词表编制标准的修订
自从1959年出版了第一部真正意义上的叙词表以后,叙词表的编制就进入了蓬勃发展的阶段,并促进了相关标准的形成。1974年,美国发布了《Z39.19叙词表结构、编制与使用规则》[50],随后ISO也分别于1974年和1985年发布了《ISO 2788单语种叙词表编制规则》[51]、《ISO 5964多语种叙词表的编制规则》[52]。在参照国际标准化组织ISO相关标准的基础上,我国也制定了相应的国家标准:《GB/T 13190—1991汉语叙词表编制规则》[53]、《GB/T 15417—1994文献多语种叙词表编制规则》[54]、《GB/T 19486—2004电子政务主题词表编制规则》[55]、《GJB 1776—1999军用主题词表编制规则》[56]、《GJB 5098—2004军用电子叙词表编制规范》[57]。
在网络环境下,叙词表开始进入网络化的实践阶段,原有的标准已经难以规范现有的实践。因此,叙词表编制标准相继开始修订:美国于2005年对Z39.19进行了修订;英国于2005-2007年对其叙词表标准进行大幅修订,目前第五部分仍在修订中;ISO于2007年底对两个叙词表编制标准进行修订,2008年底ISO又推出了ISO CD 25964-1(ISO committee draft,ISO技术委员会草案),并面向各国广泛征求意见。ISO 25964-2还没有相应的标准文本[58]。
作为实践经验的总结,这些叙词表标准在修订中呈现出类似的特点:①标准化对象都进行了不同程度的拓展,涵盖了其他类型的知识组织体系,如美国叙词表标准将叙词表改为受控词表,涵盖了列表、同义词环和知识分类等知识组织体系;英国叙词表标准将叙词表改为结构化词表,涵盖了分类体系、知识分类、本体、主题标题表等知识组织体系。预计未来的标准不仅仅能规范叙词表,还可以规范其他的知识组织体系,能在同一标准中实现对不同知识组织体系的规范。②标准内容大幅增加。除了原有的叙词表编制的条款,所修订的标准内容还涉及:规范叙词表的互操作问题,具体包括叙词表编制软件和其他应用软件之间的数据交换、不同语种的叙词表之间的映射以及不同类型的词表或知识组织工具之间的互操作;规范信息技术在叙词表编制中的应用,如叙词表编制软件、可视化技术以及RDF、OWL和SKOS等描述语言[59]。
2.6.2 叙词表描述和表达的相关标准的编制
在网络环境下,叙词表的用户不再仅仅局限于人,还包括计算机。为了实现计算机对叙词表的理解和应用,运用各种语言和框架模型对叙词表进行描述和表示逐渐成为叙词表编制实践的中心。近几年,国际上已经形成了一系列的标准对描述语言和框架进行规范。
(1)Zthes(Z39.50 Profile for Thesaurus Navigation):2006年由美国国家标准组织发布。这是一个用以表示和检索词表的抽象模型,指明如何将Z39.50协议用于该模型的实现。这一协议标准对于叙词表的网络应用非常重要[60]。
(2)SKOS(简单知识组织系统)推荐标准:2004年由W3C发布,这是一个基于语义网技术来表示受控词表以及其他知识组织工具的概念框架,具有通用、简洁和易扩展的特点,并与传统图书情报领域联系紧密,对于促进受控词表在网络环境下的使用具有非常重要的意义[61]。
(3)主题图相关的标准:主题图(Topic Maps)最初是由W3C提出的,并由国际标准组织SGML委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。相关的标准包括:ISO/IEC13250:2003定义了Topic Maps的完整模型;ISO/IEC13250-2定义了主题图的数据模型;ISO/IEC 13250-3:2007定义了用于主题图交换的XML词汇;ISO/IEC132504:2009规定如何从主题图产生CXTM文件[62]。
3 推进知识组织体系研究的应对策略
鉴于知识组织体系的国内外发展趋势,基于数字环境下人们对知识服务的期待,对知识组织体系的研究、建设和应用也成为业界十分关注的重大课题。作为《汉语主题词表》编制的主持单位,中国科学技术信息研究所(以下简称“中信所”)近年来加强了网络知识组织体系的建设和研究工作:建设了英汉科技词库,编制了《综合电子政务主题词表》;主持牵头承担了“十一五”国家科技支撑计划重点项目“科技文献信息服务系统关键技术研究及应用示范”研究,联合相关单位开展了知识组织体系、多语言信息服务环境及知识链接系统等关键技术研究;以“EI叙词表的中文映射”研究为核心,完成EI叙词表与汉语叙词表结构对比分析[63];设立了“汉语科技词系统建设与应用工程”项目,探索在网络环境下叙词表的编制方式和应用领域,启动了网络时代新型《汉语主题词表》(工程技术版)的修订改造工作及汉语科技词系统的研究,引进和培养相关高级专业人才,形成新的知识组织研究团队,在知识组织领域取得了一定的成果[10]。
3.1 《汉语主题词表》(工程技术版)建设
20世纪90年代,人类进入网络时代,在网络环境下,信息存储、加工、传播等发生显著变化,人类具备了海量信息资源,并拥有了突破时空限制的网络技术,甚至用户可以自由参与信息资源组织。在新的信息环境中,叙词表的编制方法、应用方式以及表现形态等也发生了相应的变化。在这种背景下,中国科学技术信息研究所组织全国的情报检索语言专家,对《汉语主题词表》的修订改造方案进行多次咨询和论证,于2009年正式启动《汉语主题词表》在网络环境下的修订改造工作。该项目的特点在于:在词汇利用方面,建立起基于资源主题特征的基础词库、核心词库和叙词词库的多级数据库系统;在词间关系确立方面,以网络信息、文献信息资源为依据,通过机器辅助提供主要词间关系;在应用设计方面,综合、借鉴了大量网络搜索引擎的功能和方法。这是《汉语主题词表》进入网络时代重大的改造工程。
《汉语主题词表》修订改造采用全新的技术路线:第一,研究《汉语主题词表》在网络环境下的新定位和应用需求;第二,探索网络时代全国性科研协调合作机制,包括经费、技术、管理、团队等各个方面新的合作方式;第三,以工程技术专业领域为突破口,探索新的叙词表修订改造方法,如基于现代网络语料的专业术语和词间关系的自动获取,与计算机系统的整合及应用等;第四,研究多个不同专业叙词表合并与集成方法,将概念和词间关系进行统一整合;第五,研究《汉语主题词表》的可视化方法,以及在信息系统中交互方法,实现信息系统的后台应用;第六,研究《汉语主题词表》网络在线的维护和更新系统,设立《汉语主题词表》维护机制,使《汉语主题词表》得到可持续发展。目前已经进行编制方法的前期论证,包括编制规则制订、编制平台研制、基础词库建设、范畴类目修订等相关工作也全面展开[64]。
《汉语主题词表》是我国图书情报界集体智慧的结晶,在我国图书情报事业中发挥了重要作用。鉴于《汉语主题词表》对我国情报检索语言发展的历史贡献,图书情报界对网络环境下新型《汉语主题词表》的期待,重启《汉语主题词表》的修订改造工作将会在全国范围内联合业界相关单位和专业研究人员,掀起叙词表在网络时代的研究和应用的新高潮[65]。
3.2 汉语科技词系统研究
为了应对网络化电子化科技信息资源管理和深度内容分析的需求,立足已有的主题词表基础,吸收本体思想,探索适用于我国科技信息资源处理的知识组织系统和相关工具,中信所提出了汉语科技词系统概念,并以“新能源汽车”为例进行了探索。
汉语科技词系统的发展经历了三个发展阶段:第一阶段(2007-2008年)是集成融合的探索阶段,重点解决多部词表在形式上的集成融合问题,提供概念索引、集成展示等功能,初步将一个领域有关的词表集成在一起,形成了一个词表建设和管理的平台。第二阶段(2008-2009年)是理论研究阶段,在第一阶段基础上,提供更多的语义信息,对关系类型进行了扩展,形成了一套关系扩展的方法,将关系和属性分离,设计了属性类型,并增加了定义知识,形成了词系统的主要知识结构。第三阶段(2009-2010年)是实践阶段,开发了词系统协同构建平台,在新能源汽车领域展开建设示范。
词系统协同构建平台的架构设计充分考虑灵活性和可扩展性,保证自动化的辅助构建工具和人工构建的有机结合,如在关系构建时,系统会自动为知识工程师提供相关词候选,直接点选相关词并输入相关类型即可完成关系构建工作。用户可以根据自己在实际工作中的体验,开启和关闭不同的辅助构建功能,从而保证平台不会对内容建设带来负面影响。此外,不断发展和完善的各类知识挖掘和辅助推荐工具都可以集成到词系统构建流程中。协同构建平台建设充分考虑词系统今后的共享和互操作,根据W3C提出的SKOS标准和词系统实际知识结构,定义了词系统SKOS输入输出规范格式。新能源汽车领域汉语科技词系统已经应用到多项研究项目之中,目前通过www.vocgrid.org网站向国内外科研和教育用户提供新能源汽车汉语科技词系统核心词、中英文对应、形式化概念描述信息和相似度计算、词汇群落计算等数据和工具。
目前汉语科技词系统开始探索在科技监测等领域的应用,正向两个主要方向发展,一是在已有新能源汽车领域词系统基础上的自动构建方法研究,二是开放共享的免费词表构建服务推动,分别代表了人工智能和人本计算的思想。
3.3 科技信息资源内容监测与分析服务平台开发
近年来,利用各类科技文献(如期刊论文、专利文献、学位论文等)进行科技领域的分析与监测研究得以快速发展,其发展方向正在从以往基于数值分析的文献计量学方法向数值分析与内容分析相结合的分析方法转变。经调研发现,国内研究者迫切希望分析本领域的研究动态,了解领域内相关研究的重要研究者和重要文献,并对科技文献和科技工作者的工作进行准确的评价。为了满足他们的需求,中信所借助国家科技图书文献中心雄厚的资源优势,联合清华大学等有关优势单位,共同开发了面向西文资源的科技信息资源内容监测与分析服务平台。该平台具有专家、期刊/会议和关键词统一检索功能,具有研究者关联路径发现、主题发现等功能,并且内嵌了专家和论文排名功能。
为了对科技文献资源进行深度分析,将在对资源进行全面清洗基础上,对文献中学术参与者(机构和人)之间合著关系、引用关系、人员机构变动关系、人员和刊物关系等进行发现和挖掘,揭示团队中的学术交流、知识流动情况,进而及时地反映当前科研领域的合作、交流、发展态势,从而可为论文评审、项目申请等推荐专家时的避嫌问题提供支持,并结合国家中长期发展规划,形成面向中长期科技发展纲要的重点领域及优先主题的动态科技监测能力。具体来说,将以中信所构建的汉语科技词系统为基础,重点揭示某一领域内的知识结构,知识的流动和演化发展过程,对未来的趋势进行探测和判断,包括分析研究领域所含的主题、主题的分布、核心主题、新型主题、主题间关系以及主题的演化过程等。对领域内研究趋势和研究热点进行判断和识别,实现研究趋势和研究热点的探测发现和追踪。
3.4 面向深度分析的领域专利分析工具开发
专利情报对科技管理决策的支撑作用日益突出,近几年来,中信所也将专利信息分析引入到战略情报分析领域,并探索了专利处理分析软件工具与信息分析工作相结合的途径及方法。通过自主研发建设“面向深度分析的领域专利信息特色资源服务平台”,在整合专利数据自动获取、自动深度清洗加工、数据的二次检索与导出、定量指标的分析与可视化结果输出等功能的基础上,为分析人员提供面向领域专利分析的在线专利信息服务平台。同时,研制了基于专利文本内容的专利聚类工具、面向技术趋势挖掘的专利文摘抽取工具及相关的信息可视化工具等,以满足分析人员在专利文本深度分析层面的需要。
下一步,中信所将在专利数据语义化表示技术、海量数据规模的专利分类、聚类及可视化实现技术,知识组织系统与专利文本分析的整合技术等方面开展相关研究,以支撑未来面向领域分析的专利文本深度分析工作的开展。
3.5 基于引文分析的科技评价与决策支持系统
科技论文是科技产出的重要指标。1987年,中信所开始开发中国科技论文引文统计分析数据库。近年来,中信所联合全国科技期刊界和相关信息企业,共同建设了知识链接数据库系统。该系统是一个由约6000万条记录组成的知识链接数据库,涵盖了几千种期刊约十年的论文、引文、作者、机构、基金数据。通过对科技期刊、论文和著者等的引用和被引用现象进行分析,对研究机构的科研实力进行评估,对科技期刊进行评价;通过引文分析来测度某一学科的影响和某一国家某些学科的相对优势,测定某一国家(地区)的总体学术影响力;通过引文聚类分析,推测学科间的交叉、渗透和衍生趋势,揭示科学的前沿动态。该系统具有海量的数据规模、类型丰富的文献线索和专业化的数据分析手段,已成为全国科研管理机构和科技人员分析科技论文产出和进行引文分析的重要工具。它可以充分揭示知识要素相互关联、相互参照、相互引用和相互链接的关系,为科技界提供知识评价和计量监测服务,为科技部、教育部、自然科学基金委和中国科协等管理部门的政策制定和管理工作提供有力的数据支撑。
同时,中信所创建了科技创新辅助决策支持系统(STADS),主要面向政府、科研院所、高校、企业等科研管理部门。该系统利用知识链接系统相关数据,围绕学科、组织机构、专家、主题、基金等科研要素,构成二维空间,可用于科技信息挖掘、分析,进行科技创新能力评估,丰富了知识链接功能。同时,采用先进的中文信息处理技术、元数据仓储技术、信息网格技术、数据关联挖掘技术与自动分类/聚类技术,对海量科技知识信息进行挖掘和分析,形成前端导航机制,进而为用户提供立项评审、能力评估、项目监测、科技查新和科研定题等多项支持,并以分析报告、统计数据、图表、邮件推送等方式输出,为科技创新决策提供支持与服务。
标签:主题词论文;