新型责任者标识系统ORCID的构建机制介绍,本文主要内容关键词为:责任者论文,标识论文,机制论文,系统论文,ORCID论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
收修改稿日期:2015-03-05 分类号:G250.7 1 引言 据报道,在MEDLINE数据库的600万作者中有三分之二的作者与至少一个其他作者的姓(Last Name)和名(First Name)首字母相同;每一个歧义姓名平均涉到8个人[1]。2009年,《自然》杂志报道了一种新型的责任者ID系统——“开放式的科研人员和科研贡献者ID”系统(Open Researcher and Contributor ID,ORCID)。ORCID Inc.在广泛的利益相关者推动下,作为非营利性组织正式成立,致力于解决长期存在的学术和研究领域科研人员和科研贡献者的人名消歧问题[2]。至今,ORCID已发放近120万个ID[3],不仅得到广泛关注而且日渐流行。 最早的责任者名称标识系统可追溯到传统图书馆书目控制工作中的责任者名称规范[4],计算机技术和互联网的发展使规范控制的环境和对象均发生了巨大的变化,统一标目发展为数字资源唯一标识的管理,责任者名称规范控制发展为责任者对象关系语义的揭示[5];《自然》和《科学》杂志刊出多篇有关责任者标识问题的文章[2,6-9],涉及责任者标识面临的危机、发展理念变化及解决思路。文献[10]归纳和总结了目前11种学术出版领域的责任者唯一标识符系统,文献[11-13]对其中的典型项目Name Project、OKKAM、ResearchID、DAI、ISO ISNI、OpenID等进行介绍,文献[14]对ORCID进行了专门介绍。这些标识系统除了解决检索和信息组织中的汇集、区分和引导问题,还在学术评价、成果流通等方面体现出越来越显著的重要性。文献[10-11]归纳了责任者唯一标识符在学术评价和管理方面的应用场景。 为什么有了众多的责任者唯一标识系统,仍然会有ORCID的出现和流行?ORCID系统与其他责任者唯一标识系统有什么区别和联系?用户和第三方系统如何进行使用,是否还需要构建本地的责任者名称规范和唯一标识符?本文从构建机制入手,分析和研究ORCID的构建模式、声明与验证机制以及元数据规范,并与其他责任者标识系统进行对比,尝试透过ORCID理解当前责任者名称标识系统呈现的一些新特点和新趋势,为上述问题的解决提供思路。 2 多利益相关者联盟——“自下而上”和用户驱动的联合构建 2.1 联合共建模式 从构建模式角度来看,责任者名称标识系统通常发起和限定于一定的范围和层次,根据International Repository Infrastructure Wiki的Author Identificaiton版块[15]的总结,可划分为国际性行动和计划、国家层面、学术项目、出版商和图书馆专用系统,其规范控制能力和范围也相应地局限于一定层次和程度。分布式信息环境下,局部、封闭构建的责任者名称标识系统,其在可扩展性和跨系统方面存在的缺陷尤为显著[13]。联合构建模式试图打破这种封闭性,汇聚不同联合者的数据贡献,经过整合、映射、集成形成统一、集中的名称标识符系统,甚至多个联合体再进行联合和兼容,形成更大范围的责任者名称标识系统,为每一位责任者分配唯一标识符,同时通过开放、透明的链接机制,与其他责任者唯一标识系统相关联。 比较有影响的责任者名称标识系统均发起于较高层面的联合和共建,如:虚拟国际规范文档(Virtual International Authority File,VIAF)是由37个国家级图书馆以人名规范为主的规范文档的联合映射系统,由OCLC负责运营和对外服务[16];跨领域联合构建的国际标准名称标识符(International Standard Name Identifier,ISNI),用于标识创作和发布内容产品的责任人,包括研究人员、发明家、艺术家、视觉艺术创作者、表演者、生产者、出版商、整合者等,其数据提供者由两大类成员组成,一类是版权管理组织,另一类是图书馆、教育、出版、行业成员[17]。 2.2 ORCID的联合构建 ORCID通过会员制的联盟形式吸收广泛的利益相关者,包括研究者、研究机构、中介、政府、资助机构、商业出版机构、学术界、大学和图书馆等[2,18],是典型的联合构建模式,涉及数据的集成、技术的复用以及服务的整合。 (1)数据方面,ORCID集成了众多贡献者数据,如ResearcherID、Scopus Author ID的责任者数据、CrossRef的出版物数据和DataCite的数据集信息等[19],曾经有超过50%的注册数据来自汤森路透的ResearchID[20]。数据的联合集成使ORCID作为新出现的责任者名称标识系统能够吸收和复用以往的数据成果,实现快速构建和跨域的数据整合,并使对责任者更大范围和跨领域的追溯成为可能。 (2)技术方面,ORCID采纳了多个系统的名称匹配和消歧算法,包括:来自OCLC的VIAF Matching Technology;来自ProQuest的Author Resolver;来自OKKAM的Matching Capability[21]。ORCID系统本身也是对汤森路透开发的ResearcherID系统的移植,并以ResearchID代码的永久使用权及知识产权授权为基础进行扩展[14]。 (3)服务方面,ORCID通过整合、嵌入各个构建单位,如数据平台商、出版发行商、基金申请机构、开放仓储等的业务流与应用[19]。如汤森路透将ORCID身份识别码嵌入其科学和学术研究系统中,提供了一个使用和获取该身份信息的整合社区平台,包括在EndNote的参考文献目录中使用,并最终成为格式化的引文文献的一部分;在ScholarOne Manuscripts中使用,并作为同行评议流程的一部分被检索和报告;发表的文章一旦被Web of Knowledge平台索引,即可链接到ORCID的作者概况信息并进行检索[9,18,20]。 与传统的联合构建方式相比,ORCID是一种自下而上的、用户主导的联合共建模式;与同样去中心化的OpenID等和基于用户自主注册的ResearcherID等相比,ORCID利用整合战略的推进和技术支持的保障,确保联合的广泛性和共建的可持续性,具有机制优势: (1)ORCID ID的分发与用户档案维护:与VIAF、ISNI等自上而下发起的、由专业人员和系统集中确认分发的构建模式相比,ORCID的联合构建是一种自下而上的、基于用户活动的联合建设[22],即不是在规范或标准机构层面发起,而是发起于科研活动主体(个人、机构)和科研活动本身,如论文发表过程、基金申请过程、学术社交等[23],因此ORCID数据关注当前活跃的科研人员,也具有与科研活动同步的可能性。具体形式包括:科研人员自主注册及更新数据;科研机构代理用户注册,或通过批量上传下载及科研产出关联,实现双向更新与同步;获得责任者授权的出版发行、基金申请等机构为用户提供注册和数据更新向导工具等[24]。 (2)整合战略:与第三方系统的整合和应用嵌入,如《自然》等杂志的论文投稿系统、英国Wellcome Trust和美国NIH ScienCV的基金申请平台、大学的机构知识库及科研管理、人事管理系统等[19,25],是ORCID推广和发展的重要战略。正是通过这些整合,ORCID伴随着科研主体,渗入科研活动的全流程,数据质量和消歧能力不断提高,与第三方系统的发展进入良性循环,从而确保联合构建的长期有效。 (3)技术保障:为支持上述灵活多样的注册和数据交互方式,以及嵌入第三方机构实现数据的采集、更新和整合应用,ORCID提供了丰富和灵活的API以及沙盒开发环境,能够面向公众和联盟会员实现认证、查询和不同层级的数据交互[26]。 3 混合式声明与验证——保障唯一性与可信度的消歧思路 ORCID自下而上、用户驱动的联合共建模式决定了ORCID标识符不是集中统一分配,而是通过多主体、多来源的注册声明,逐步汇集、去重、归一而形成的。因此,如何确保多声明来源环境中的标识符具有唯一性和可靠性,成为ORCID面临的关键问题。 3.1 声明与验证方式对唯一性与可信度的影响分析 责任者名称规范系统的核心是确保名称标识的唯一性和可信度。唯一性是指消除名称歧义的程度;可信度是对唯一性的保障程度。而与此密切相关的是责任者名称规范系统在构建时所采用的声明方式和认证方式。根据文献[27]的观点,声明方式与名称识别(Identify)密切相关,而认证则是对识别可靠性的验证(Authentication)。 根据文献[28]对文献[27,29]等的总结,声明与验证方式可归纳为以下三种方式,如表1所示。 声明与验证方式对唯一性识别与可信度保障的程度可以进行粗略比较,如图1所示。 图1 声明模式的唯一性识别与可信度保障[27-29] (1)自主声明 自主声明是作者或研究人员本人对自己的信息和作品进行声明或确认,常见于出版机构为作者、审稿人等提供的声明和注册机制。Research ID、PubMed AuthorID、Scopus Author ID等是典型的自主声明的责任者名称规范系统。学者对于自己使用过的各种名称及发表过的作品,能给出准确的描述,排除恶意造假,该模式对名称的识别性很高[14],名称消歧的效果和唯一性识别比较准确。但其局限是:缺少监督和审核可信度的机制;各个系统无法保证用户都去进行认证和声明;作者机构等发生变化时,缺少动力去维护更新原有记录[29]。 (2)代理声明 代理声明是由组织或机构代表责任人进行名称注册或作品确认[27]。一种是公共代理,如图书馆编制作者规范文档,或者标准组织发布责任者标识符等。公共代理的名称识别能力和消歧效果要低于自主声明,原因在于责任者名称涉及两个要素——人和作品;而作为图书馆这样的组织机构,无论对人本身还是作品本身,都不掌握第一手或权威的来源信息,因此对这两要素的识别和消歧不具有权威性,但具有基于行业准则的验证过程。另一种是特许代理,特许代理是对人或作品的来源信息有权威掌握的组织机构,如责任者本身隶属的机构、出版者等版权所有者等。机构认证则是指机构和组织负责对注册信息的准确性进行确认,最常见的特许声明如来自于机构知识库等专有系统的机构认证[27-28]。 (3)社交声明 社交声明是人际声明的一种体现,是通过社交网络对责任人及作品进行确认。社交网络服务(Social Network Services)是基于互联网,帮助人们建立、反映以及维系社会人际关系的网络服务,如MySpace、Facebook、Twitter等[30]。社交网络提供了识别某个主体身份的个人信息和活动记录的集合。社交声明则是在真实的自主声明的基础上,增加了人际活动和人际关系,而学术社交网络的人际活动和人际关系主要是科研活动和科研合作关系,如科研项目、会议、科研机构、科研产出(论文、专利)等。目前比较活跃的学术社交网络主要有Academia.edu、Kaggle、ResearchGate等[31]。以全球最大的科学社交和资源网站ResearchGate注册为例,系统会根据用户提交的真实姓名,与来自PubMed、CiteSeer、arXiv等的论文自动匹配[32],提示用户“认领”同名或相似姓名的论文,同时提示邀请合著者也认领该论文;在注册时,还会提示采用已被采纳的机构名称,并根据机构名称对用户邮箱进行验证。社交声明以自主声明为基础,其消歧性与自主声明类似,有助于梳理作者和作品关系,同时又关联人际网络和人际关系作为数据准确性和真实性的保障与监督,因此社交网络声明的消歧性和可信度均比较高。 3.2 ORCID的混合声明模式 根据文献[28],ORCID同时采用上述三种声明模式的混合声明机制(如图2所示),并通过系统逐步开发实现。ORCID系统初建和上线伊始,采用个人自主声明模式;从2012年第4季度开始,增加机构组织的数据加载和认证,并在2013年增加社交网络认证[28],用户可在注册声明时加载学术社交网络ResearchGate、SelectedWorks、Academia.edu的文档或LinkedIn页面[33]。 图2 ORCID的混合声明模式[27] 混合模式能够最大限度地发挥各种声明模式在名称识别和认证方式的综合优势。但混合模式可能引发同一个责任者由个人、机构、社交网络多方声明造成的重复记录。依据文献[29],ORCID所采取的解决思路不是试图在标识符-描述记录-责任者之间建立一对一的关系,而是通过各种工具化的自动算法,为标识符-描述记录-责任者建立n-n-1的关系,为指向同一责任者的来自个人声明、机构声明等的多个记录之间建立same as关系。与常见的责任者名称标识系统所使用的去除重复记录(De-duplication)的消歧思路不同,ORCID采用的是一种对权威度和信任值进行建模的方法。文献[29]的具体实现方法如下:如果将ORCID系统模型化为一个声明数据库,它由责任者一方和其他各方生成的声明组成,通过计算声明的非唯一性、重复性和冲突,能够创建记录的权威度和信任值。第三方使用ORCID API或用户界面可以获得这些记录的可信度。具体的评估思路是在记录级水平,简单查看一条记录的优先性:是一个个人声明的记录还是一个联盟成员的记录?如果是被联盟成员收录,又是哪个联盟成员?举例来说,一个知名机构的记录比相对不知名机构或社交网络、个人声明的记录更权威。另外,通过一个条记录有多少same as存在,推断一个连接多个same as的记录比一个没有那么多链接的记录可信度更高[29]。 4 “精确归属”与“数字化简历”——从描述规范到作品轨迹的元数据控制 如上所述,ORCID的消歧算法是基于责任者诸多声明记录之间same as关系的构建、评估而实现计算的,如何比较责任者的不同声明描述是否相同,涉及数据描述的规范、元数据控制以及比对策略等多方面的问题。 (1)责任者的规范描述 要比较责任者的不同声明描述,首先要确保不同声明以同样的元数据标准进行表达,这一点与去重消歧的责任者名称标识系统类似,即制定自己的元数据规范,并尽可能复用已有的标准词表。如VIAF采用MADS作为名称规范元数据标准;ISNI为了数据规范及保护责任者隐私,保留了最小元数据集,包括姓、名、分类(如:文学、音乐、视觉艺术等)和角色(如:作者、出版者、词作者)等[34]。ORCID专门成立了作品元数据工作组,负责检验作品和科研产出的元数据对于元数据的生产者与消费者,在ORCID注册和使用时是否充分、适用,并提出元数据建议。该工作组成员代表了包括出版商、元数据专家、学术图书馆、服务提供商、标识符专家等在内的ORCID多利益相关者,同时引入欧洲CERIF/EuroCRIS系列标准和SPAR本体[35]。 尽管如此,责任者与一般科研实体不同,它的多重属性特征和属性值的动态性非常显著:例如责任者的姓名表达形式往往是多值的,责任者的机构、职务、学历等会随着时间呈现动态变化,为不同来源声明的相似性判断带来很大干扰。 (2)责任者的“科研轨迹” 责任者的描述信息分为两个部分:一部分是责任者本身的描述,如姓名、机构、专业等;另一部分是责任者的科研产出,如论文、专利、博客等。前者具有一定动态和变化性,而后者一经出版或发表,其各项信息则呈现稳定。因此,责任者的作品列表,实际上是责任者在各种科研空间中活动,如申请基金、项目研发、发表论文等过程中的科研产出[23],描述、积累、追溯和关联这些产出,能够形成责任者的“科研简历”,通过比对科研简历,识别和判断是否为同一责任者实体,比单纯的责任者本身的信息比对更为客观和准确[29]。 ORCID的构建正是采用上述思路,在元数据控制方面,应用以下具体实现方法和机制保障: (1)精确归属 从卡片和机读时代开始,责任者名称规范的最终作用就是“精确归属[18]”,体现在汇集、区分和引导三个方面:汇集同一作者不同署名的作品;区分同名同姓作者发表的作品;引导读者通过参照关系准确获得所需文献[4]。但由谁来完成、依据什么对责任者主体与作品之间关系进行声明和确认,才具有权威性和可信度,关系到“精确归属”的操作实现。VIAF由图书馆、ISNI由标准组织、CrossRef由出版商、去中心化的OpenID、Google Scholar等由用户实施[10-13]。混合声明/验证的ORCID本质是由用户驱动的,基于ORCID会员联盟的广泛性和整合策略的嵌入性,用户在各种科研活动中,通过所在机构的科研管理、通过基金申请、论文发表、科研评价等,获得足够多的动力、机会和可能去维护作品列表和确认学术产出的归属。 (2)数字化科研简历 ORCID系统的“精确归属”不再局限于文献列表,而是通过研究人员发表的期刊论文、研究团队的博客、论文草稿或对Wiki款目的编辑等,作品类型达到37种之多[19],形成如文献[36]所提出的科研人员“数字化简历”,而科研人员的不断更新和动态活动,形成了科研活动和科研交流的网络图。对科研人员及其产出的准确标识,是从传统科研活动向e-Science过渡的支柱,在e-Science活动中,由学术出版物可以挖掘出关联点和隐藏在不断增长的科学文献背后的新思想[12,36]。 (3)关联外部链接符 如上所述,ORCID基于作品精确归属所形成的、可实时更新的“数字化科研简历”,进行多源声明的相似性比对[29,36],进而识别、描述和定义责任者实体。因此,ORCID与外部标识符的链接,不仅仅是“hub”意义上的开放互链,而更是确认责任者与作品归属关系的重要手段: ①直接关联文献唯一标识ID,如DOI,目前ORCID分配的197多万ID中,至少关联一个作品的责任者ID近22万;所关联的作品总计近630万,其中带DOI的作品219万[3]。 ②通过关联和共享其他责任者标识符,获得相关数据,如ISNI的数据库在ORCID注册过程可以被检索查阅[34]。 ③在与第三方整合的业务流中,通过关联第三方系统ID,获得用户档案。 因此,ORCID没有核心元数据或最小元数据集的概念,而更关注的是元数据的机器可操作、可解析的特性。ORCID元数据建议主要强调机器可识别、可操作,强调尽可能使用一切可用的外部标识符,即所有的作品应该有一个可操作的外部标识符链接作品及与该作品有关的其他数据;可能时,标识符应该有机器可执行的链接,指向关于作品的可解析的数据[35]。 5 结语 人们一直期望责任者标识符能像文献世界中的DOI一样,唯一标识、解析和持久链接网络和数字环境下的责任者实体[7],尽管各种责任者标识系统数量众多,但仍然无法达到这样的理想状态,一方面缘于责任者实体的复杂性,另一方面,在技术、管理、机制、推广等方面还面临诸多难题,有待解决和突破。作为新型的责任者名称标识系统,ORCID在构建机制方面的诸多新特点,体现了向理想目标的推进。从构建模式来看,ORCID采取自下而上、用户驱动的联合构建;从声明与验证机制来看,ORCID采用混合式声明,基于权威度、信任值确定责任者的唯一性和验证可信度;从数据层面来看,ORCID通过元数据和ID链接解析,实现责任者与作品两个对象之间关系在多来源(混合声明)环境下的反复确认和精准归属。新型责任识别系统ORCID构建机制介绍_orcid论文
新型责任识别系统ORCID构建机制介绍_orcid论文
下载Doc文档