科研人员唯一标识符的组成与应用研究,本文主要内容关键词为:标识符论文,科研人员论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号:G254 DOI:10.13266/j.issn.0252-3116.2015.04.004 1 引言 随着科学研究活动的日益频繁以及互联网技术的深入发展,科学研究活动的参与主体——科研人员的数量也与日俱增。据OECD(Organization for Economic Cooperation and Development,经济合作与发展组织)统计,仅到2009年,世界范围内的科研人员总量已经达到了700万之多[1],并且仍保持着不断上升的趋势。在某些科研人员分布集中的国家,每百万人中的科研人员数量甚至达到了7000余人[2]。伴随着科研人员数量的激增,重名现象也将进一步加剧。仅通过科研人员的姓名,将难以快速查找、准确辨识其研究成果,这将给科研成果的交流与共享带来不利影响。因此,有必要采取合适的办法来解决科研人员的姓名冲突问题,而科研人员唯一标识符则不失为一个良好的解决方案。 早在1998年,Cleveland G就提出,对于图书馆来讲,对作者的姓名进行唯一标识和为书籍赋予ISBN号是一样重要的[3]。之后,相继有学者探讨了科研人员唯一标识符的重要价值与作用。例如,我国学者张学梅[4]从信息检索的角度探讨了科研人员唯一标识符的重要意义,认为科研人员唯一标识符能够极大地提升信息检索能力,进而有助于对科研人员乃至整个学科的发展进行学术评价。学者Fenner M的研究[5]和OCLC[6]的报告则从科研活动参与主体的角度探讨了科研人员唯一标识符的重要作用,详细描述了科研人员唯一标识符对科研人员、科研机构、项目资助方、出版商等不同科研活动参与主体的重要价值与影响。除此之外,还有一些学者试图探索科研人员唯一标识符与图书馆相结合所提供的新型服务,如钟远薪[7]和黄虓[8]曾先后于2010年和2011年撰文建议图书馆借鉴科研人员唯一标识符理念开发属于自己的身份认证系统;Rosenzweig M等人[9]于2014年撰文介绍了密歇根大学图书馆以及机构库与科研人员唯一标识符系统ORCID进行整合以提供服务的情况。具体到实践层面,当前已有一些组织机构开展了科研人员唯一标识符项目,并开发了相应的科研人员唯一标识符系统[10],较为有影响力的如ORCID、ISNI、Researcher ID等。而我国的科研人员唯一标识符系统ThuRID和iAuthor也已经相继投入使用。截止到2015年1月,iAuthor中国科学家在线已有来自642家机构的14080位科研人员获得了ORCID号。 总的来看,虽然目前研究人员对科研人员唯一标识符问题的关注程度与日俱增,但相应研究成果仍多集中于对科研人员唯一标识符问题的理论探讨,尽管已开发了许多科研人员唯一标识符项目与系统且已经投入使用,却尚未有文章对这些项目及系统进行综合性的总结与评述。因而,本文将关注点聚焦于科研人员唯一标识符项目及系统的实践方面,通过对当前科研人员唯一标识符项目及系统进行详细的调研与介绍,力图明确当前科研人员唯一标识符项目与系统的发展现状及面临的问题,为今后相关研究提供可参考的建议。 2 科研人员唯一标识的内涵、特点与价值 2.1 科研人员唯一标识符的内涵 唯一标识符的理念早已有之,并且已经应用到许多领域中。较为常见的例子如身份证号、银行卡号、车牌号、产品条码以及电话号码等;文献出版领域的例子有ISSN、ISBN、ISRC、CODEN等。这些应用都已有很长时间的历史,而科研人员唯一标识符则是在近年来才逐渐受到关注的[11]。笔者认为,所谓科研人员唯一标识符,是指一种由数字、字母、符号甚至网址前缀所构成,按照某种规则有序或单纯随机生成并排列,用来表示并帮助识别、定位科研人员唯一身份的一组符号体系,是网络环境下标识科研人员的基本手段,是用户识别、确认科研人员身份的有力途径。 2.2 科研人员唯一标识符的特点 2.2.1 唯一性 科研人员唯一标识符的唯一性使得每个标识符只能对应一个科研人员,相应地,在一个系统内,每一个科研人员也只能对应一个科研人员唯一标识符。这种一对一的映射关系使得人名消歧变得十分简单。 2.2.2 永久性 科研人员唯一标识符一旦确定,将永恒固定,不会随意更改。因而,无论科研人员的姓名如何改变,只要用户掌握其唯一标识符,即可实现对该科研人员的精确定位。 2.2.3 通用性 科研人员唯一标识符的表现形式通常为数字、字母、符号或是命名授权,这使得其能够克服地域、语言以及文化的差异和限制,具有全球通用的优势。 2.3 科研人员唯一标识符的价值 以姓名标识科研人员的身份不利于科研成果的查准、查全,而通过科研人员唯一标识符可以有效解决科研人员姓名冲突的问题。科研人员的姓名冲突问题主要表现在两个方面:不同科研人员之间的重名以及同一科研人员拥有不同姓名。尤其对于较为常见的姓名来讲,前一种情况更加普遍。 在前一种情况中,以CNKI为例,将检索字段设置为作者,利用常见姓名“赵明”进行检索,得到科研人员为“赵明”的命中文献共9132条。然而,命中结果中姓名为“赵明”的科研人员显然并非同一科研人员,而是彼此重名的不同科研人员。这些科研人员的研究领域涵盖了医学、农学、经济学等不同学科领域。此种情况下,通常的做法是将科研人员的姓名与科研人员的学科领域或是所属机构进行组配检索,以达到对该科研人员的精准定位。但是上述做法仍然存在问题:对于将姓名与学科领域进行匹配的方法,如果该科研人员研究范围广泛,跨越不同的学科和领域,仅指定某一特定学科的做法将造成对该科研人员学术成果的漏检;对于将姓名与所属机构进行匹配的方法,如果该科研人员的所属机构曾经使用不同的名称,或者该科研人员曾在不同机构任职,检索时也可能因难以将与其相关的所有机构名称完整获得而导致漏检。 在后一种情况中,同一科研人员可能拥有正名、笔名、网名的不同名称,仅正名来讲也有可能几经变化,尤其对于外国学者来说更是如此。在此种情况下很难穷尽该科研人员的全部学术成果。可见,科研人员姓名的复杂性为用户的信息检索带来了很大的不便与挑战。而有效解决这一问题,正是科研人员唯一标识符的核心价值所在。 2.4 科研人员唯一标识符的内容表示 2.4.1 唯一标识符不表示语义信息 即生成的标识符并不包含科研人员的性别、所属机构、年龄、出生时间等语义信息,仅表示科研人员唯一标识符生成的某种顺序甚至是随机顺序。以ORCID为例,其科研人员唯一标识符为随机生成,无其他含义。想要了解该唯一标识符所代表的科研人员的具体信息,只能通过访问ORCID的科研人员主页获得,而无法通过对唯一标识符的解析获得。 2.4.2 唯一标识符蕴含特定的内容信息 即生成的科研人员唯一标识符包含创建的背景信息。如Researcher ID通过标识符的后4位显示科研人员申请获得唯一标识符的时间,ThuRID生成的科研人员唯一标识符中包括了科研人员所属的学校、系别、姓氏首字母等语义信息。 3 科研人员唯一标识符的组成形式与支撑技术 3.1 科研人员唯一标识符的组成形式 3.1.1 单纯数字组成 即全部采用数字对科研人员唯一标识符进行表示,如ISNI、Researcher Name Resolver、PubMed Author ID等。采用单纯数字方式表示的科研人员唯一标识符具有顺序性强,通用性好的特点,但是由于数字的基数较小,有时可能需要用多位数字表示一个概念,从而造成标记符号过于冗长、不便记忆的缺陷。并且,与网址前缀组成形式相比,单纯数字组成的简明性和表达性也相形见绌。 3.1.2 数字—字母结合组成 即采用数字与字母之间的混合形式对科研人员唯一标识符进行表示,如VIAF、OKKAM、Author Claim、Researcher ID等。与单纯数字组成相比,采用数字—字母混合形式表示的科研人员唯一标识符能够解决单纯数字唯一标识符基数过小的问题,但是形式过于复杂。以OKKAM的唯一标识符为例,其表现形式太过复杂,不便记忆。与网址前缀组成相比,其简明性与表达性也较弱。 3.1.3 网址前缀组成 这种科研人员唯一标识符通常分为两个部分:第一部分为标识符的网址前缀,通常为科研人员唯一标识符系统所在主页的网址,其目的是为了告诉用户或者计算机这一唯一标识符所属的命名系统。第二部分为唯一标识符的后缀,通常由数字、字母或是二者的混合形式组成。ORCID、DAI、arXiv's author ID system、OPENID等均采用网址前缀的方式对科研人员进行唯一标识。与其他两种组成方式相比,网址前缀型组成的表达性和简明性最好,用户能够对科研人员唯一标识符所属的系统一目了然。并且,网址前缀组成的科研人员唯一标识符还能够实现对科研人员主页的快速定位。以ORCID为例,其科研人员唯一标识符以网址形式表示,用户只需点击该网址,即可跳转到科研人员的主页,获取科研人员的信息。 3.2 唯一标识符的支撑技术 要实现对科研人员身份的唯一标识,最主要的环节就是实现对科研人员人名的识别。针对这一问题,当前科研人员唯一标识符项目均开发了一套自身可使用的人名消歧技术或是名称匹配算法。 (1)在人名消歧方面,以Scopus Author ID为例。Scopus Author ID的科研人员唯一标识符系统使用的人名消歧算法可以根据科研人员的归属机构、联系地址、研究领域及学科类别、所发表科研成果的来源出版物名称、出版物被引日期以及合著科研人员等信息在其与标识科研人员姓名之间建立匹配关系[12]。通过这种人名消歧技术,就可以解决科研人员人名标识的两个常见问题:将带有常见姓氏的科研人员区分开来以及查找以不同形式引用的科研人员。针对前一种情况,Scopus科研人员标识符系统搜索所返回的可能匹配科研人员列表中,将提供归属机构以及感兴趣的学科类别以帮助对常见姓氏科研人员的判断。比如,如果搜索返回两个名为Ayre G的科研人员,用户就可以参考这两个科研人员的归属机构或感兴趣的学科类别,从而确保为其搜索式选中正确的Ayre G。针对第二种情况,将多个科研人员姓名分在同一个唯一作者标识号下时,Scopus会考虑姓氏变体、所有可能的姓氏与名字组合以及姓名中带有和不带首字母的情况。这样在搜索某个特定的作者时,会同时搜索一个首选的姓名和该首选姓名的变体。这样即使对科研人员的文献进行引用时采用了不同的姓名表达形式,该功能也能在执行搜索时返回由该科研人员所著的文献。 (2)在名称匹配算法方面,以VIAF为例。VIAF的科研人员唯一标识系统利用规范文档的各种属性进行算法的匹配。这种名称匹配算法的思路是:在比较两个增强规范记录时,匹配的每一个元素都被认为是一个匹配点。匹配点按照强度被分为3类:强匹配点、中匹配点、弱匹配点。强匹配点为科研人员发表科研成果的题名、ISBN号、生卒日期以及与其合著的科研人员信息。对于兼容的名称,一个强匹配点就足以确认这些个人是同一个人,从而帮助用户识别想要查找的科研人员。中匹配点包括科研人员的作品环境指标,例如所用的出版社、主题范围和个人的角色(如插图者或作曲者)。通常情况下,多个中匹配点的匹配就足以确认一个匹配。而弱匹配点只可以用来区分本来是模糊的匹配。弱匹配点包括:该科研人员发表的科研成果所使用的语言、主题范围以及出版国等[13]。 4 科研人员唯一标识符的分配机制 4.1 科研人员唯一标识符的项目类型 为科研人员指定唯一标识符是网络环境下标识科研人员的基本方法,是用户识别、确认科研人员的有力途径。当前科研人员唯一标识符的分配依托特定科研人员标识符项目及系统来实现与推进。鉴于科研人员唯一标识符的优势与价值,许多组织机构、图书馆、出版商均开展了一系列的科研人员唯一标识符项目。表1为现有的科研人员唯一标识符项目的基本信息。而在项目级别方面,上述科研人员唯一标识符项目的级别呈阶梯式分布,主要包括国际级、国家级以及组织内3个级别层面:①国际级科研人员唯一标识符项目通常由大型国际组织、国际性学协会牵头立项,参与成员众多且多为高校、图书馆,跨越不同的国家和地区,适用范围广泛,具有国际通用的特点;②国家级科研人员唯一标识符项目最常见的是由国家政府机关或是国家科研部门牵头立项,参与成员多为本国高校及图书馆,适用范围相对广泛,具有国内通用的特点;③组织内科研人员唯一标识符项目通常由高校、图书馆或是出版商单独牵头立项,其目的是为了实现对本组织内的科研人员或是对出版文献的责任者进行有效标识,其适用范围较为狭窄,仅适用于组织内部。标签:orcid论文;