网络信息资源的规范控制探究,本文主要内容关键词为:信息资源论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G250.73 [文献标识码]B
1 规范控制概述
规范控制(Authority Control)的定义为:为确保标目在检索款目及书目系统中的唯一性和稳定性而建立、维护、使用规范款目和规范文档的工作过程[1]。从这一定义可以看出,传统的规范控制是图书馆书目控制的重要组成部分,为书目功能的实现服务。从20世纪60年代起,计算机技术的发展推动了图书馆自动化的发展,规范控制的实质也被进一步明确为检索点控制。为使用户可以使用任何名称、题名或主题进行检索,图书馆员必须要规范控制检索,以避免用户被淹没在信息的海洋中。
随着网络技术的发展与网络资源的极大丰富,规范控制的领域从对传统的图书馆书目进行控制延展到对其他领域的元数据进行控制。这一变化并未改变规范控制的作用,即提高资源的查全率与查准率,也未改变对资源进行控制的途径,即对资源的题名、责任者、主题、分类等各种数据元素进行规范,使供用户使用的检索点受控;但是由于受控对象的形式、特点发生了变化,规范控制的工作变得更为复杂,在这一过程中,也有更多的技术被应用。
到了21世纪,网络由专业人员主导变为用户主导,Web2.0时代来临,用户在参与的过程中,不断地创造着资源。规范控制面临更严峻的考验,图书馆组织方法是否能成为对网络资源进行普遍存取的有效工具成为备受争议的问题。
2 对网络资源进行规范控制的必要性
近年来,网络信息服务发展迅速,博客、维基、标签……一经出现,便在短时间内被广泛使用。美味书签、维基百科、豆瓣、Flickr……这些Web2.0的网站为用户提供了丰富的用户体验以及便利的知识管理工具。Web1.0时代的用户,只能被动接受经信息提供者组织与管理过的信息,而在Web2.0的平台上,用户可以按照自己的需要对个性化信息进行组织,从而在信息的使用方面极大地增加了便利性。与此同时,搜索引擎大行其道,在信息搜索领域占据绝对优势。图书馆对信息的组织方法却因为其专业性阻碍了普通大众的使用而为人所诟病,因而随着网络的发展,图书馆渐渐被边缘化。根据2007年OCLC(Online Computer Library Center,联机计算机图书馆中心)的报告《网络世界的共享、隐私与信任》(Sharing,Privacy and Trust in Our Networked World)的统计,2005—2007年搜索引擎的用户数量从71%增加到90%,而图书馆网站的用户从30%下降到20%[2]。那么,是否可以据此判断,图书馆已退化成藏书楼,图书馆书目的检索与汇集的功能已不再为用户所需要,搜索引擎可以代替图书馆信息检索,网络信息服务也可以满足用户对信息的组织与管理的需求呢?如果对网络信息资源的使用做更深入的分析会发现,事情并不像统计数字所呈现的结果那样简单。
搜索引擎可以实现海量搜索,将不计其数的信息推送到信息需求者面前,但是用户往往只会浏览前几页、前十几页,排序比较靠后的信息资源大多数情况下不会被注意到,尽管它可能是有价值的。海量搜索不代表用户可以完整获取到真正需要的信息。并且,搜索引擎一般按照链接的多少和阅读的次数来决定排序,而不会对信息的内容进行整合,所以同一检索得到的多个检索结果可能内容是完全重复的,这时用户就会因为浏览到数个重复的信息而放弃浏览,并可能认为结果是唯一的、可信的。再者,如果用户需要的是专指性很强的信息,搜索引擎检索的准确率相对较高,一般在前几页就可以找到需要的信息,不必进行过多的浏览,但如果用户需要的是比较宽泛的知识内容,那么搜索引擎提供的信息就会成为真正的“知识的海洋”,很容易使用户迷失其中。在查准率方面,搜索引擎比以图书馆专业信息组织方法为基础的信息检索要逊色得多。近年来,Google提供了诸如“学术搜索”、“博客搜索”、“图书搜索”、“生活搜索”等多种市场细分服务,期望为用户提供更准确的信息,但仍由于网络资源的不受控性,取得的效果并不明显。
在Web2.0时代,以前的互联网浏览者正在快速成为互联网内容的生产者,这种变化使得以自由性为特征的、不受控的信息资源大量增加。以博客为例,截至2008年12月底,在中国2.98亿网民中,拥有博客的网民比例达到54.3%,用户规模为1.62亿人[3]。在用户规模增长的同时,中国博客的活跃度有所提高,半年内更新过博客的比重较2007年底提高了11.7%[3]。在国外,从2005年到2007年,受调查者中使用博客的人数从16%增长到46%[2]。博客数量的激增成为用户在信息资源发现过程中的障碍。一方面,用户需要通过搜索引擎或社会化网络(Social Network)去寻找新增的博客,以便随时获得最新的信息;另一方面,博客中的信息虽然可以通过RSS(Really Simple Syndication,聚合内容)订阅及时获取、通过博主给出的分类有选择地阅读,但是当博客达到相当数量时,仍需要用户耗费一定的时间进行浏览,才能获得真正个性化的信息。因此可以看出,尽管网络信息服务功能强大,但不能提供精确导航的检索仍将成为信息资源获取的瓶颈。
综上所述,尽管搜索引擎与网络信息服务功能强大,但网络资源由于自由性导致的无序、混乱仍然存在,亟须对其进行有效的控制。同时,图书馆规范控制的功能主要为汇集、区分、引导,非常适合应用于网络资源的整合。因此笔者认为,图书馆网站的用户数量下降而其他信息检索方式的用户数量大量增加的原因应该归纳为:①用户对网络信息资源的需求量在不断增长。②图书馆对网络信息资源的规范控制所做的努力远远无法满足用户需求。在Web2.0时代,有效的规范控制能极大提高网络信息资源的利用率,图书馆应充分利用规范控制对网络信息资源进行整合,将规范控制与网络信息服务紧密结合,优势互补,为网络时代的知识发现与获取发挥至关重要的作用。
3 网络资源规范控制发展概况
在Web2.0的推动下,图书馆也进入图书馆2.0时代,不少有识之士不断地进行着理论与实践的探索,尝试在知识组织与信息服务中将2.0的理念与图书馆传统知识组织方法相结合,力求使图书馆继续成为人类知识存取的有效途径。由于规范控制在传统书目控制工作中曾起到重要的作用,因此,在对网络资源的整合中也被寄予厚望。
3.1 理论研究
由于网络新技术发展的推动,20世纪90年代以来,图书馆理论研究一直处于飞速发展的创新阶段。理论研究的突破对图书馆2.0的发展起到了积极的推动作用。
1997年,《书目记录的功能需求》(Functional Requirements of Bibliographic Records,简称FRBR)最终报告问世,顺应网络时代的变化,以全新的视角重新诠释图书馆传统知识组织体系。FRBR致力于界定书目记录相对于各种载体、各种应用、各种用户需求所发挥的功能,涉及最广泛意义上的书目记录——不仅包含著录单元,而且包含检索点(名称、题名、主题等)、其他“组织”单元(分类等)与注释的记录等的所有功能[4],在图书馆与网络环境逐渐融合的趋势下,基于FRBR实体模型的书目记录对规范控制提出了更高的要求。如何通过对FRBR的研究完善规范控制工作,成为近年来图书馆界关注的热点之一。如IFLA(International Federation of Library Associations and Institutions,国际图书馆协会和机构联合会)为使FRBR模型覆盖规范数据,成立了Functional Requirements and Numbering of Authority Records(简称FRANAR,规范记录的功能需求和编码)工作组,对规范数据的功能需求进行研究;在国内,许多对FRBR进行研究与阐述的文章都涉及规范控制领域的内容,包括FRBR中3类实体与规范控制的关系、统一题名与作品层的关系等。除理论研究外,FRBR原则也被应用到实践中,如OCLC便是FRBR原则的身体力行者,其于2007年推出的WorldCat Identities服务,以美国国会图书馆的名称规范档为主体,按照FRBR原则重新组织WorldCat书目数据库的书目记录,进行知识的聚类,致力于为用户提供更清晰、更便于利用的信息资源,为网络时代OPAC(Online Public Access Catalogue,联机公共目录查询系统)的发展做出了有益的尝试。
3.2 实践探索
在实际工作中,图书馆的规范控制工作开始逐渐与Web2.0的理念相结合,主要有以下几种方式:
(1)开放规范数据以供全球用户共享
规范记录一直以来都是由图书馆员制作、使用的,近年来这种封闭的状态由于受到网络发展的强烈冲击而有所松动,规范控制工作开始融入网络社会。
2003年,德国国家图书馆、美国国会图书馆和OCLC共同发起“开发虚拟国际规范文档”(Virtual International Authority File,简称VIAF)项目,长远目标是连接来自诸多国家图书馆和其他权威数据源的规范名称,形成一个共享的个人、团体、会议和地名的全球规范文档服务[5]。发展至今,其成员增加了瑞典国家图书馆、法国国家图书馆、捷克国家图书馆、以色列国家图书馆,达到了7家。
OCLC开发了术语服务,提供对多个受控词汇表的检索,可以使用搜索、复制和粘贴功能,创建前后一致的元数据。现在该服务提供11个受控的词汇表,当然这一服务是需要付费订购的,其目的还仅限于为图书馆提供服务。但是,随着图书馆2.0的发展,各类受控词表必将作为一种开放的网络资源为所有用户共享。
(2)以成熟的规范数据嵌入服务之中,为用户提供精确的导航
近年来,对美国国会图书馆标题表(Library of Congress Subject Headings,简称LCSH)的利用越来越广泛。德国布劳恩斯魏克大学图书馆推出浏览LCSH,包括620万个美国国会图书馆的主题标目,可以按字母顺序对LCSH进行浏览,在每个标目下均提供WorldCat Search、德国公共图书馆集团目录(Gemeinsamer Bibliotheksverbund,简称GBV)、澳大利亚国家图书馆(National Library Of Australia,简称NLA)、Google Search、LibraryThing、OpenLibrary、罗马美国大学(American University of Rome,简称AUR)图书馆对LCSH的检索链接。
除应用于简单检索和高级检索等基本检索方式外,还有一些网站将规范数据与Web2.0的形式相结合,作为辅助检索的手段。如澳大利亚Flinders大学图书馆在其网站上以标签云图的形式显示美国国会图书馆的主题标目,为用户提供导航。
(3)借鉴图书馆成熟的知识组织方法,对网络资源进行规范与控制
图书馆的知识组织方法历经百年的发展,已经相当成熟,虽然网络资源的规范与控制和图书馆传统的书目控制有着很大的差异,但仍然具有借鉴的意义。
一些网站在这方面已经开始了有益的尝试。如由北京大学信息管理系KVision组的学生开发的中文社会书签系统——兜乐,推出了特色服务——词汇服务和个性化推荐服务,将Web2.0的Folksonomy和图书馆传统的Ontology结合到一起,即用户端添加标签,可以对一个资源进行多个主题标引,服务器端采用词汇控制的方法设置等级结构及词汇间同义、相关等关系,构成立体的资源导航系统,为用户建议标引主题,推荐下位主题,引导用户建立合理的等级结构。
4 网络资源规范控制存在的问题及设想
综上所述,使用规范数据为用户提供信息资源的导航是目前将规范数据应用于网络信息服务的最常见的形式;对网络资源的规范控制主要采用的方法是在信息资源产生之前与元数据制作过程中进行先控,引导用户按一定的规则制作相对规范的元数据,既能提高网络资源的利用率,也利于对元数据的深度挖掘。
将规范控制融入网络信息服务的优势在于:规范控制工作经过近一个世纪的研究、探索与实践,成为书目控制工作中的重要组成部分,具备较为完善的理论与体系;规范数据一般由专业人员制作完成,比较权威,有助于提高文献检索中的查准率与查全率;规范数据库与书目数据库相连,通过规范数据可以将孤立的文献按一定的规律联系在一起,为用户提供高质量的知识服务。相对来说,民俗分类由于其发展时间较短,仍处于不断完善的过程中,尚未形成较合理的结构,又由于网络迅速更新的特点,使得民俗分类成为永远的Beta版,因此,稳定性差使信息的控制变得有名无实。无疑,直接使用图书馆的规范数据与耗费人力、物力重新构建资源导航系统相比是具有优越性的。因此,规范控制在网络信息服务中正在发挥越来越重要的作用。
但是,在将规范控制应用于网络整合的过程中也暴露出一些问题,主要包括:(1)传统规范控制自身的弊端。规范数据由图书馆员制作,因制作者的局限,影响规范控制惯用性原则的实现;名称规范库和主题规范库都存在着用词陈旧、更新滞后的情况;规范控制的专业性限制了用户对规范数据的使用,未经过图书馆专业培训的大众往往只能望洋兴叹。如果对规范数据采取简单的拿来主义,这些问题将严重影响用户对信息资源的检索与利用。(2)用户制作的元数据与规范数据在特征上存在很大差异:规范数据是刚性的,用户元数据是自由的;规范数据是权威的,用户元数据是大众的;规范数据中标目之间是相关的,用户元数据是松散的;规范数据是专业的,用户元数据是通俗的。二者的结合必须要考虑到这些差异,找到一个合适的嵌合点。
笔者认为,应借力于网络信息服务的发展对传统规范控制工作进行改造,目的是使之适应不断变化的网络世界,促进网络信息资源的有序化,从而满足用户对信息资源的需求。这是个融合、互动的过程。
(1)将Web2.0的理念植入规范控制工作
Web2.0的核心理念为共建共享。从近年来图书馆在信息服务方面所做的努力与尝试来看,其主要集中在对图书馆拥有资源的共享方面,在鼓励用户贡献内容、利用集体智慧方面却完全止步不前。如全球最大的图书馆联机共建平台——OCLC也只是局限于集中图书馆员的智慧。所以,虽然许多图书馆信息门户使用了Web2.0的工具为用户提供服务,但是往往只是借用了Web2.0的形式,用户仍然只是图书馆资源的受众,而没有真正参与到信息资源的生产过程中,从其实质来说,仍是以图书馆员为中心。尽管传统规范控制工作由于其专业性强,很难实现对用户的完全信任,但是,如果对集体智慧善加引导,吸收其优点,并通过一定规则进行适当的驾驭,一定会对传统规范控制工作的完善与发展起到促进作用。因此,应充分利用集体智慧,推动规范控制工作的2.0化,使其与网络信息服务真正地融合在一起。
(2)集中集体的智慧,弥补规范控制工作的缺点,使规范数据能够为用户提供精确的导航,满足用户对网络信息资源的需求
规范控制是为用户服务的,只有当用户真正地参与进来,才能够实现规范标目的惯用性原则,为用户提供被公众认同的规范数据,不仅规范、一致,而且便于检索、使用。在这方面,一些网站已经开始进行了初步的尝试。如LibraryThing引入了“用户贡献内容”的做法,按“作品”来汇集其在线的书目,由用户决定不同的记录是否为同一作品。其创建者Tim Spalding认为:公众编目是不差的编目[6]。虽然这一做法引来了很多争议,也有人认为这个工作是充满了错误且不充分的,但无疑是一个有益的尝试。
用户贡献内容(User Generated Content,简称UGC)是指:Web2.0时代,用户在网络世界的身份由内容的接受者转变成为贡献者,用户贡献的内容主要包括用户创建的内容——博客中写的博文、用户添加的内容——用户添加的标签。用户贡献内容的做法使信息资源以前所未有的速度增长着,网络变得更开放、更自由,同时又由于用户在贡献内容的同时也贡献了自己的智慧,在集体智慧的作用下,海量信息资源的整合有了可能性,网络更具有生命力。
笔者认为,将用户贡献内容的做法引入规范控制的领域,充分运用用户贡献的内容作为规范数据的补充,是具有可行性的。主要设想如下:
(1)吸收分众分类法,补充主题规范库
标签是用户为定义某种信息而添加的标记,起到了为信息分类的作用。因其能够满足个性化信息需求、简单易用而成为最受人欢迎的Web2.0工具之一。然而,标签的自由性也造成了标签在对词语的使用上具有较强的个性化及主观性特征,影响用户的检索。《图书馆2.0:升级你的服务》中对标签的特征是这样描述的:随意性、时效性、平面性、分散性、趋同性、社会性[7]。随意性、时效性、平面性、分散性都会在一定程度上导致标签的混乱,而趋同性和社会性衍生出了分众分类法。分众分类法(Folksonomy)是一个创造词,即Folks+Taxonomy,在维基百科中将其定义为:是指“群众”自发性定义的平面型非层级结构式标签分类,现有“分众分类法”、“通俗分类法”、“大众分类法”、“民众分类法”、“俗民分类法”等不同的翻译名称[8],是在标签的基础上由用户群体定义的频率来确定某一信息资源的分类,对标签进行了优化和控制,充分体现了集体智慧,作用相当于文献检索语言中的自由词。分众分类法保留了标签的优点,同时在一定程度上改变了标签的混乱,使其向有序发展。但也存在一些问题,如这种分类是平面化的,缺少等级层次,不能为用户提供结构化的导航系统。为某一资源添加标签的人越多,分类越符合惯用性原则,越能凸显分众分类法的优势。
笔者认为,应深入研究网络检索语言,建立一定的规则,对由标签产生的分类进行更严格的控制与深度挖掘,吸收受控的分众分类作为相关主题规范标目的单纯参照。一方面,可以利用集体智慧补充与完善主题规范库,使主题规范更符合惯用性原则,做到与网络同时更新,普通用户在使用上也可以不再受困于其专业性;另一方面,分众分类因嵌入了主题规范,也继承了主题规范已经形成的体系结构,因而规范统一的主题词将对标签的随意性起到很好的控制作用。
(2)借鉴Wiki的形式,补充名称规范库
Wiki是指一种多人在网上协同创作的知识共享模式[7],即就某一知识内容,多人参与写作、编辑、维护。Wiki最成功的案例为网络百科全书——维基百科。Wiki最显著的特点是其开放性、易用性及可扩展性。这些特点也使Wiki存在一些备受质疑的缺点,如开放性导致用户的权限设置非常宽松,有些用户的编辑可能存在错误,危及信息资源的可信度;由于是多人共同创作,因此内容结构松散等。因此,在图书馆界一些网站利用了维基的形式,却为保证其权威性,放弃了Wiki共建共享的实质内涵。如美国圣约瑟群公共图书馆(St.Joseph County Public Library)的Subject Guides,以维基的形式对词条进行编辑,但可以参加编辑的仅限于图书馆员。
尽管有瑕疵,Wiki仍然是一种符合网络发展趋势的知识组织方式。笔者认为,可以将Wiki的形式引入名称规范考证工作。名称规范考证工作指的是当文献信息源本身无法提供可供识别的个人名称信息时,编目员通过对文献信息源之外的其他参考信息源进行查询,获得相关信息的过程[9]。传统名称规范考证工作中的其他参考源主要包括权威工具书、相关参考资料、网络等。这些途径费时费力,信息来源也非常有限。如果能够利用集体智慧,那么将极大地推动名称规范的建设与维护。当然,鉴于Wiki存在因鼓励普通用户的广泛参与造成信息资源可信度受到影响的问题,应在用户贡献内容的全过程中按一定的规则进行必要的控制与规范,使名称规范保持其权威性,包括:适当对用户权限作出规定,如要求贡献者有相应的学科背景,设立一套制度对贡献者进行信用度评级,并按信用度设立不同权限等级等;设立专门机构,由图书馆员、各学科领域专家组成对使用Wiki方式建立或维护的名称规范数据随时进行维护,包括删除错误信息、考证信息资源可信度、对恶意行为和垃圾广告进行控制等。
[收稿日期:2009-07-09]