美国图书馆界如何对因特网信息资源进行编目,本文主要内容关键词为:编目论文,美国论文,因特网论文,信息资源论文,图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G254.362 [文献标识码]C [文章编号]1003-2797(2001)01-0055-03
编目是图书馆的一项传统工作,一直由图书馆员承担。当今,由于因特网的发展,使得情报信息的产生、储存、传递及检索方式都发生了巨大的变化,就整体网络情报信息而言,它从产生到获取的全过程,似乎都可以没有图书馆的参与。在20世纪90年代的中后期,许多图书馆员突然发现自己从过去的图书情报专家变成了因特网以及网络情报的圈外人。于是,人们开始重新思考对因特网上的情报信息进行组织的问题,主要包括:是否需要对因特网上的情报信息进行编目?怎样进行编目?在对因特网信息资源进行编目时,能否发挥具有编目经验的图书馆员的作用?本文重点介绍美国图书馆界对因特网信息资源进行编目的情况,以帮助我们对上述问题有一个更为全面、系统的理解。
1 有关的思路及重要研究项目
OCLC于1991年开始了一项研究,其目的是了解对因特网信息资源进行编目的前景。这项研究有充分的资料证明:因特网的许多情报源具有重要性和稳定性,足以保证今后对这类情报源的编目值得进行。
1.1 以不同的编目标准对因特网的情报信息进行编目
鉴于因特网情报信息数量庞大、质量不一的状况,专家们提出不一定用同一编目标准对因特网的所有情报信息进行编目。由于MARC以及有关分编标准(AACR2、美国国会图书馆主题词表、美国国会图书馆及国际十进分类表等)都需要足够的人力和财力去维护,只有最重要的记录才采用MARC格式。
专家们提出了不同的方案,编目专家Michael Gorman建议以四种不同等级的描述方法,为图书馆提供对因特网站点的检索:①完整的编目;②完整的“都柏林核心”记录;③简化的“都柏林核心”记录;④依靠未结构化的全文关键词检索。OCLC的专家Dillon则提出了另一个四层次方案:①传统的编目;②由简单记录组成的“都柏林核心”记录;③经人工粗略编辑的“自动收集”;④没有编辑的自动收集代理。Dillon还推测,在大量网页(约10亿)中,只有100万网页值得进行传统的编目[1]。
1.2 维护因特网情报信息的稳定性
OCLC发展的重要项目之一是PURL(Persistent URL)系统,以改善对URL的管理,维护因特网情报信息的稳定性。PURL是用于维护一个地址检索一个站点的服务器软件[2],已用于OCLC的一个小型因特网编目项目InterCat(其中4.5万条用MARC编目的记录都被指定了PURL);同时,PURL也在美国政府印刷局等机构投入使用。
1.3 编目格式或电子资源的描述模式——MARC、元数据与“都柏林核心”项目
美国图书馆界一直使用标准的MARC编目格式,为了实现电子资源的存放和检索,1993年建立了一个新的MARC字段——856字段,在MARC目录中为网络资源的URL预留了位置。OCLC的一个因特网编目项目InterCat则采用MARC格式进行编目,现有MARC记录4.5万条。情报市场上新的因特网MARC编目工具MARCit,是一个售价50美元左右、安装在图书馆浏览器上的软件,当图书馆员要将一网站加到本馆目录中时,简单地按一下MARCit图标,输入一些编目信息,存盘,MARCit便会由浏览器“抓取”站点的标题、URL及其他数据,自动在OPAC上建立一条MARC记录[3]。此外,因特网团体还在攻关一个分布式的WHOIS++系统,以实现对USMARC的简化。
由于采用MARC格式要伴随着AACR2等一系列标准,编目必须由专业人员承担,投入的费用高,所以一般认为它只用于因特网重要的记录;对于因特网上大量的情报信息,则需要一种为非编目人员设计的、能直接在网页上使用的、更为简单方便的编目格式,元数据就是这样的一种格式。
元数据(metadata)是“关于数据的结构化数据”,就像图书馆目录上的数据一样,它用于对电子资源编目数据或来源的描述。通常认为,元数据是为数字化资源提供的一种编目格式,而对因特网则需要采用基于元数据的目录方式组织网络情报信息。
同高度结构化的产物MARC一样,元数据的作用是以结构化的方式描述情报信息,但元数据的输入也不同于MARC编目,元数据所需要的编目数据比MARC要少得多,使用也简单得多。元数据分为三类:描述型的;管理型的;结构化的。
(1)描述型元数据提供的情报信息与目录记录相似,如著者、标题、主题等,它描述对象的知识特征并提供检索点。
(2)管理型元数据提供对对象的适当管理,如甄别文件格式和文件大小等。
(3)结构化元数据则为网页与其他知识单元的文件之间的链接提供一个结构。换言之,在超文本颠倒的环境中,它能分辨哪个文件是第一章,哪个是第二章,并解决诸如此类的问题[4]。
元数据最重要的发展是OCLC的“都柏林核心元数据项目”(http://purl.oclc.org/DC),它由OCLC和美国高级计算机应用中心于1995年在俄亥俄州都柏林开发。这个项目限定了与传统图书馆编目相似的一组元数据要素,用于揭示和检索电子文献,最初“都柏林核心”是为Web资源内容的制作者而设计的,但图书馆这类的专业编目团体一直对其抱有极大的兴趣。
“都柏林核心”设立了15个标准的“描述性情报要素”,这些要素可以HTML metatag形式添加到网页的标头(headers),其目的是更准确地揭示电子资源。这15个要素包括标题、著者或创建者、主题和关键词、描述(如文摘)、出版者、其他贡献者、日期、资源类型、格式、标识符(如URL、ISBN)、来源、语种、关系、范围、权利(如版权、知识产权)。“都柏林核心”非常灵活,允许不同的专业社团根据专业要求对其进行调整。
“都柏林核心”的特征是可能供编目人员和非编目人员共同使用,操作简单,易于掌握;具有语义互用性(可用于不同学科)、国际通用性;此外,它还具有结构等方面的伸展性以及Web元数据的模块性[5]。
至于包括“都柏林核心”在内的元数据与MARC的关系,许多专家认为在对因特网信息资源进行编目时,这两种编目格式可以共存,但在如何选用编目格式上则有不同看法。有人提出按照网络情报信息的重要性来确定使用何种编目格式,也有人提出首先由没有编目知识的网络用户使用元数据编目,然后由编目人员进行修改,给予更精确的描述,以适应各专业的需要。OCLC在其“合作联机资源编目”(CORC)项目中,同时使用USMARC编目和“都柏林核心”元数据。
2 网络编目资源的共享
早在1991年,OCLC就开始进行对因特网信息资源编目的可行性调研,并开展多项研究工作,如采用杜威分类号、国会主题词标引、匹配电子资源等,其目的是制定出能够对网络信息资源进行编目的元数据,其成果是“都柏林核心元数据”的产生。OCLC的其他实验项目还有NetFirst、InterCat等。NetFirst是对一个因特网站点进行索引的小型数据库,有10万多条情报来源,它是一个以文摘而不是目录格式组成的索引。另一个对因特网信息资源进行编目的实验型目录是InterCat,该项目于1994~1996年由美国教育部资助,有231个图书馆参加,采用MARC格式对网络信息资源进行编目,编目记录约4.5万条。
对于图书馆如何创建和共享元数据的问题,OCLC认为大方向是建立一个与OCLC的WorldCat相类似的系统,该系统已为世界各地的1.8万多个图书馆提供3500万条目录记录。
一个重要的网络编目资源共享项目是OCLC的“合作联机资源编目”(CORC),它是一个通过合作努力而建立的高质量的、经过图书馆挑选的Web电子资源的描述型数据库[6],该项目组织多个图书馆进行合作,为Web资源编目并共享编目成果。“合作联机资源编目数据库”现有Web电子资源的目录记录23万条,它们用完整的MARC格式和“都柏林核心”元数据格式编目[7]。
情报专家R.Chepesink认为图书馆应当集中力量合作建立自己的“网络入口”,OCLC的目标是为此提供基础设施的支持,让图书馆能够自动建立入口[8]。
应当看到,OCLC合作联机资源编目的意义,不仅在于提供了一个Web资源联合编目的模式,提高了用户检索Web资源的能力,更重要的是它也许能使图书馆重新成为用户情报环境的中心。该项目还为未来的图书馆如何在因特网世界发挥情报信息组织功能,开辟了一条新的途径。
除了OCLC合作联机资源编目项目外,共享网络情报信息资源的另一种努力是“网络情报联盟”(CNI)的建立。网络情报联盟于1990年由美国研究图书馆协会等机构发起,有200多个协会、机构参加,联盟的目的是提高学术、知识界在网络情报信息方面的团体效能。目前进行的项目“协会拓宽情报策略”,计划在各成员馆收集、储存和发布电子情报信息的基础上,将网络情报信息资源及相关的服务应用到全体成员中[9]。
3 几个有关的条例与指南
美国国会图书馆为电子资源的编目发布了Interim Guidelines,同时正在拟订《版权局电子注册记录和存放系统》(CORDS),允许对网站进行电子注册和存放。OCLC制定了《为因特网资源编目:手册与实践指南》(http://www.prul.org/oclc/cataloging-internet),该手册将作为没有编目经验的用户的工具书,内容非常详尽。
(收稿日期:2000-08-30)