合作编目——网络资源书目控制的必由之路,本文主要内容关键词为:编目论文,必由之路论文,网络资源论文,书目论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 网络资源书目控制的必要性与复杂性
90年代以来因特网在我国的迅速发展已经为我们展现了网络资源的巨大魅力与潜能。但同传统的文献信息资源一样,网络资源的迅猛发展也带来了信息无序,无用信息掺杂其间的污染,给有效利用制造了日益严重的障碍。
对网络资源内容的监管、对不良信息的过滤、用搜索引擎对无序信息的查询,正是为减轻网络上信息污染而采取的重大措施。图书情报机构在组织文献信息和书目控制方面的类似做法是:文献信息的采集、选择、加工、利用。正如文献信息的扩展迫使人们注重文献信息的组织、控制那样,网络资源的激增也使网络资源的组织、控制提上了议事日程。
目前对网络资源实施控制的主体(包括政府的与社会的)中,图书情报机构有其独特的优势。图书情报机构对非网络信息资源的控制已有较为丰富的经验,将其施行于网络资源的控制可得事半功倍的效果。由图书情报机构对网络资源进行编目,即对网络信息进行选择、加工、整理,可以同时对网络上的各种信息实行汰选、过滤、描述、标引,以便于查寻的方式把有价值的信息提供给用户,这是利用网络资源最为有效的途径之一[1]。
随着因特网的发展,不少图书情报机构将其丰富的馆藏转化为网络资源,在网上开发Web界面的联机公共目录系统WebPAC便是一例。
网络资源与非网络资源有共性,这是图书情报机构进行信息控制(主要是书目控制)的前提。但网络资源也有区别于非网络资源的个性。首先网络资源增长迅速、数量巨大。据国外最新的一项研究结果表明,因特网上可编索引的网页已超过10亿[2],仅此一项, 其增长规模已超越了现有的非网络资源。当然这10亿网页并非全部值得编目,但仅对其进行筛选,也非一个图书情报机构可以应付。其次,网络资源变化多端,流动性大,稳定性小。目前MARC格式(USMARC与UNIMARC )都没有链接网络资源的856字段,由于网络信息地址时常更改,为了维护856字段链接的有效性,就需花费相当的人力、物力。此外,网络资源本身的修改与版本更替也增加了网络资源编目的难度。
2 从联机合作编目到“合作联机资源目录”
联机合作编目在图书馆事业发达的国家已成为传统文献书目控制的成熟方式。编目资源共享降低了编目成本,提高了编目效率,随之而来的编目工作社会化,促使图书馆的结构向有利于用户服务的方向调整。在美国,由于推行联机合作编目,近10年来几乎所有的公共、大学与专门图书馆都缩小了编目部的规模;有些图书馆甚至取消了馆内编目业务,把全部编目工作委托给OCLC等专门的编目中心。近年来,联机合作编目在国内日益受到图书情报界的关注,编目业务的标准化与计算机网络建设的发展为推进联机合作编目奠定了现实的基础,目前中国国家图书馆与中国高等教育文献保障系统(CALIS)正在积极推行联机合作编目,编目资源的真正共建、共享可望在我国逐步推广。
网络资源编目既然是传统文献编目在网络环境下的延伸,而网络资源又具有数量大、增长快、稳定性小的特点,实行联机合作编目更是理所当然的必由之路。美国的OCLC在积其数十年合作编目丰富经验的基础上,顺应网络资源发展的趋势, 及时推出“合作联机资源目录”(Cooperative Online Resource Catalog,CORC)的构想, 把“编目资源共享”的概念引入网络资源的组织与控制,其中颇有值得我们思索与借鉴的地方。
3 CORC计划的有益尝试
3.1 概况
OCLC很早就致力于电子资源的组织与控制。 它积极倡导元数据 (metadata)格式的研究,参与制订了“都柏林核心”(Dublin Core )元数据规范;在用HTML(超文本标记语言)、XML (可扩展标记语言)、RDF (资源描述框架)等工具描述电子资源方面也做了大量的工作。它在网上建设的InterCat与NetFirst便是两个具有示范意义的网络资源数据库。早在1997年,OCLC研究署(office of Research)就信息技术与因特网的发展对未来社会各方面的影响,为联机联合目录的未来取向,开展了一系列研究,认为OCLC应该适时地将网络资源的合作编目纳入自己的服务范围。1998年8 月研究署正式向OCLC 研究顾问委员会
(Research Advisory Committee)提交了CORC ( Cooperative OnlineResource Catalog)计划的构想[3,4]。
CORC计划的目的是在自动化编目工具与图书馆合作有机结合的基础上,建设共享的网络资源数据库。这是将传统的图书馆实践与原则——文献信息的选择、描述、标引、利用——运用于网络信息存取的有意义的尝试,也是联机联合目录向网络信息领域的扩展。
CORC建立的数据库有4个:资源记录数据库、规范数据库、 寻路器(pathfinder)数据库、杜威十进分类法数据库。其中资源记录数据库相当于一般的书目数据库,以Dublin Core或MARC 形式提供网络信息;寻路器(pathfinder)则以网页的形式揭示网络资源的书目信息及其与资源的超文本链接。
1999年1月,以InterCat 与 NetFirst中的数据为基础, 开通了试验性的CORC数据库。同年6月,已有80多个图书馆申请加入CORC计划。OCLC将在2000年7月正式推出CORC服务项目。
3.2 功能与特点
CORC采用的软件平台与各种工具可以为图书情报人员建立网络资源数据库提供以下的服务[5,7]:
①快速生成资源记录(即书目记录);
②自动标引杜威十进分类法类号;
③自动抽取关键词;
④自动进行规范控制;
⑤通过合作与机器协助的方法维护记录的URL (统一资源定位器);
⑥提供生成、编辑寻路器(pathfinder)的先进工具。
人们可以按联机合作编目的程序从网上选择符合自己需要的信息资源,经编目后上载给CORC数据库,OCLC对输入记录进行审核(质量控制与查重);或者直接从CORC数据库下载所需的网络资源记录,将其纳入本地的数据库。借助CORC数据库,可以生成、编辑、输入、输出3 种数据:资源记录、数字寻路器(digital pathfinder)、规范记录。资源记录描述网络资源的书目信息,可根据需要选择MARC或Dublin Core 格式;数字寻路器能直接由资源记录生成。用户访问CORC数据库的界面有多种:比如一组可浏览的网页、标准的OCLC SiteSearch界面、 基于杜威分类法的浏览器、Z39.50客户机等。
鉴于网络资源数量众多、流动性大的特点,CORC计划一方面充分吸取传统的联机合作编目的长处,另一方面尽量发挥自动化编目工具的功能以减轻网络资源采集、选择、描述、标引、维护的强度。
①根据用户提供的URL,搜索、获取(harvest)相关域名的网页,为相关网页及其所有链接生成一系列的资源记录。而且可定向获取具有EAD(Encoding Archival Description )与 TEI ( Text
EncodingInitiative)头标的网页,并自动生成资源记录。CORC工具在获取某一网址后,能自动过滤出关键概念与关键词作为索引词。
②采用机器辅助方式标引分类号与主题词。安装了丰富的机助编目工具,如杜威十进分类法(DDC)、美国国会图书馆标题表(LCSH )、美国国家医学图书馆标题表(MeSH)、美国国会图书馆名称规范档,以减轻编目人员的标引工作强度。
③由成员机构分担维护URL,当用户的记录包含无效的URL时,CORC的自动链接维护工具会通过“状态屏幕”及时通知用户,由用户进行核查、更正。
3.3 软件平台与标准
CORC数据库的软件平台是Mantis,这是一种适用于任何元数据定义与界面的网络资源编目系统工具箱[6]。 目前存在着众多的元数据规范,这些规范虽具有相似性,但彼此难以兼容。为了支持任意的元数据定义与界面,Mantis用XML(可扩展标记语言)存储记录,以RDF(资源.描述框架)作为底层的元数据格式。系统可根据需要显示MARC与DublinCore格式的数据,输出MARC或RDF/XML格式的记录。
RDF是支持各种元数据应用的建模标准, 它将网络资源分成“资源”、“性质”、“值”三部分:“资源”是可唯一识别的对象,如一篇文章;“性质”根据用户确定的语义来判定,如一篇文章的题名、著者;“值”是“性质”的具体内容,可以是词串,也可以是另一“资源”,如具体的题名、具体的著者。RDF模型或由RDF模型确定的每个元数据记录则用XML来描述。这里XML是描述RDF模型的句法。
当用户从数据库检索到一条无数据记录时,Mantis就把记录中的数据根据预先设置的指令充填到XML模板中。XML模板中的所有数据再按照显示指令转换成HTML语言,传送到用户的浏览器。有修改权限的用户可对显示的记录进行编辑。由于在显示过程中数据字段的隐含信息已嵌入HTML,用户可通过浏览器直接进行编辑,Mantis在编辑过程中重建被充填的XML模板,纳入经过修改的字段。 用户把更新的记录提交数据库时,系统将被充填的XML模板同原始的XML模板进行比较,抽出填入的数据存进数据库。为使CORC数据库具备自动选择、标引等功能,Mantis还吸收了OCLC开发的其他一些软件,如用于检索的SiteSearch、用于自动标引的Scorpion、用于因特网资源获取(harvesting)的 Kilroy、 基于Unicode的数据库引擎Pears等。
4 CORC计划的启示
CORC眼下还是一个试验的计划,但它已显示出合作编目在网络环境下的无限生命力。正是自动化、网络化的发展,促成了联机联合目录的问世,从此步履艰难的合作编目不仅在发达国家成为文献信息资源编目的常规手段,而且在国内也开始逐步走上发展的正轨。自动化、网络化不但给合作编目带来了新的手段,还为合作编目注入网络信息资源的新内容,展示了网络资源合作编目的诱人前景。
尽管目前国内的合作编目与网络资源的组织、控制都处于起步阶段,但因特网的飞速发展已迫使人们重视网络资源的开发利用。因特网的扩展正使网络资源与非网络资源的界限逐渐趋于模糊:网络资源可以有硬拷贝,非网络资源也可以有软拷贝,我们在对非网络资源实行合作编目时,将不得不经常考虑网络资源的存在。OCLC的CORC计划是在数十年文献信息资源合作编目丰富经验的基础上产生的,这并不意味着我们必须先走传统的文献信息资源合作编目的路,再考虑网络信息的编目资源共享。既然网络资源的书目控制已载入议事日程,现在就应该未雨绸缪,对编目所用的格式、遵循的标准预作筹措,而更重要的是在推行联机合作编目的过程中考虑到网络资源编目的必要性,以免重蹈文献信息资源编目“各行其是”的覆辙。
收稿日期:2000—01—13