原生数字资源馆藏建设初探——以美国国会图书馆MINERVA项目为例,本文主要内容关键词为:美国国会论文,为例论文,图书馆论文,数字论文,项目论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
原生数字(Born-Digital)资源是指“仅仅以数字形式产生和存在的一种信息资源”[1],包括网络论坛资源、博客资源、维基百科、网络原创音乐或小说;原生电子期刊、电子报纸;政府网站服务信息;企业广告、产品展示;学校网站教学信息等[2]。随着信息技术的发展,加之微博等即时发布平台的兴起,信息生产遍地开花,传播畅通无阻,原生数字资源以独立和透明的姿态呈现在我们面前。美国哈佛大学教授John Palfrey和瑞士圣加伦大学教授Urs Gasser在其Born Digital:Understanding the First Generation of Digital Natives一书中,描述了数字原住民(Born Natives)的生存状态,并宣布人类进入数字原生时代[3]。而原生数字资源馆藏建设就是指人类通过对处于无序状态的各种原生数字资源的规划、筛选、收集、组织和开发利用等活动,将其变为有序和可有效利用的原生数字资源体系的过程。
在原生数字资源长期保存以及建设研究方面,国外起步较早,很多图书馆不仅进行了理论研究,还实施了一系列的原生数字资源建设项目。如澳大利亚图书馆启动的网络文献资源保存与利用项目PANDORA(Preserving and Accessing Networked DOcumentary Resources of Australia)[4]、美国网络信息保存及研究的公益性计划Internet Archive(也叫“网站时光倒流机器”Wayback Machine)[5]、英国的UK Web Archive[6]项目等,为原生数字资源建设积累了丰富的实践经验。目前,国内研究者的目光大部分还集中在数字资源的保存上,对原生数字资源的管理尚未形成大范围讨论。因此,本文拟以美国国会图书馆MINERVA项目为例,对原生数字资源馆藏建设的过程及相关问题进行介绍,以期为我国原生数字资源的研究提供参考。
1 美国国会图书馆原生数字资源管理实践——MINERVA[7]
美国国会图书馆将收集最有用的原生数字资源并对其进行馆藏建设视为图书馆的使命之一,于2000年启动了网络保存试验项目——MINERVA(网络电子资源虚拟档案镜像,Mapping the Internet Electronic Resources Virtual Archive)。该项目的主要目标是为网络信息的选择和收集等实际问题提供试验,从而为美国国会图书馆运行一个大规模的网络信息保存项目提供经验和指导。该计划先整理并公开了关于“美国2000年大选”、“9·11事件”、“2001年中期选举”的馆藏资源;随后,一旦收集整理完成关于“2002年冬季奥林匹克运动会”、“9·11纪念活动”、“第107届国会”以及“伊拉克战争”等相关数字资源,也都将被公开利用。尽管原生数字资源的馆藏建设是一个较新的实践领域,要面对一些新技术,如“爬虫”这一用于收集互联网数字资源的软件。但国会图书馆的工作人员在实施MINERVA项目时发现,很多环节他们并不陌生,如资源的筛选、版权处理、定义元数据、编目和用户界面设计等。
为方便了解原生数字资源的组织利用过程,笔者将原生数字资源的馆藏建设划分为选择、收集、加工、编目、存储与用户获取等阶段,并对MINERVA项目中原生数字资源馆藏建设的主要过程作简单介绍。
1.1 选择
面对海量的原生数字资源,制定明确的采选标准并进行筛选是工作人员的首要任务。目前,针对网络信息保存主要有两种方法:选择性收集和全面收集,美国国会图书馆采用的是选择性收集策略。而选择性收集方法,一般可分为基于事件的收集和基于主题的收集两种。从上述一系列馆藏名称可明显看出,MINERVA项目是基于事件来对原生数字资源进行收集的。在馆藏建设开始之前,人们对这些事件有所了解,根据事件进行资源筛选并归档的馆藏周期都有明确的开始和结束。
国会图书馆又提出了一个新方案,考虑基于主题来进行馆藏建设。非洲和中东分部的Angel Batiste提交了一个实验计划,试图收集南非政府的在线文档资源,这些资源大多只以数字格式存在。在该计划中,馆藏的收集与建设是持续的、没有明确结束期限。这类资料的性质也决定了,即使筛选标准很明确并已形成文件,但在实际馆藏建设中,文件的筛选仍可能随着时间的变化而变化。如一些网络出版物从网上消失,而另一些新的网络出版物出现的情况。
一旦收集方法确定下来,这个过程就跟纸质材料的获取很类似了。图书馆的推荐人员和MINERVA项目组共同决定哪些站点应该收集,主要遵循以下标准:满足国会和研究人员当前以及未来的信息需求;提供的独一无二的信息、学术内容、丢失危险度以及信息的传播情况[8]40。原生数字资源的收集出版与印刷型出版物不同,它可能每周、每天、每小时或者不定时的实现更新,没有预先设定的时间进度表来遵循。这就需要馆藏建设人员,而不是出版者来决定出合适的出版间歇。
1.2 收集
印刷型资料的获取以购买行为开始,以收到物品结束。与之不同的是,原生数字资源经过选择后,可以直接被抓取并快速存储到服务器上。在该项目规划之初,美国国会图书馆就关于资源的抓取与公共非营利机构IA(互联网档案库,Internet Archive)签订契约,IA转而将其外包给了一家私营公司Alexa Internet去执行实际的抓取。大量的被抓取的URL分别存储在多个服务器上,并通过初级删减以避免超出网站的负荷,然后再通过人工跟踪确认必要的文件都被收集到了。其实这个过程不完美,且收集结果也有些混乱。比如,一些像图片这样的附加文件会因为在存档的网页上显示错误而无法被收集;Alexa公司的爬虫在抓取一些包含空格、动态菜单时也会面临困难。
像国会图书馆这样的机构,在开展MINERVA项目进行抓取是有着一定规模经济优势的。然而,一些小型的机构,他们虽然预算较少、项目规模较小,但可以利用免费的、开源工具,如“网站拷贝者”HTTrack。国会图书馆过去也在使用的这个程序,该程序从一个给定的URL开始,然后对该网页进行复制并抽取该网页在同一个网站中的所有链接,进而下载那些网页直到整个网站被复制[8]40。
1.3 版权问题处理
原生数字资源的一个特征就是其作者拥有资源的完整版权,一旦交付他人使用或者移位存储就会面临版权问题,这也是原生数字资源馆藏建设者重点关注的问题。版权法因国而异,原生数字资源馆藏建设中,同时牵涉抓取收集行为发生所在国的版权法和原生数字资源发布者所在国的版权法。尽管版权法是成文的,如果严格按照规定不需向原生数字资源作者提交请求,但通知资源拥有者还是非常必要的。美国国会图书馆使用“选择性加入”策略来处理在美国出版内容的推广问题:他们给资源拥有者发出一封正式信件来说明MINERVA项目情况、数字馆藏以及国会图书馆对他们的数字资源进行馆藏收集的期望。信中还会请求他们允许对这些资源的展示与网站外使用。如果资源拥有者不允许,他们仍然会抓取站点,但所抓取的内容只能通过国会图书馆提供的站点链接得到访问。而对于国外的或者是创造性的网站,比如卡通、诗歌等,美国国会图书馆会同时对资源的抓取和资源的使用进行请求允许。
1.4 加工
图片丢失和URL损坏可以很明显地被发觉,但无效的元数据或元数据丢失等隐藏问题就比较严重了。据MINERVA的项目成员Gina Jones估计,在她所核查的网页文件中,只有不到一半的文件拥有准确元数据。他们的创造者可能并不明白元数据的重要性,因为有一些或者没有元数据,这些文件都可以在当前的Web浏览器上正常显示。但是,元数据对于原生数字资源的准确编目和显示却关系重大。数字资源馆藏建设需要收集两种类型的元数据,即结构型/管理型元数据和内容元数据。
结构型/管理型元数据描述的是文档作者、生成日期等。它们还为用于文件编码的标准命名,以DTD的格式,来保证资源可被正确解读和显示。文档类型定义DTD无法保证文档被长年有效显示,但至少它应当在考虑范围内。内容元数据可描述文档的内容,并协助文件的有效标引和检索。它的优点是不仅能在受欢迎的搜索引擎,比如谷歌、雅虎等在标引活动网页时体现出来,在一个站点被存档并标引以用于馆藏建设时,它也能发挥作用。恰当地使用“描述”和关键词标签有助于自动抓取,并提高检索效率。好的题目、标题和文本内容也能发挥作用。
1.5 编目
因为网页中的元数据经常是无效的或者易丢失的,所以编目不可能实现自动生成而必须由人工实现。对于每一个MINERVA存档文件,美国国会图书馆的工作人员都会为国会图书馆的整合系统创建一个集合级别的AACR2/MARC编目记录;而在对象层级中,他们在进行一种试验,即在集合中使用元数据对象描述架构MODS为每个站点建立标题级的描述记录。在MINERVA项目中,对象层级编目在“9·11事件”和“2002年大选”两个馆藏建设中使用,是由IA分包给了WebArchivist.org执行——一个由华盛顿大学和纽约州立大学技术学院合作指导的机构。
对数字档案进行编目是一项巨大的、劳动密集型的工作,很多公开可用的档案一般是不会被编目的。在“9·11事件”馆藏所收集的约30000个站点中,国会图书馆只计划对其中不到百分之十的档案文件进行编目。用于编目的网页要经过国会图书馆的精心筛选,也要有WebArchivist.org的推荐;然后进行关键词检索来搜集一些其他网站;列表要被整理并去重,最后剩下的大概只有2500个站点。
基于这些原因,关于“9·11事件”的馆藏档案只能通过URL链接得到访问。国会图书馆正在开发新的途径,使用搜索引擎Inktomi对这30000个馆藏站点建立索引,以帮助用户更有效地检索到完整的档案资源。纽约州立大学还为“2002年大选”馆藏试验了一种半自动化编目,用复选框的形式来表明网站所提供的内容类型(比如候选人传记、讲台发言等)。而在这个过程中聚集起来的数据正好可在对象层级编目记录中使用。
1.6 存储与保存[8]41
MINERVA项目组成员建议给每一个站点分配一个URN,并且为每一个文件保存“出处元数据”。保存目的一般可分为3种情况:保存数据比特流;保存内容,如果有可能还会保存文本或图像中出现的字母,但并不保存网站的交互特点;保存经验,这里指的是保存数字文献的交互性,包括look and feel以及动态元素的执行。
保存从网站下载来的文件,因为其数据量大、高错误率等而比较困难。尽管在过去几年,人们对于保存问题已经有相当深入的研究。但是在保存数字资源方面,比较有效的方法只有两个,即更新和迁移。对于网络信息来说,自动迁移可以独立进行。保存系统会跟踪资源使用的格式、协议、程序组成等,如果一个文件类型即将过时,保存系统就会将该文件格式转化成最接近的最新的格式。比如说一个用HTML 3.2格式的文件可转化为HTML 4.0,还可能转化为XHTML。但从实践的角度来说,没有任何转化是完美的,特别是那些可执行代码或是数据有误的情况下。因此,人们不仅要保存经过转化的版本,最初的版本同样也要保存。
1.7 用户获取界面
原生数字资源前期工作的完成,是为了最后的利用,所以用户获取这个阶段非常关键。如果没有一个好的用户界面来支持馆藏访问,原生数字资源的收集就没有任何意义。
MINERVA项目馆藏的访问入口可通过美国国会图书馆网站找到,但是细心的观察者会发现,国会图书馆并不直接提供MINERVA项目任何原生数字资源馆藏服务,而是将资源保存在IA或者WebArchivist.org的服务器上。其实,美国国会图书馆确实计划要逐渐提供MINERVA馆藏服务。同时,国会图书馆和WebArchivist.org的研究人员正在致力于开发更好的,更一致的界面来提供更多的数据访问途径。比如,“2002年大选”馆藏的挖掘界面[9]就是个很好的证明,这是专门为国会图书馆开发并架构在WebArchivist.org上的。这个界面会提供4类选项供选择:部门、政党、洲和候选人名称。点击任何一个选项,界面都会呈现给用户一个网站列表;而结果列表还可以通过进一步点击其他种类的选项而不断缩小范围。
2 结论与展望
原生数字资源馆藏建设是一项长期复杂的工程,巨大的站点数量、筛选的方法、技术上的障碍、存储空间的需求、编目以及界面开发中任何一个问题都可以使其变得不易。MINERVA项目是美国国会图书馆关于原生数字资源最大规模的馆藏计划,自实施以来经过各方面的研究和努力,已逐步解决了很多问题并取得较好效果。笔者认为,MINERVA的一些实践经验可为我们提供有益启示:①开展与其他机构的广泛合作,发挥自身主导优势同时借助外部力量。如和Internet Archive进行关于“2000年大选”的馆藏建设,IA为国会图书馆的项目提供了收集技术,也为该项目提供临时的数据存储,减少了国会图书馆的工作量,使其可以集中精力用在资源的有效组织上。②灵活的处理方式。无论是资源的选择,还是对版权问题的处理,美国国会图书馆都是基于自身情况、本着务实的态度进行灵活处理,制定出符合自己的馆藏策略。当然,原生数字资源馆藏建设尚属于新兴领域,必然还存在很多问题未能解决,比如技术尚未成熟、服务模式依旧比较传统、用户体验并非理想等。但相信随着实践和研究的深入,原生数字资源建设必会取得长足进展。
2010年OCLC研究报告《把握我们的脉搏》中,将原生数字资源的管理列为继图书馆设备和空间需求之后的,图书馆资源建设所面临的第三大挑战。根据其调查结果显示,OCLC中92%成员馆已经开始进行原生数字资源的收集,另外8%的图书馆也正处于计划实施阶段[10]。图书馆对原生数字资源馆藏建设的参与度远远超出了调研团队的预期。国外图书馆将原生数字资源纳入其馆藏建设范围内已经成为了一种趋势,我国在建设数字资源时也已逐渐意识到原生数字资源的重要性。如我国CALIS 三期专题特色数据库建设项目在其申报指南中就明确提出,网络原生数字资源是本期重点建设的三类资源之一[11]。相信随着对原生数字资源相关研究和实践的不断深入,这一新兴资源将被越来越多的图书馆关注与利用,为国内图书馆资源建设和事业带来新的生机和活力。