挪威网络信息保存项目Paradigma,本文主要内容关键词为:挪威论文,项目论文,网络论文,信息论文,Paradigma论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号] G259.533[文献标识码] E
随着网络信息资源的日益普及和丰富,人们已经逐渐认识到网络信息作为文化遗产的重要性,加之网络信息资源的平均寿命很短,很多国家的保存机构如图书馆、档案馆开展了各种实验项目来进行网络信息资源的保存,如澳大利亚国家图书馆的PANDORA、美国国会图书馆的Minerva等,挪威国家图书馆于2001年开始实施网络信息保存项目Paradigma,该项目全称为Preservation,Arrangment & Retrieval of Assorted DIGital Materials,为期三年,目标为确定收集和保存网络信息资源的技术、方法和组织,并且使国家图书馆能够在呈缴制度的框架下提供存取服务,该项目将于2004年12月31日完成。
1 主要活动
该项目的主要活动集中在技术、法律和书目描述上,概括说来,包括如下八个方面:
1.1 制定数字文献的选择标准:发现数字文献的本质,制定选择标准,对收集频率和收集过程提出建议。
1.2 法律框架:对当前收集、保存和提供检索的法律框架进行调研;同出版者进行协商,从而进行动态文献(如数据库)的呈缴;从当前技术的角度对现有的立法进行审视。
1.3 收集工具:选择、完善和检验收集网页的软件。
1.4 检索工具:使用北欧网络保存项目(Nordic web arcguve,简称NWA)的工具软件包Tool Kit提供对国家图书馆网络信息保存系统的检索;将NWA的检索模块进行调整来适应Paradigma项目的需要,研发和测试几个用户界面。
1.5 统一标识符和数字文献的描述:对当前的统一标识符和描述元数据的标准进行研究,并针对该项目提出建议。
1.6 促进标准的标识符和元数据的使用:在提出建议的基础上,开展网络服务,帮助出版者和其他用户在提交之前提供标识符和元数据。
1.7 测试:对选择性收集活动、软件、方法等进行测试,指导整个网络信息保存过程。
1.8 组织和经济:将该项目的组织和经济(支出等)方面的情况向国家图书馆馆长进行汇报。
2 收集策略
2.1 收集方法
从目前各网络信息保存项目来看,主要有两种技术方案:一种是选择性保存,另外一种是全面自动保存。挪威国家图书馆认为“不能预测哪些文件在未来具有研究价值;其次数字存储越来越便宜;第三未加过滤地进行收集会节省很多人力选择的时间和收集的时间”[1],因此采用了全面自动保存的方法。按照项目组的建议,以及文化部的批准,国家图书馆收集所有挪威的网络空间(域名为no)中可以获得的数字文献,有时也收集域名为com、org或net的网络文献。
对整个挪威域名进行全面收集并不排斥其他的收集策略。呈缴部(Legal Deposit Division)同时开展了基于事件(case-based)的收集。比如在大选前后收集各个政党所办站点的信息,作为全面收集的补充,这种收集方法会一直保留。
另外,呈缴部已经同挪威的出版商进行协商,讨论关于电子书的呈缴问题。图书馆的音像部也在同挪威广播公司进行协商,商谈关于原生(born digital)的广播和电视节目的呈缴问题。
2.2 收集过程
收集程序(crawling)从一些初始的URL列表开始,然后对这些URL进行分析,并跟踪它们的链接,在收集过程中放弃那些不在呈缴法之列的文献,选定文献上的链接同初始URL上的链接一样处理。
当选定了需要保存和进一步研究的对象后,一个网也就作为整体来对待。通过whois服务器获得域名所有人信息来判断哪些域名为挪威的机构或个人站点。其他的网页如果是用挪威语或者是萨摩丝语也进行收集,主要通过HTML中的语言标签、挪威语和萨摩丝语特有的字母和符号等做出判断。
某一个文献可能部分符合选择的标准,需要使用加权功能进行判定。使用信息类型、域名、每一组成部分的大小等作为判断的因素,如果该文献的权值超过了设定的阈值,则保存整个文献。对于那些不在保存之列的内容,则可以减少收集的周期。
2.3 收集范围
2.3.1 FTP文件、新闻组等
Paradigrna项目不仅收集网页,同时还收集FTP文件、网络新闻组等。由于FTP文件几乎没有元数据,也不提供头标信息,因此对于FTP文件的选择主要是以主机的名称、文本格式和语言识别来进行。很多机构在服务器上提供规模很大的FTP文件的集合,一般命名为ftp.《机构》.no。在这种情况下,全部收集这些文件,但是收集频率特别低。所有在“no”域名下的网络新闻组都在呈缴法之列,“no”域名之外的则不在呈缴法之列。尽管挪威人在国际的新闻组中十分活跃,但就目前来看,分别哪些帖子的内容是和挪威相关的还不现实。因此该项目主要针对“no”域名下的新闻组进行收集。邮件列表和新闻相比,限制更多,一般需要申请和订阅,几乎都要进行人工操作。同时列表的所有者可能会认为该列表并不向公众开放。那些同意向挪威图书馆开放的邮件列表应该同其他数字出版物一样进行收集。
2.3.2 限制检索的资源
网络信息资源所有者可能对资源的检索进行一些限制。如果限制的级别非常高,则认为该资源不能获得,因此不在呈缴之列。如果是中等限制,比如要求支付检索费用,则不被排除在呈缴之列。所有的限制性信息都会作为元数据存储在保存数据库中。有的新闻组或邮件列表会标明“请不要保存”(X-noarchive)的标记。还有一些网页设置了robot.txt表示该网页不能被标引或者保存,用于版权保护或者表示进行保存和标引也毫无意义。在这种情况下Paradigma会尽可能获得版权所有人的许可,否则不进行收集。
3 书目描述和处理
挪威的图书馆对不同类型的资料采用不同的著录级别。如对于图书和期刊是完全著录,而对于一些其他的资料只是简单著录。Paradigma项目预计在所收集的网络信息中,至少有1%是需要人工处理的。该项目正在研究如何对网络文献进行自动分析,并提取相应元数据。这种分析用来生成一个加权的结果集,从而帮助图书馆员选择那些需要人工介入的资料。尽管目前该技术不太成熟,不能够自动地确定一个文件的类型,但是在某种程度上减少了需要人工介入的文件的数量。
另外挪威图书馆希望能够形成一个服务基础,从而使得出版者和其他相关团体能够在提交网络信息资源之前,自己生成描述元数据。国家图书馆正在研究各种标识标准,并且会提出如何改善国家图书馆目前的标识符分配系统的建议。其中一个最重要的方面是有一个处理网络文献不同时间版本的能力。
4 检索
挪威的网络信息保存项目以NWA的检索模块为基础,并进行了一些调整,将其调整为面向编目人员、面向编程人员和面向图书馆用户的界面。这种用户界面可以使用户选择统一文件的不同版本,这个检索模块同时在同Intemet Archive以及其他国家图书馆的合作中发挥着重要作用。
为用户检索保存信息是一个非常复杂的问题,不仅有技术方面的因素,同时还有法律方面的制约。按照挪威呈缴法的规定,对源资料的检索限定为“研究和提供证据”(research and documentation)。但是在该法案中对这两个词并没有明确定义,在1988- 1989年的一项相关法案中指出:“该法案的目的是保证这些经过保存的文献能够满足现在和未来的学习、研究、调研和提供证据的需要”。由于公共图书馆一般不会以保存传统印刷品的方法去保存原先出版的数字文献,普通大众从来就没有被看作是呈缴资料的用户,因此该项目建议扩大保存用户的范围。
在进行检索服务的时候,还要考虑如果其他国家检索挪威的信息,是否会得到法律的许可。知识产权法对版权所有人的智力和经济权利做出了规定。知识产权法和呈缴法是相互矛盾的,呈缴法中规定数字资料必须提供给研究和提供证据之用途,而知识产权法却严格的限制用户对数字资料的检索。这种冲突是可以理解的,因为数字文献是具有商业利益的。一个电子文献会很快复制传播到世界各地,并且很容易被更改、错误使用。考虑到这个原因,挪威国家图书馆只在馆内的计算机上提供对于网络信息保存系统的检索。
另外一个相关的法律是个人数据法案(personal data act):该法案的目的是保护个人的隐私权由于对个人数据的修改而遭到破坏。国家图书馆必须处理收集到的网络信息,而其中很多文献可能包括个人数据。国家图书馆在进行第一次收集之前就获得了数据巡视员(Data Inspectorate)的同意。
从挪威国家图书馆的网络信息保存项目中可以得到如下启示:采用多种方法进行网络信息资源的保存,尽管Paradigma项目主要采用全面自动的方法进行网络信息资源的收集,但同时不排斥其他方法,加之目前有一些动态网络信息资源使用自动软件很难收集,因此在收集的过程中采用多种方式(如和出版者在呈缴本的框架下进行协商等)。其次注重对收集的资源进行处理,保存的目的是为了检索,如果收集到的网络信息资源不进行必要的处理,会造成检索的困难,这样保存也就没有了意义。我国也已经开始关注对网络信息资源的保存,北京大学2002年就开始进行“中国Web信息博物馆项目”,国家图书馆2003年开始实施“网络信息资源保存试验项目”,网络信息资源保存是一个新的研究领域,需要和国外类似项目加强沟通和交流,笔者在这里略抒浅见,希望引起国内同行对此问题的关注和研究。