网络信息资源保存——基于多元层次描述的构建方法探析,本文主要内容关键词为:探析论文,信息资源论文,层次论文,方法论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
〔分类号〕G250.73
随着信息网络环境快速发展,互联网技术的兴起与普及,各种原生型数字资源不断蓬勃发展,特别是在互联网上的信息资源更是与日俱增。图书馆与各种信息服务机构正着手研究数字资源保存和利用的相关问题,并开始进行各种网络信息保存计划。网络信息资源的长久保存不仅是要提供现阶段的使用与服务,同时也为将来提供研究及传播知识的服务。
1 网络信息资源保存计划及其资源组织现状
随着互联网的发展与信息技术的重大变革,知识传播主要媒介已经由传统纸质转移到数字形式,而互联网正是数字资源传播的主要环境。目前,互联网可谓是世界上最庞大的数字资源集中地。有鉴于网络资源已成为知识的主要形式,而网络信息资源快速增长及迅速消失的特性使各国开始注意到网络信息资源保存的重要性并开展相关的研究及实践。从1996年起,澳大利亚国家图书馆(National Library of Australia,NLA)开始进行Pandora计划,美国公益性组织创办Internet Archives,美国国会图书馆于2000年开始着手Minerva计划,我国的国家图书馆于2004年进行网络信息资源保存试验项目[1]。
1.1 国外主要网络资源保存项目简介
●Internet Archive:人类知识的全球化使用(Universal access to human knowledge)。Internet Archive成立于1996年,由Alexa创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个网络信息保存及研究的公益性计划。定期收录并永久保存全球可开放获取(Open access)的HTML网页资源[2]。
●Pandora:澳大利亚网络文献资源的保存与利用(Preserving and Accessing Networked Documentary Resources of Australia)。该项目由澳大利亚国家图书馆于1996年开始启动,其目的是在建立一个澳大利亚网络信息资源归档系统的同时,为保护和存取澳大利亚电子资源制定政策和程序[3]。
●Minerva:网络电子资源虚拟档案镜像(Mapping the Internet Electronic Resources Virtual Archive)。由美国国会图书馆从2000年开始实施,主要目标是为有关网络信息的选择和收集方面的实际问题提供试验,从而为美国国会图书馆运行一个大规模的网络信息保存项目提供指导和经验[4]。
1.2 网络信息资源收集策略对比分析
以上三个项目所采取的网络信息资源收集策略主要有两种:一是主体收集:所有符合标准的网站都加以收集,如Internet Archive是收集所有HTML网页;二是选择性收集:由图书馆员或其他专家针对个别网站评选,按照相应标准进行选择性收集。如澳大利亚的Pandora计划和国会图书馆的Minerva项目。
选择性收集的优点在于不必将有限的人力、物力等资源浪费在保存很多垃圾信息上,同时还可以对收集到的网络信息进行质量控制,并根据实际情况提供检索。但是选择性策略的缺点也比较突出,首先进行甄别筛选是非常费力的事情,需要相当多的人力、财力;其次选择标准主观性很强,由人为主观进行选择一方面可能会漏掉一些重要的网络信息;另一方面也会有对选择标准的非议。
主体收集可能会保存很多没有价值的网络信息,但是会节省人力。尽管从理论上来讲主体收集可以对选定域名内的网络信息的所有更新进行收集,但是由于目前收集工具的收集能力和其他技术因素,导致收集周期比较长,在这期间,可能就会漏掉一些重要的网络信息。由于收集范围广,很难对所有收集到的网络信息进行质量控制,因此很难保证收集的网络信息资源的真实性和完整性。两种资源收集策略的项目比较情况如表1所示:
1.3 网络信息资源组织及描述方式对比分析
3个项目在收集工具、收集方式、资源描述、检索存取等方面各有特点,现将其归纳,如表2所示:
1.4 网络信息资源保存项目优劣分析
Internet Archive就其资源组织而言是以定期收集整个网站内容的快照方式,数据量巨大,能以最全面最完整的形式保存网站资源。但其所收集的资源并未进行整理与描述,仅能通过URL进行地址查询、网页浏览,无法提供关键词或更深入的内容查询服务,缺乏信息的主题性和特征性描述,对于网站信息整体架构和发展脉络的研究有一定的局限性。
Pandora对每一个收集的项目都经过评估及并得到相应的技术支持,资源组织方式是将网页主题内容加以选择并收集网页快照,以整个网站或专题为描述单元,参考有关电子资源编目标准并建立查询系统,同时使所收集的网页资源编目纪录能纳入其国家书目网,提供一致性的书目查询服务。Minerva则以主题选择方式收集与保存网页资源,其特点体现在以MODS作为专题下的目录层级的描述标准,提供二元层次的整理与描述。以上两个项目虽然在资源整理描述的方式和手段上优于Internet Archive,但在资源组织方式上都是以主题内容为选择性的网络信息保存,是主题导向的收集。由于收集者主观判断所产生的偏差以及将资源抽离原有情境所产生的干扰,可能导致重要信息与研究价值的缺失。
2 档案编排来源原则与实施方式
网络资源的保存与开放使用,其核心在于网页资源的编排与描述方式。网络资源如同档案数据,是一个有机成长的可收集性资源,资源之间是一个具有相互关联的结构性组织。
2.1 档案编排来源原则的理论基础
档案编排来源原则最初起源于1841年法国档案学者所提出关于“尊重全宗”的概念。来源原则具体实施方式为控制层次,其最佳阐释是由美国学者荷默斯于1964年所提出的“现代档案工作重点是由广泛与一般性到微观性与特定性,以渐进方式收集与描述档案单元”[9]。具体理论表现为:
2.1.1 概念思想:来源原则 档案编排的来源原则,定义于档案是随着机构或个人的业务与活动所产生的文件,经过有条件的价值鉴定,才得以成为长久保存的档案数据。而经由档案可反映出某一机构或个人的特征,因此档案编排必须依据其来源[10]。
2.1.2 具体表现:尊重全宗 在档案实体整理与保管领域充分尊重档案的自然形成规律,以档案产生的有机体——机构、家庭或个人的所有档案,作为档案编排整理的全宗[11]。
2.1.3 内容发展:尊重原始顺序 尊重原始顺序原则是用以维护归档系统,包括管理特殊的文件与其相互之间的关系。运用尊重原始顺序处理档案在于原始顺序具有下列特征:①反映当时业务的确实情况;②保存文件原有的关系;③提供有关记录产生、利用或活动的文件证明;④增加档案价值[10]。
2.1.4 实施方式:档案控制层次 来源原则实际应用的方式体现于控制层次,它是以全宗、系统、案卷与件为四个基本层次,从整体性到特定性,以渐进方式收集与描述档案单元。
现代档案科学的发展表明,档案编排以来源原则为理论基础,外部具体表现是尊重全宗,内部延伸结构为尊重原始顺序,实际应用方法是档案控制层次。其理论结构如图1所示:
图1 档案编排来源原则的理论结构
2.2 档案控制层次模式
来源原则的具体实施是以档案控制层次方式进行,在全宗、系列、案卷与件等四大主要层次,依尊重全宗与尊重原始顺序编排。每一基本层次中都包含有处理需求和检索等内涵与信息,具体包括[10]:①全宗:通常由一个机构的文书或一个人的所有文件组成,应收集该全宗档案的一般性内容与其整体的历史或传记信息。②系列:系列是在全宗之下,依机构的下属单位、业务或功能的记录组成,包含有产生文件的特定业务与归档结构等信息。系列是档案描述最基本的单元。其描述项目应包含:题名、日期、档案数量、实体编排、内容摘要等。③案卷:系列下包括的案卷,主要是档案产生时为便于管理与保存,通过立卷依一定顺序或标准将性质相同的文件归类。④件:指个别文件,是案卷下的组成单元。
档案编排通过控制层次,提供全宗、系列、案卷与个别文件四项基本控制层次,形成多元层次编排的基础,可建立多元层次描述,提供多元层次描述信息及档案内容查询与使用的服务。
3 基于档案来源理论构建的网络信息资源多元层次描述结构
3.1 网络信息资源的多元层次组织结构
来源原则的编排依据,有别于主题内容选择的主观性,具有客观、理性基础,适合网络信息资源的特征,在互联网内,网络信息资源以统一资源定位符——网址(URL),以规定格式来获取,例如http、ftp、gopher、news与mailto等协议。URL是用来界定资源对象的位置与该对象的存取方式,URL中的域名是共享一个共同地址的网络计算机群组,域名本身具有结构性,域名采用树状结构,并采用层级式管理。因此,网络信息资源的编排可依据域名的层级式结构来组织网站资源的控制层次,并形成网络信息资源多元层次的界定与结构。
3.1.1 最高层:机构或个人网站 域名是组织、企业或个人在网络环境中身份的代表,可作为定义一个全宗的明确的界定。如www.nlc.gov.cn是国家图书馆的机构域名。
3.1.2 第二层:网站下子域名或主要栏目 在机构域名下,可根据网站各种服务功能(即栏目),针对子域名区分成不同系列。例如wenjin.nlc.gov.cn国家图书馆文津图书馆奖网站。
3.1.2 第三层:在子域名或服务项目下相同性质的网页 在子域名下,由于网络资源更新,为便于保存与管理可经由收集相关性质的网页,依日期或字母顺序等次序加以编排。
3.1.4 第四层:个别网页 网页是网络资源的最基本组成元素,有文本、视频、动画等形式,同时也是以URL界定与存取。
依域名与网址结构所界定的网络信息资源控制层次,是尊重网站创建者(机构或个人)的原始结构加以定义,如同档案来源原则与控制层次的具体实现,具备了客观性且符合目的性的理论基础。在网络信息资源多元层次应用中二者的对应关系,如表3所示:
以来源原则为理论基础,依据档案控制层次应用方式,所构建的网络信息资源多元层次结构,除以域名为最高层级的来源用来了解网站创建者的历史与建站目的外,运用个别网站的网域结构与尊重网站内容归类顺序,更能符合网络信息资源产生的背景与内容结构。
3.2 网络信息资源的多元层次描述模式
由尊重来源原则所建立多元层次描述模式,由整体性到特定性,从宏观到微观,以循序渐进的方式来进行描述,符合网络信息资源有机成长的可收集性与结构性,达到网络信息资源组织的客观性与目的性。根据网络资源结构与档案控制层次的对应关系,依照档案来源原则描绘出网络信息资源多元层次结构如图2所示:
图2 网络信息资源多元层次描述模式结构
从图2所知,各个层次描述的信息内容深度和层级是成反比的,即最高层的描述内容是简要概述,最底层的描述是深入到个别网页内容。各层次描述内容为:①最高层:机构或个人网站。最高层是依据档案来源原则,尊重资源的产生者(即网站创建者)来进行描述。有别于Pandora和Minerva所定义的主题内容导向,而以网站为一个整体来源,是以域名为基础的客观性结构。描述项目包括网站的创建者、拥有者与收集保存者等三方面的信息需求,主要描述信息有创建者背景信息(机构历史或个人传记)、网站内容概述、网站信息获取规则、网站保存需求、网站组织管理等,对资源保存机构而言,最重要是收集其历史描述和网站整体的内容概述。②第二层:网站下子域名或服务项目。网站下属子域名或服务项目,通常是网站创建者就内容主题性与服务功能性加以分类的项目,第二层,描述项目应包含栏目名称、内容摘要、主题、资源涵盖日期、资源组织等。③第三层:相同性质的网页。在第二层子域名下,是由网站创建者将具有相同性质的网页加以集中呈现,以方便资源的管理与使用。第三层描述项目主要为栏目名称,资源涵盖更新日期、资源格式等。④第四层:个别网页。个别网页是网络信息资源最基本的元素,是指单一个别网页,在网络中以网址定义,提供链接与浏览或下载等服务。资源的格式可以是文字、视频、音频等。对个别网页的描述,可深入至网页内容,包括全文等。
4 结语
依据网站创建者尊重来源的多元层次组织结构,由最高层的全宗描述到最底层的个别网页内容循序渐进逐级描述。并通过多元层次描述建立层次目录,除了提供整体及深入的描述内容外,还有最高层整体网站的描述,以及对于网站来源的历史性描述与整体网站内容结构关系的概述,更可作为网络信息资源长期保存的管理基础。
网络信息与档案一样,客观记录并反映着人类的实践活动,是研究及了解知识发展的宝贵原始记录。其高度共享、传递及时等特点,是传统档案所不能比拟的。同时,网络资源自发产生的特性及资源的易失性,又使其成为一种珍贵而脆弱的信息资源。档案来源原则的理论基础与控制层次的具体方式,符合网络资源有机成长的收集性与结构性,以整个网站为收集对象,通过域名与网址的系统化结构,分层组织网站中所有网页资源,并以多元层次描述模式,由上而下、循序渐进,具有较强的适用性和可行性。
收稿日期:2010-03-16 修回日期:2010-05-16