东亚重要网络档案工程建设比较研究_元数据论文

东亚重要Web Archive项目建设比较研究，本文主要内容关键词为：东亚论文,项目建设论文,Web论文,Archive论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

海量的网页信息汇集了人类的知识和智慧成果，然而许多重要网页资源由于URL地址的变更、维护成本较高、政策法律问题等原因而消失。因此，如何有效地采集与保存有价值的网页资源，是一个十分重要的议题。

一、WA项目概况

国外的网页归档(Web Archive，简称WA)项目始于20世纪90年代中期。截止2011年，世界范围内的WA项目已有63项之多，其中美国约占20％，欧洲约占48％[1]。目前东亚地区除中国大陆外，共有4个项目，分别是韩国国家图书馆2001年启动的网页归档与网络信息资源搜集项目(Online Archiving & Searching Internet Sources，简称OASIS)[2]、日本国立国会图书馆2002年启动的网页归档保存项目(Web Archiving Project，简称WARP)[3]、中国台湾图书馆2007年启动的台湾网站典藏项目(Web Archive Taiwan，简称WA Taiwan)[4]与台湾大学图书馆2007年启动的台湾大学网站典藏库项目(National Taiwan University Web Archiving System，简称NTUWAS)[5]。其中，韩国、日本均与国际互联网保存联盟(International Internet Preservation Consortium,IIPC)展开了合作，日本的合作对象还有IA(Internet Archive)、哈佛大学等。

二、WA项目工作链梳理

IIPC根据开放档案信息系统(Open Archival Information System,OAIS)参考模型将WA的工作链划分为摄取、存储、访问与检索四个阶段[6]，本文以此为主线进行梳理与分析。

(一)Web的选定与采集

Web的采集是从多个异构数据源收集与整合数据的过程，方式有推送与拉取两种，其中拉取是主流，包括选择采集、全采集以及两种采集方式的联合。当前，四个项目的采集方式均为选择采集，该方式能保证采集质量、节约存储空间，但需要制定标准来界定采集范围。其中，日本、台湾主要依据《图书馆法》；韩国制定了《采集指南》进行规范，韩国的采集小组根据该指南实施采集，同时还可以直接采集由韩国数字资源采集与保存委员会成员推荐的Web资源。

对著作权的处理是Web采集中需要注意的重要问题，日本《国会图书馆法》中的呈缴制度对所有数字资源的采集与归档均规定了详细的审核与授权机制[7]，比如，该法规定民间出版物发行者自出版物发行30日以内，必须向国立国会图书馆呈缴一部内容完整的最佳版本。除了依据《图书馆法》以外，制定专门的法律法规也是重要做法，韩国就在2007年制定了《关于数字资料呈缴以及利用的法律(案)》，根据该法案，韩国国家图书馆拥有直接采集权[8]。见表一。

(二)Web的组织与保存

Web组织与保存的首要问题是元数据方案的选择，它是关于数据的数据，是资源组织、保存、管理、检索及使用的基础，采纳何种元数据方案主要根据项目的目的和实际需求，除了参考国际通行标准外，还可以制定适合本项目的元数据方案。在四个项目中，韩国将柏林核心元数据的15个元素(DCMES)作为数据描述的标准；日本的描述性元数据标准则使用了元数据对象描述框架(Metadata Object Description Schema,MODS)[9]，即将从MARC中提取的内容，再以XML句法规则定义成的新的元数据对象；台湾依据的是自行制定的元数据标准。

Web资源数量的庞大使得编目面临着人员、资金与技术的多重挑战，而自动生成与自动分类技术的运用很好地解决了这一问题。以韩国项目为例，它借鉴了OAIS系统模型中的摄取与管理功能来自动抽取文件描述信息，并根据数据储存格式与文件标准生成相应的档案信息；对于已采集的Web资源，使用KDC分类系统自动进行主题分类，并生成KDC编码[10]。但是，由于不同URL可能指向同一文件内容，采集的Web难免产生Web复本[11]，因此，有必要对复本进行有效管理，以节约存储空间、避免资源冗余的现象发生。韩国采用了循环冗余校验(CRC32)的方法，即当系统采集一份资源后，会自动将CRC32值与已有资源进行比对，如遇相同，系统则会通知管理员处理；日本运用的是重复数据删除技术(Deduplication)，通过反复制器(Deduplicator)删除重复数据，来提高存储空间的利用率。

在信息组织上，主题分类是共同做法，见表2。此外，日本还建立了四个Web资源特色收藏库，内容分别是消失的市町村、网络出版物、都道府县公报与日本地震，都道府县公报是地方发布法规、条例、制度的重要渠道；而作为日本二级行政区的市町村，其数量多、规模小，当前日本政府正在进行的“市町合并”会导致很多市町村消失，因而WARP项目专门为此建立了一个特色收藏库。台湾NTUWAS制定了三大典藏发展目标，分别是典藏机构、典藏台湾与典藏时代，以此来进行资源的采集与保存，并将资源划分成了具体的十小类。笔者于2013年5月2日进行了网络调查，截至当前，台湾NTUWAS项目保存了5575个网站，WA Taiwan有5278个网站，韩国有40012个网站。从统计数据可以看出，由于起步时间晚，台湾的数量明显滞后于韩国。至于网页结构构成，台湾暂时以政府网站居多，比如，NTUWAS中保存的政府机构网站占了总量的30％，而韩国保存的与选举、政府相关的网站只有4％。

(三)Web访问与检索

WA网站的性质与功能不同于普通的门户网站。由于涉及著作权，很可能与信息提供者的经济利益、个人隐私等情况密切相关，因此，WA网站资源的公开以及公开的深度均有一定的限制。从利用方面来看，四个WA项目均征得了信息提供者的许可，归档资源提供公开利用，并在门户网站上支持资源的浏览与查询。在检索方式上，日本走在前列，检索方式相对多样化，除了普通的主题检索外，还提供行政区域检索、元数据检索等。此外，在WARP、WA Taiwan、NTUWAS的门户网站上，还可使用Way Back Machine时光机器浏览同一资源不同时期的归档版本。

三、比较与分析

(一)相似点分析

根据上文的阐述，笔者对四个WA项目的相似点进行了总结，分析如下：

一方面，从概况来看，均有起步时间较晚、保存主体为图书馆的特点。根据IIPC对成员国的研究报告，除图书馆作为WA的责任主体外，还有32％的责任主体存在于档案馆、信息提供者、研究机构以及政府组织中[12]。东亚四个WA项目以图书馆为责任主体，这顺从了全球的大趋势，但也有些单一化，未来可尝试扩大责任主体。

另一方面，从工作链来看，其采集方式为选择采集，资源组织都是根据主题来分类的。与全采集相比，选择采集只针对特定范围内的特定对象，这能较好地与信息提供者协商著作权，同时能够保证资源采集和保存的质量。从表2可以看出，四个WA项目的主题分类大体上基于内容的来源或性质，但由于网站的编目还没有通行的指南[13]，因而在具体划分上各行其是，从长远看，这不利于国家和地区间开展资源共享。未来对于网页资源内容的组织可以效仿期刊专著，制定有可操作性的编目标准AACR2，实现标准化、规范化，以便于实现更大范围内的资源共享。

(二)相异点分析

四个WA项目在具体环节上存在着诸多差异，比如采集范围、资源的结构构成、检索方式等。概述部分、表1、表2分别反映了合作、标准与获取的不同，而著作权法律问题又贯穿于WA的整个工作流程中，因此笔者选取这四个点进行重点分析。

1.合作

WA项目涉及技术、标准、法律、资金、人员等各方面，但其宗旨的一致性使得合作成为Web资源长期保存的发展趋势。合作根据不同的标准可以分为多种形态，按照责任体制来分有责任高度集中式、责任平式和责任高度分散式[14]。日本与韩国属于第二种合作形态，两者均为IIPC成员国，可以在IIPC中共享该联盟提供的技术与理念。日本还与IA合作了“日本”地震项目，与哈佛大学哈赖肖尔日本研究所合作了“2011年日本自然灾害数字档案”项目，通过顺利合作，增加了资源保存的途径。但总体来说，台湾无论是在台湾地区内还是在国际上都缺乏合作，鉴于其起步较晚的实际，可以暂时选择责任高度集中的合作机制，协同地区内的图书馆以及大学图书馆进行Web资源的保存。

2.标准

标准来源于科学研究与实践，旨在实现规范化与秩序化。在WA过程中，标准主要涉及Web采集范围、系统开发、元数据方案等方面。对于采集对象，四个项目的处理较为灵活，未局限于法律或者标准条款的硬性框架。韩国除了制定《采集指南》外，还设立了“数字资源采集与保存委员会”，该委员会由各个领域内的专家组成，主要为了采集小组推荐的Web资源。台湾、日本设置的是读者推送功能，即由读者推送有价值的Web资源，但相较而言，无论是在资源采集的质量还是后期处理的效率上，韩国的做法都更胜一筹。因此，充分集中社会精英的智慧、发挥专业优势服务WA项目的做法值得借鉴。

国际联盟与发达国家经过前期探索已制定出了很多参考标准。其中，开放归档信息系统参考模型OAIS于2002通过修正正式成为国际标准，它为系统结构的描述提供了统一的术语与概念。其中，日本、韩国、台湾NTUWAS均是在参考该系统模型的基础上结合项目实际开发了信息系统，节约了人力物力。此外，在元数据方案的选择上，有两种方式，一是参考国际标准，二是自行制定。其中，参考国际标准有利于与使用相同标准的其他项目进行交流与合作，但不可否认的是，自行制定的标准可能更符合本项目实际，因而在参考国际标准的前提下，根据实际扩大元数据元素集更能集成两者优势。

3.法律

Web资源长期保存涉及三方主体——使用方(公众)、保存方(图书馆)以及提供方，采集复制权、长期保存权以及公众获取权等法律问题贯穿于WA的过程中。通过修改《图书馆法》或者制定具体的法律法规来赋予图书馆采集的权限、规定出版商呈缴的义务是普遍做法。但值得注意的是，如未恰当协调好三者利益，会引发三者特别是信息提供方与图书馆的矛盾。以韩国《关于数字资料呈缴与利用的法案》为例，第21条基本允许国立数字图书馆所收藏的数字资源能够在馆内外提供免费利用[15]，虽然国立图书馆对信息提供者进行了部分经济补偿，但该做法无法弥补资源在市场经济下的经济收益，因此，该法规为双方之间产生经济摩擦提供了可能。我们可参考澳大利亚Pandora的做法，即根据版权的不同对资源的利用设置严格的用户检索等级表，既维护了出版商的利益，又使得资源采集与利用的最大化。

4.获取

Web资源长期保存的最终目的是为了资源的利用。检索作为获取资源的重要途径，要尽可能保证检索方式的多元化。根据表2，日本在WA检索上走在前列，除了简单检索外，还有元数据检索。此外，日本正在逐步扩大检索语言，以实现区域共享。以日本大地震特色库为例，它已经实现汉语、韩语、日语、英语四种语言检索。但整体来说，四个项目的WA检索水平还未达到常用数据库的检索水平，没有推送和数据挖掘等智能化服务，未来可以借鉴相关技术对WA资源进行深层次开发。

标签：元数据论文; web技术论文;

东亚重要网络档案工程建设比较研究_元数据论文

猜你喜欢