网络档案亟待开展的研究_档案学论文

亟待开展的互联网档案学研究，本文主要内容关键词为：互联网论文,档案学论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

〔分类号〕TP393.4

大英图书馆在描述自身的工作时说：“我们的职责是帮助人们发现知识”，而美国国会图书馆则提出“以自身的资源为国会和美国人民所用，为下一代保存与保护世界范围内的知识及创造力”。1975年国际图联在法国里昂召开的图书馆职能科学讨论会上，与会者认为图书馆具有的主要职能有[1]：保存人类文化遗产——使人类社会实践所取得的经验、文化、知识得以系统地保存并流传下去；传递科学情报——是现代图书馆的一个重要职能；开发智力资源——所收藏的图书资料，是人类长期积累的一种智力资源。中华人民共和国档案行业标准对档案的解释是[2]：“国家机构、社会组织或个人在社会活动中直接形成的有价值的各种形式的历史记录”。因此，档案馆实际上也是人类社会进程以及知识探索成就的记录器。从保存人类文化遗产、信息和知识管理这一点看，图书馆与档案馆的差别就不是太明显。同样，1992年颁布的我国学科分类与代码国家标准(GB/T 13745-1992)中，在人文与社会科学分类下就有“图书馆、情报与文献学”一级学科，而图书馆学、情报学、文献学和档案学等则分别是其下不同的二级学科。这实际上也说明了图书馆与档案之间是密不可分的。

1 互联网已成为信息、知识的最重要载体和传播媒介

当人类社会进入以计算机技术为核心的知识经济时代后，以互联网为主的计算机信息网络迅速地延伸到全世界的每一个角落，正在形成全球性的、高效率的信息资源共享和传输体系，它已经彻底改变了知识生产、分配与使用的形态，人类社会所拥有的可利用信息空前丰富。根据美国加州大学2003年的一项研究结果表明[3]，2002年在互联网的各类网页中大约有92PB的信息。其中，在公众比较容易获得的表层网页中有167TB的信息；而在深层网页中有91850TB的信息。当然，不同学者对深层网页信息量和表层网页信息量之间差距有不同的估计，一般估计前者是后者的100-500倍[4-5]，加州大学的研究结果是400-450倍。另外，网络上还有更大量的以电子邮件、即时通讯和P2P等方式流动与存在的信息，这部分信息的总量超过了400PT。在表层网页中的167TB信息是个什么数量概念呢？美国国会图书馆号称藏书2000万册，这些印刷品如果转化为数字信息，大概有20TB。也就是说，仅全球互联网表层网页中的信息就相当于80多个美国国会图书馆藏书所包含的信息。美国国会图书馆的全部收藏品（包括印刷品、影音及图像等收藏）所含信息大约是136TB，而目前整个互联网中的信息量则相当于680个美国国会图书馆所收藏资料的全部信息。全世界所有印刷品如果转化为数字信息，大约是200PB。

书籍、报刊等是公认的人类社会信息、知识的记录和传播媒介。无论是对人类文明进程的记录还是构成这一进程延续而不可缺少的知识传播，在相当长的历史期间内主要是依赖这些介质得以传承的。据加州大学的研究结果表明，2002年全球纸张类印刷品（包括书籍、报纸、杂志及内部文件等）所产生的信息量估计为327TB（即0.327PB）。它相对于在互联网上的92PB的信息来说就显得微乎其微了，仅占0.35%。单就这一数据来看，互联网作为人类信息记录和知识传播媒介，其信息的承载量已远远超过了印刷材料；而互联网上的信息量在1999-2002年期间一直是以30%以上的速度增长，这种差距还将越拉越大。因此，互联网已成为当今人类社会信息和知识最重要的载体与传播媒介。

2 互联网信息的保存具有极端重要性

从结绳记事到甲骨铭文，人类在文明的发育过程中就一直试图将社会进程的信息和不断增长的知识，通过各种方式进行记录以便传承。纸张的发明淘汰了沉重的知识载体——竹简，“学富五车”成了遥远的过去；汗牛充栋的竹简被浓缩成薄薄的书本，极大地丰富了人类文明的记录，也方便了知识的传承与信息的传播。随着现代科学技术的发展，计算机网络技术及信息内容的日益融合，互联网已不可逆转地彻底改变了人类信息记录、知识传播的环境、方法。它的发明打破了书本是知识主要传播载体的状况，大大提高了人类知识创新、传播和利用的速度，以“读书破万卷”来形容个人知识的渊博又将成为昨日黄花。由于互联网具有的实时通讯与交互特点，现在无论是重大新闻的报道还是科学新知的传播，大都是首先通过互联网展现在人们眼前的；而人们许多具有原创性的新概念、新思想往往也首先是通过互联网开展讨论、凝练及传递的。这使得互联网承载的信息前所未有的丰富，它是记录人类文明进程及知识传承的重要数字遗产，也必将成为人类拥有的重要信息资源。

按照A.Ntoulas等人的研究[6]，万维网网页每周以8%的速度在更新，网页的链接结构变化更大，每周大约产生25%新的链接。这项研究关于网页生命周期的结果与B.Kahle 1997年做出的判断[7]，即“网页的平均生命周期为75天”大致相同。有报道说[8]，2000年互联网上一共有10亿个可被搜索的网页，并且以每天大约150万个网页的速度在增长。在2003年9月，Google表示他们可以搜索到33亿个网页，而到2004年11月这个数目增加到了80亿。这一方面可以说是搜索技术有了很大的提高，以前无法被搜索到的网页现在可以被搜索到并展现在人们的面前；另一方面也证实了可搜索网页的数量确实在飞速增长。他们还提出，按2004年大约40亿个网页计算，每星期约有3.2亿个新网页诞生，这大约相当于3.8TB的数据量。他们同时估计，一年后只有大约20%的网页还保持着原来面目；而整个万维网上至少有50%以上的内容都发生了变化，80%的链接都是新的。这样，在一年的时间内，互联网上就有50PB-80PB的信息内容实现了更新。以网页内容为代表的网上信息在相当程度上是社会文明状态和变化的一种客观反映，也是人类思考过程与思维创新的宝贵记录。仅就互联网表层网页来说，许多信息内容在网站关闭或网页更新的过程中就消失了，每年相当于大约有2-4个美国国会图书馆藏书的信息内容在互联网上消失！

3 互联网档案的出现

1989年，英国人T.Berners-Lee在日内瓦写下“对信息管理的建议”[9]，并于1991年公布了按照这个思路编写的程序，万维网就此诞生。由于联接在互联网上的众多网站都是由世界各地无数的不同机构和个人维护的，这类信息产生的“自发性”与存在的“流逝性”使互联网信息成为了一种珍贵的数字资源。如何保存这些以网页内容为表现，并让其成为我们后代不可缺少的智慧遗产就成为了当今人类社会知识管理中越来越重要的课题。

互联网档案馆的建立正是应对这一挑战的必然结果。对网络信息资源的保存最早提出于1994年[10-11]，互联网档案的提法出现于1996年，也就是互联网诞生的5年之后。美国人 B.Kahle[7]于1996年在旧金山开办了一个叫做“Internet Archive （互联网档案馆）”的非营利机构，其目的就是按时间顺序不断地收集和保存所有可以公开检索到的网络信息（包括网页提供的文字信息、图片甚至超链接的网页及各种格式的文档内容等），它可以让任何人查找到世界上几乎所有万维网网站在不同时间段的原始记录。目前该机构已保存有1PB的数据并以每月20TB的数量增长。这些保存下来的互联网档案将成为人类重要的数字化信息资源，如何利用如此庞大的互联网档案信息来丰富自己的资源并为用户提供知识服务，也将是对现有图书情报机构的一个挑战。

包括美国在内，世界上大多数发达国家都在2000年前后陆续开展了互联网信息保存的研究或建立了相应的专门机构，如：加拿大[12]（EPPP项目，1994）、瑞典[13]（Kulturarw3项目， 1997）、澳大利亚[14]（PANDORA项目，1999）、芬兰[11]（Nordic Web Archive项目，1997）、日本[15]（WARP项目，2002）。我国是从2001年开始互联网信息资源保存研究的[16]。这些项目所做的工作主要集中在研究如何保存现有的网络信息、海量存储技术，同时也在研究如何利用这些档案资源。

4 互联网档案学的概念

自古以来，人类就非常重视档案的保存和利用，设置馆库、选派专人进行管理。对于档案学的传统定义是：档案学是探索档案、档案工作和档案事业发展规律，研究档案信息资源管理、开发的理论、原则与方法的科举[17]。档案学的研究内容主要有档案基础理论、档案史、档案管理、档案资源开发、档案应用5个方面。由于传统档案材料所承载的信息不仅仅是其中记载的文字、声音信息与图像内容，还包括许多无法定义或目前人们还无法感知的信息内容，所以目前尚没有人能对档案中蕴涵的各类信息的总量做出估计。但可以肯定的是，互联网上信息的产生速率快于传统档案信息的增长速率；互联网档案的增长速率也将大大高于传统档案增长的速率。

由于互联网上的信息具有多样性，不仅有文字图片、声音、影像等类信息，还有信息之间存在的相互关联，即包括超链接在内的组织结构等许多具有信息含义的内容。而这些信息又存在着多种编码、格式等内在形态。要保存和管理如此数量庞大、变化如此迅速的互联网信息并非易事；而且还涉及许多传统档案学中不可能遇到的技术问题。因此，笔者提出，有必要在互联网档案事业经过近10年的飞速发展后，建立一门专门研究互联网档案保存与管理的“互联网档案学” (Internet Archive Science)。

这里提出的互联网档案学并不是研究传统档案如何利用互联网进行管理、利用的学科，而是专门研究涉及互联网档案的收集、保存和利用的科学，以提高对互联网档案保存与管理的科学水平。互联网档案学可以定义为：互联网档案学是探索互联网档案工作和互联网档案事业发展规律，研究互联网信息资源保存与管理技术的相关理论、原则及方法的科学，是现代知识管理科学的一个组成部分。传统档案的收集和保存主要依赖基础的物理与化学技术对实体物质及其承载的信息进行保护；而互联网档案的本质是对以数字为表现形式的信息内容及其相互关系进行保存和管理，其收集与保存则完全依赖以计算机为基础的知识管理、信息存贮、信息组织及检索技术。互联网档案学所涉及的信息内容将比目前人类拥有的图书馆和档案馆所管理的全部信息还要多，并有可能很快成为管理人类历史上最为庞大的知识遗产的学科门类。从对信息资源的管理和利用来说，互联网档案并不适合由传统的档案机构进行建立与管理，反而应该是现代图书馆、情报机构信息资源建设的重要组成部分。虽然可以认为互联网档案学是传统档案学的一个分支，但考虑到它的收集和保存技术与传统档案学所涉及的技术，已经不是在一个相同的技术体系架构中，所以它们对技术发展的依赖性则具有天壤之别。因此，互联网档案学成为信息资源管理框架体系中的一个新兴的重要组成部分，是融合图书馆学、情报学和档案学并与现代信息技术空前结合的交叉学科，并将发展成为人类知识管理的一门极为重要的学科。

5 互联网档案学的研究重点

由于互联网产生的时间并不长，互联网档案的出现也不过10年时间，正处在初期的爆发式增长期。对于这样一个新兴的学科领域，在分类和研究内容认识上的分歧与争论是在所难免的。当前看来，互联网档案学的研究主要应该包括以下内容：①基础理论研究。即互联网的起源与发展、本质属性与一般属性、种类的划分、互联网档案工作的性质与基本原则，它和文书、图书、情报与传统档案工作的关系并预测互联网档案学发展的未来。②互联网信息资源管理与开发的研究。即对档案信息管理系统、信息开发系统及其反馈系统整个过程的研究，包括对网站、网页原始内容和形态及其相互关系的收集、存储与元数据的保存，对存储信息的选择、比对、冗余数据的抽取、全文检索的研究等。③互联网档案工作应用技术研究。互联网档案由于涉及到海量信息的管理，因此需要一整套处理海量信息的技术，包括：海量数据识别技术，对于迅速变化的网页内容和各式各样的超链接进行识别与智能比对，抽取冗余数据予以剔除；海量数据存储技术，在考虑信息存储安全的情况下，按照不同数据的使用频度采取在线、近线或离线的方式对呈几何级数增长的数据进行存储及管理；海量索引技术，可以高效率地访问资源；网页再现技术，将过去的历史网页真实地再现出来；海量信息检索技术，快速查找到所需资源；网页建模技术，提供一套数据模型来分析网页数据。

这里特别需要指出的是，互联网档案学尤其需要重视信息计量学、元数据和数据挖掘技术的研究及应用。由于人类基于互联网的信息资源几乎呈爆炸式增长且信息之间的关联关系呈现动态，这是传统图书馆学和档案学都不曾遇到过的。在保存这些资源的时，就必须考虑到我们不能、也不可能将互联网上所有的信息都加以保存。结合互联网信息的特点，对信息计量学数学模型的深入研究，使其适应网络信息资源快速增长的应用需要，促进网络计量学分支学科的形成与发展；利用信息计量学可以借助网络信息的各种特征及其量化指标，采用数学和统计学方法来描述、评价与预测互联网信息的现状及发展趋势，从而对互联网档案的保存工作做出相对正确的预期，并回答在当前的条件下，我们需要存储哪些内容、能够存储哪些东西、存储的代价有多高等问题。实际上，目前已有人在利用互联网档案信息开展网络营销的研究，比如开展网站的搜索引擎优化等。

由于互联网档案要涉及多媒体数据和各种结构数据，这类档案的管理将会遇到文本文件未曾遇到的元数据挑战。加强对互联网档案中元数据技术的研究与应用，直接关系到网络信息的可存储性和可管理性。它能够帮助我们对互联网档案资源进行更有效的管理和维护，为用户提供更快、更加全面与有效的信息查询方法。加强对它的数据挖掘技术的研究将直接关系到互联网档案价值实现。首先，对这样一个信息和知识的载体档案，保存的目的就是为了使用；通过数据挖掘技术可以利用各种智能化分类、聚类方法对档案中的数据进行分析，开展知识抽取与凝聚，并逐步将Web Agent技术、Web信息过滤及检索、Web数据集成等技术应用到互联网档案的知识管理当中去，为知识管理研究开辟一条新的路径，这些技术在很大程度上也将会与如今迅速发展的数字图书馆技术相融合。

收稿日期：2006-04-12 修回日期：2006-05-18 本文起止页码：117-120

标签：档案学论文;

网络档案亟待开展的研究_档案学论文

猜你喜欢