韩国国家知识门户与网络档案馆现状研究_web技术论文

韩国的国家知识门户网站与Web Archive现状研究,本文主要内容关键词为:韩国论文,门户网站论文,现状论文,国家论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着信息技术的发展,越来越多的信息资源以数字化的形式存在,网络信息资源逐渐成为世界各国科学文化交流中不可缺少的重要部分,且其增长速度以指数发展。另外,随着这些信息资源的不断制作、更新,使得网络信息资源呈现出寿命短且易逝等特点,如果不及时保存就会丢失大量具有重要价值的科学文化信息。为了防止大量有用的信息资源丢失,世界各国的很多机构投入研究网络信息资源保存(Web Archive,WA)。进入21世纪,韩国针对上述网络信息资源的利用和保存的课题,先后重点推出了两个重大研究项目:第一是利用网络信息资源为目的的国家知识门户网站的构建,这是一个统一检索有关韩国的Web信息资源的门户网站;第二是以网络信息资源保存为目的的国立数字图书馆的WA。虽然韩国的社会制度、信息资源管理的技术平台与我国不尽相同,但对我国的网络信息资源的研究发展提供了宝贵的经验。

1 韩国网络信息资源发展的社会背景和特点

韩国是一个互联网人口非常多的国家,根据韩国广播通信委员会关于按年龄的互联网利用率的问卷调查结果,2008年上半年,利用互联网的人10到30岁的接近100%,40岁的为82%,50岁的为48.9%,60岁的为19%[1],可以说韩国已进入了网络时代,网络信息资源也非常丰富,在这网络信息化的背景里隐含着韩国特色的社会制度和社会背景。例如,从1997年开始韩国陷入了经济危机,这个危机也叫做“IMF”危机。当时,韩国为了解决失业问题实行了名为“信息化勤劳事业”的信息资源输入项目,结果仅国立图书馆从1998年11月到1999年2月这4个月之间,共输入了591万页以上的信息[2]。一般来说,像这样利用信息资源的数字化来推进失业对策是很难想象的。为了推进信息化的进程,韩国建立了《知识情报资源管理法》。利用这个法律的补助金,很多机构构建各个领域的信息系统,即把资料数字化并制作各个领域的门户网站,结果更加丰富了国家门户网站的内容。例如,韩国国史研究的中心机关国史编纂委员会,在历史部门构建了13个机关的历史资料检索系统(即韩国历史信息综合系统www.koreanhistory.or.kr),这个系统作为历史门户网站构成国家知识门户网站的下级门户网站。参加历史门户网站的机构积极地把所藏历史资料数字化,结果在这个门户网站中能够检索到丰富的史料。

另外,韩国在构建每一领域的信息系统时,除了该领域的专家和计算机专家之外还有文献情报学的专家参与。因此,这些信息系统具有多种功能的检索接口,并积蓄着通过分类词典或者分类表充分组织化的数据。

2 韩国国家知识门户网站

2.1 概况

韩国知识情报资源管理委员会根据《知识情报资源管理法》展开国家知识信息资源管理事业。作为这个事业的一个环节,构建了综合检索有关韩国的网络信息资源的网站“国家知识信息综合检索系统”,从2001年8月正式启动。这个系统于2005年11月被改名为现在的“国家知识门户网站”(https://www.knowledge.go.kr)。国家知识门户网站把利用价值较高的文件、图片、视频等国家知识信息资源提供给韩国公民。新网站检索方式极其方便,检索速度比较快。韩国国家知识门户网站的推进体系是:知识情报资源管理委员会制定基本计划以及项目推进方针,确定重点推进领域以及支援对象的课题,确保预算以及预算支持,韩国情报化振兴院(2009年原韩国情报社会文化振兴院和原韩国情报文化振兴院合并为现在的韩国情报化振兴院)作为负责机关进行项目的审查、签合同、管理、评价、宣传、提供服务等业务。从“预算志援”中可以看出国家知识门户网站事业,除了综合利用已经构建的网络信息资源的目的之外,还进一步支援构建对公民来说有价值的网络信息系统。

韩国国家知识门户网站是代表韩国的知识信息检索网站。这是连接由韩国科学技术情报研究院(科学技术领域)、韩国教育学术情报院(教育学术领域)、文化观光部(文化领域)、国史编纂委员会(历史领域)、情报通信研究振兴院(情报通信领域)等5个综合中心所属的382个机关和其他718个机关共合计1 251个机关[3](其中科学技术部门271个、教育学术部门483个、文化部门123个、历史部门17个、情报通信部门41个、其他316个)构建的所有国家知识信息数据库的综合网站。例如,国家文化遗产综合信息系统、文化艺术综合信息系统(两者都是文化观光部部门门户网站)、韩国历史信息综合系统(国史编纂委员会部门门户网站)、科学技术综合信息系统(韩国科学技术情报研究院部门门户网站)等网站是各个领域代表性的门户网站。

韩国情报化振兴院和各级机关互相合作,选定国家知识信息并支援数据库构建,把构建的数据库连接到国家知识门户网站,形成了大规模的国家知识门户网站。目前正在开展“开设国家知识门户网站检索窗口的活动”,是指各自在自己的主页或者网络浏览器里开设检索窗口,直接可以利用国家知识门户网站。

另外,知识情报资源管理委员会和韩国情报化振兴院从2007年开始向各个学会、协会、地方团体提供自动注册系统(到2011年为止共计划向700余个团体提供该系统)[4],各个机关可以在这个系统里以电子文件形式注册知识信息资源(视频、音频等多种格式文件),韩国公民通过国家知识门户网站立即可以利用所注册的知识信息资源。

2.2 韩国国家知识门户网站的统一目录数据及连接方式

为收集协作机关的目录数据,除了事先确认协作机关的目录数据设计信息、主题分类代码、相关信息、为阅览原文的注册条件、ID管理方法、目录数据收集装置的设置环境、OS(Operation System)、网络服务器等之外,必须与协作机关协议表1所示的目录数据收集方式[5]。

(1)OAI方式。利用收集目录数据标准的OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting)协议,自动收集目录数据的方式。连接机关设置国家知识门户网站收集用目录数据的DP(Data Provider),根据这个DP,管理者从连接机关系统自动抽出事先被指定的目录数据要素。科学技术、教育学术、历史、文化、情报通信等5个领域的综合信息中心利用这种方式。

(2)DB(数据库)直接传递方式。在连接机关系统上设置把连接机关的目录数据直接传递到国家知识门户网站MDB(Metadata DataBase)的传送程序,从连接机关直接把目录数据传递到国家知识门户网站的方式。

(3)脱线连接方式。把连接机关的目录数据按照国家知识门户网站的统一目录数据格式变换成MDB文件,利用CD、FTP等物理媒体提供给国家知识门户网站的方式。

2.3 韩国国家知识门户网站的知识特点

韩国国家知识门户网站的知识特点可概括为它的专业性、可信赖性以及广泛性。首先,构建国家门户网站的机构都是代表国家并且是各个领域的代表机构,这一点已经充分说明它的专业性。其次,根据韩国情报文化振兴院的利用者问卷调查结果显示,利用者指出该网站的最大优点就是信息的可信赖性[6]。第三,韩国国家知识门户网站的知识包括科学技术、文化、情报通信、产业经济、教育学术、历史、建设技术等几乎所有领域的信息资源。也可以说,该网站积蓄了公民普遍想要了解且有使用价值的知识。因为知识内容非常广泛,所以利用该网站的网民的范围也非常广。根据“韩国情报化振兴院”的利用者问卷调查结果[6],国家知识门户网站的利用者根据从事职业来看,从普通专职主妇到研究开发人员;从年龄来看,从10岁到50岁以上,范围非常广,可以看出是一个代表国家的门户网站。对互联网人口急剧上升的我国来说,韩国的国家知识门户网站的构建为我们提供了一个利用网络信息资源的参考模型。

3 韩国的WA与《关于数字资料呈缴以及利用的法律(案)》

韩国国立中央图书馆为了WA专门建成国立数字图书馆,2009年5月正式开馆。国立数字图书馆不仅具有数字资料的保存技能,而且具有扩充信息的技能和存取权,能够使数字资料公共利用。另外,韩国正在审议的以法律为依据的“数字资料呈缴制度”将强有力地推进WA。

3.1 网络信息资源的特点

以下分别介绍动态、个别网站和深层Web[7]。

(1)动态、个别的网站。静态网站是把文件存储在服务器以后持有稳定的URL和文件之间关系,但是另一方面还有动态、个别的网站,即以利用者分析为基础把握利用者的需求倾向,提供个别信息的网站,或者为存取特定数据库数据的接口而被利用的网站。积累在这些网站数据库里的信息的使用方法以及服务方法很快会发生变化,所以这种网站的信息资源保存有一定的难度。

(2)深层Web。深层Web是没有限制可以存取的表层Web的相反概念。例如,数据库网站、需要密码的网站、通过Microsoft公司的ASP(Active Server Page)被提供的网站、使用互换性低的特定格式化的网站,等等。深层Web的问题在于信息量的海量(深层Web的量推测为表层Web的400~500倍甚至550倍)和存取限制。这样的网站拒绝利用Web机器的自动收集,收集这些资源需要与制作者之间进行协议。如上所述,深层Web的WA面临着许多需要解决的问题。

3.2 WA的主要障碍因素

WA在收集、保存、利用资源时所需要解决的问题可以分为两大类。

第一是处理技术和处理环境的问题。网络信息资源丰富多样,还有被限制收集的网站,并涉及目录数据的设计。因而,为保存网络信息资源需要高度复杂的处理技术。另外,因为要保存的是海量信息,需要有高性能的硬件以及高速而稳定的通信基础设施。

第二是著作权问题。韩国的《在线数字资源产业发展法》和《著作权法》禁止网络信息资源的复制,不过,这些法律的例外规定是基本上允许有关图书馆的在线数字资源的复制。著作权问题在一定范围内是跳过了法律的界限,但是保存很容易被复制的在线数字信息资源,并将其公开,对著作权所有者极其不利,因此这个例外规定也不能完全解决著作权问题。

3.3 韩国WA的实践

在韩国,国立中央图书馆主要担负着WA,它的法律依据是《图书馆法》,根据此法2004年开始启动了OASIS(Online Archiving & Searching Internet Sources)项目。这是在有限的范围内保存网络信息资源的实验项目。于2006年2月正式公开所保存的网络信息资源,使韩国公民能够利用这些信息(http://www.oasis.go.kr)。

这个实验项目的收集资源可分为两大类,即作为个别资源的“Web文件”和特定网站所有资源的“Web网站”。这个目录数据是根据DC(Dublin Core)的15要素。

图1 Web文件保存过程

Web文件保存过程见图1[8]。从各个机构推荐、赠送的Web文件中或者在采集的Web文件中进行挑选并收集。Web机器人采集相关的Web资源,并检查与已保存的Web资源重复与否,再根据自动分类体系抽出摘要信息。管理者对收集到的Web文件进行目录数据输入、校对、验证,最终制作目录并保存。重复检查是指调查URL、文件内容、题目的类似性等,检查已收集资源之间的重复性。自动分类和自动归纳是管理者把机器的分类进行推荐或者归纳,修正并最终注册。自动分类是以事先设定的规则和系统所定的分类体系变换文件的过程。自动归纳是以文件中归纳核心内容的方式挑选核心语言,按文章和段落的重要程度处理主要文章。重要程度的判分方法是通过考虑核心语言出现的频度、文章的长短、文章中的单词量、段落数、段落的文字数等相关关系来计算。

图2 Web网站保存过程

Web网站保存过程见图2[8]。因为Web网站是不断变化的,所以Web网站的镜像保存不可能一次性就能完成,而是按不同分类各自存储以后再保存。但是,实际上管理者用手工逐一监控海量Web网站的变化状态是不可能的,另外按一定的时间间隔(比如一个月)无条件存储以后再保存的方法存在浪费因素,也是不可取的。所以,系统采取了Web机器人采集持续注册网站的资源并监控其变化状态。首先Web机器人跟以前存储的状态相比把变化状态用数值来表示,再由管理者根据变化程度(变化比率)来判断是否保存当前的采集信息。变化比率是指与以前采集存储的Web资源相比较,换算追加、修改、删除的资源个数而显示的数值。

上述两类资源收集之前的著作权管理程序是:管理者向著作权持有者发送请求同意与协助的电子邮件→著作权持有者确认以后连接同意的Web页面,输入同意与否以及著作权信息→管理者确认Web页面上的信息以后向著作权者发送著作权同意书原本→接受著作权者盖章的同意书以后注册并保存在OASIS系统。这是一项非常耗时、耗力的过程,需要较多的人力干预。

到目前为止,韩国的网络信息资源收集是小规模并且有选择性的,在有关处理环境和著作权以及资源的利用方面不存在什么问题,但是要根本性地解决收集、保管、利用的第二个障碍因素(著作权问题),需要制定关于数字资源呈缴的法律,以完善WA发展的法律环境。

3.4 《关于数字资料呈缴以及利用的法律(案)》的内容

韩国国立中央图书馆,于2007年制作了《关于数字资料呈缴以及利用的法律(案)》,这个法案目前正在国会的文化观光委员会审议[9]。这个法案的主要内容是把以知识信息资源的传递为目的的一定种类的数字资料,呈缴到国立数字图书馆,并由该图书馆保存这些资源。以下是对其中几个重要条文的解释与分析。

第12条(数字资料的呈缴)

(1)著者或者在线出版商,以下列各种方法向国立数字图书馆呈缴数字资料。

①根据国立数字图书馆规定的自动收集方法的呈缴。

②由著者或者在线出版商的义务性发送。

③根据协议的自发性呈缴。

(2)国立数字图书馆对数字资料的呈缴者必须作正当的补偿。对其补偿的必要事项规定于总统令。

(3)关于根据第一项呈缴的数字资料中的个人信息不适用有关信息通信网的利用以及信息保护等法律。

根据国立数字图书馆规定的自动收集方法的呈缴,是指把Web网站的文件利用软件(Web机器人)复制、收集保存在图书馆。表层Web是由Web机器人采集,属于深层Web的数据库用导航服务器来采集。

根据这个法律,国立数字图书馆具有利用软件(Web机器人)能够自动收集并下载的权限。另外,遇到文件被采取存取限制的技术措施的情况(某一种深层Web),也可以邀请出版商(制作者)解除限制措施。由著者或者在线出版商的义务性的发送意味着根据法律上的强制性收集的手续。义务性发送是指自动收集在技术上困难的情况下或者特别需要个别的与著者、出版商交涉的情况下,规定法律性呈缴义务使相关部门呈缴数字资料。

第13条(呈缴的对象)

(1)根据这个法律的呈缴对象是,网址、语言、著者、发送者或者收件人属于大韩民国的数字资料,并且是下列各项所规定的资料。

①特定为国内所指定的网址出版的数字资料。

②在国内发表为目的,用国外的网址出版的数字资料。

③国内居住者或者主事务所的所在地为国内的人员在网上公布的数字资料。

④其他总统令上所规定的数字资料。

(2)关于呈缴对象数字资料的种类、数量等必要的事项由总统令规定。

作为呈缴对象的数字资料是由总统令规定,简要地说数字资料的呈缴应该是完整的不能挑选。也就是说数字资料的呈缴制度是指原则上不管内容和形态,对出版商或者著者赋予呈缴义务。

第21条(呈缴数字资料的利用)

(1)国立数字图书馆为了使利用者在国立图书馆内阅览,可以利用电脑等媒体将已呈缴的数字资料复制、传递(馆内发送)。

(2)呈缴的数字资料中关于没有限制地对公众公布的数字资料,国立数字图书馆限于总统令中规定的范围内,为了使利用者在国立图书馆外阅览可以复制或者传递(馆外发送)。

(3)对于呈缴的数字资料的利用,关于除了这个法律特别规定的内容以外,遵循著作权法。

这个条文的主旨是,基本上允许国立数字图书馆所收藏的数字资料,在馆内或者馆外利用。但是,以这条法律为依据的WA,从市场经济的观点来看,销售这种有偿的流通途径和图书馆这种无偿的流通途径的共存,隐含着国立图书馆与民间企业之间的摩擦。

第25条(过失罚款)

按照第12条第1项以及第13条第1项不呈缴数字资料者,赋予200万韩元(人民币约1.2万元)以下的过失罚款(以下省略)。

如果不呈缴数字资料,处以200万韩元以下的罚款。对此各行业举出在不解决呈缴资料的标准化和防止违法复制等技术性问题的状况下,推进数字资料的呈缴,会受到巨大的损失。各行业以此为由对此规定不愿接受。

4 韩国的网络信息资源管理经验对我国的启示

韩国的国家知识门户网站和Web Archive的实践为我国开展网络信息资源管理事业提供了丰富的经验,对于我国的网络信息资源管理事业的发展具有重要的借鉴意义。

(1)制定网络信息资源管理的国家战略。在国家机构制定相关政策,确保在国家规划统筹范围内进行。

(2)加强各个机构的合作。需要加强国内各个网络信息资源的保存机构之间的合作以及保存机构与出版商、著作权者的合作。

(3)建立健全有利于网络信息资源管理的法律环境,尤其是有利于WA的数字资料呈缴法的建立,确保WA工作顺利、长久地发展。中国国家图书馆积极推动和促进Web资源呈缴法的起草,以解决WA长远发展过程中的法律障碍。希望韩国的数字资料呈缴法(案)能为我国WA事业有借鉴作用。

标签:;  ;  ;  

韩国国家知识门户与网络档案馆现状研究_web技术论文
下载Doc文档

猜你喜欢