基于历史数字图书馆档案数据库与国家安全档案数据库全文档案数据库的比较研究_全文数据库论文

档案全文数据库的比较研究——基于历史数位图书馆档案数据库和国家安全档案数据库,本文主要内容关键词为:档案论文,数据库论文,数位论文,国家安全论文,图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着互联网技术的迅猛发展,档案资源的利用也逐步向电子化和网络化转变,如何在网络环境下不断提高和完善数据库功能为用户提供便捷的档案服务成为关注的焦点。现阶段网络环境下档案资源的组织形式主要表现为各档案机构网站的建设,而档案全文数据库的建设还有待于提高和改进。本文拟从档案全文数据库的功能角度出发,通过对两大档案全文数据库——历史数位图书馆档案数据库(Taiwan History Digital Library,以下简称THDL)和国家安全档案数据库(Digital National Security Archive,以下简称DNSA)的对比介绍和分析,为后续档案全文数据库的建设提供一些借鉴。

一、两大档案数据库的比较

(一)THDL和DNSA基本情况介绍

1.THDL

THDL由台湾大学建制,集合了明清时期与台湾相关的第一手史料的全文数据库,其中包括明清台湾行政档案和古契书两大文献集。

THDL收录了来自235个出处的约37000件有关明清台湾行政档案的全文资料,资料内容主要为明清时期与台湾有关的官方行政公文。其来源主要包括故宫收藏的月摺档、宫中档、谕旨等,同样也包含台湾“中央”研究院典藏的内阁大库档案;古契书方面收录了来自70个出处的约24000件的全文资料,资料的内容主要为明清以降台湾的各类契约文书,其中土地契约最多,同时也包括相关的公私文书,如契尾、婚姻契等。其来源主要为台湾总督府档案抄录契约文书、岸里大社文书等。

2.DNSA

DNSA是由Proquest公司与美国国家安全档案馆合作出版的,完整收录了自1945年以来至2009年美国外交及军事政策相关的重要以及机密文件,涉及80000多件解密文件,数量多达500000页,而且其中很多文献资料是第一次公开出版。

DNSA目前包含33个主题单元,其中涉及多种政府文件,如总统命令、备忘录、外交任命、会议记录、独立报告、简报、白宫往返文件、电子邮件、秘密信件以及其他机密文件。

(二)THDL与DNSA功能比较

对于数据库评价体系方面的研究,很多学者已在此方面做了大量工作。有学者提出了特色数据库的评价指标体系,应以系统建设为主体,囊括数据资源、服务平台、著录标引、数据库系统、基础设施以及推广应用六个部分②。有学者采用网上特菲尔法并基于指数标度的层次分析法,构建了以收录范围、检索功能、服务功能、收费情况、网络安全五个方面为一级指标的网络数据库评价指标体系③。也有学者归纳了网络数据库评价的五大标准,即数据库内容、检索系统、数据库成本、数据库利用率、数据库服务④。在借鉴和研究前人研究成果的基础上,经过对相关资料的收集和整理,并从数据库功能出发的角度,最终确定从数据库资源、数据库检索、数据库服务平台以及数据库使用权限四个方面对THDL和DNSA进行分析比较。

1.数据库资源

数据库资源是一个数据库的核心内容,它很大程度上决定了数据库能否满足用户的需要。其中数据质量、准确性、完整性都成为影响数据库功能以及用户对数据库满意度的重要因素。以下从数据库收录范围、文献数量、网页链接以及特色资源四个方面进行这个数据库的比较,详见表1。

THDL与DNSA收录了不同领域的文献资料,年代跨度也不属同一时期;但是两者均收录了大量的珍贵文献资料,有各自的特色收藏,为各自领域的研究者提供了一个良好的信息资源平台。

2.数据库检索

数据库的检索功能是衡量其整体功能的另一个重要方面,用户对于数据库的使用离不开检索功能的提供,数据库检索界面的设计、多种检索入口的设置、多元化检索方式的提供以及检索结果的呈现方式都会从不同角度反映出数据库在设计和建立实施过程中对于用户服务的考虑和重视。

①在检索界面设计方面,THDL和DNSA两者均以简洁、友好并富有个性化的界面示以用户;但是美中不足的是两者均忽略了非中文或非英语用户对于数据库的使用,没有提供相应的页面语言转换功能。

②检索入口的设置方面,THDL提供了相对全面的检索入口,其中包括文献标题、出处、著者、时间、分类浏览、文件类型等;而DNSA在检索入口的设置上,除了以字顺排列的方式提供用户浏览方式查找信息外,主要提供了主题浏览、文件类型、主题类别、全宗名称等入口。

③检索方式方面,THDL提供了一般检索和进阶检索(高级检索);而DNSA较之于前者则提供了分类检索,依次为文件、书目、年代、专有名词检索,用户可以根据所需信息类别选择适宜的检索方式,一定程度上提高了检索的效率。

④在检索结果方面,THDL提供了多种检索结果的排序方式供用户选择,如年代、出处、字顺以及文献的相关程度。除此之外,值得一提的是THDL还根据用户需要提供对检索结果的分析,不但可以对检索结果进行分类,而且提供词频分析、不同检索结果的对比分析;但是在检索结果获取方式方面,DNSA却有着自身的优势,不但提供传真、email传送、保存全文服务,还提供直接下载服务。

除以上四个方面,两个数据库还各自提供一些个性化的功能。如DNSA提供的Marked List(标记清单)。用户可以利用此功能直接在检索结果中点选需要的项目,然后进行批量储存、下载或是打印等其他操作。THDL提供的文件分布图则更是一大创新,它是以折线图的方式呈现,其中横轴表示公元年,纵轴表示文件数量,以此显示检索结果中相同年份文件数量的总量,而且此文件分布图还可以进行两种检索结果中文件分布年代的比较;THDL的另一特色即是相关文书和相似文件功能,在查找古契书的过程中,可以帮助用户便捷的找出与查找项目相关的文书,如上下手契、原契、契尾、阄分契、内容相同的契书。由于古契书存在一式多份、重复抄写、格式相似等特殊情况,所以THDL提供的相似文件功能又为用户提供了另一便利,即根据两两文件的相似度,将相似度高的文件以链接的方式提供给用户,并附有标记文件相似度的数值(0-1,相似程度随数值增大而上升)。

3.数据库服务平台

数据库服务平台主要反映了数据库网站建设方面的情况,如个性化服务中个人文档服务的提供,与用户的互动即咨询反馈,为了方便用户熟悉和使用数据库所提供的使用说明等。

THDL与DNSA两者均提供了个人文档服务(“自定义文件集”和“我的档案”),不过在称谓上有所差别。在与用户的互动方面即咨询反馈,DNSA同绝大多数网站抑或数据库相同设置了“联系我们”;而THDL则提供了“意见回馈和错误更正”服务,用户可以在逐篇浏览检索结果时,对于其中错误的抑或有争议的信息可以通过“更正错误对话框”中信息的填写进行反馈,THDL提供三种形式的错误更正,即更正metadata错误、更正全文错误、人地名等特殊词汇更正(见表2)。

4.数据库使用权限

数据库的使用权限应该是既数据库资源之后另一备受关注的问题,这不但关系到数据库用户是否能够成功取用到所需的信息,而且也是用户从性价比方面评价和选择数据库的另一影响因素和依据。

THDL与DNSA两者均设置了使用者权限:DNSA明确提出了收费要求,而且必须以单位机构的名义才能购买,它提供的免费试用服务只面对单位机构;相较于DNSA,THDL以账号申请的方式进行使用权限的管理,用户需向数据库的建制者即台湾大学数位典藏中心提交网络申请,经同意后方可使用,而且数据库仅提供以学术研究和教学为目的的正当使用(见表3)。

二、用层次分析法对THDL和DNSA进行评价研究

(一)分析方法

层次分析法(Analytic Hierarchy Process,简称AHP)是美国运筹学家匹茨堡大学教授萨蒂(T.L.Saaty)于上个世纪70年代初提出的一种层次权重决策分析方法。它将一个复杂的多目标决策问题作为一个系统,进而将其目标分解为多个目标、准则或方案等层次,并在此基础上通过定性指标模糊量化方法进行定性和定量的分析决策。

AHP的特点是对于复杂决策问题的本影响因素及其内在关系等进行深入的分析,并在此基础上利用一些定量信息使得决策的思维过程数学化,从而为多目标、多准则或无结构的复杂决策问题提供简便的决策方法。

(二)标度系统的确定

运用层次分析法对THDL和DNSA的评价,首先需要建立评价的指标体系,随后根据这个总目标以及指标的性质去建立THDL和DNSA的综合评价体系。

此处评价体系是在第二部分两大档案全文数据库功能比较框架的基础上,并进行适当的调整,由此得到对THDL和DNSA评价指标体系的大致框架(见表4)。

(三)递阶层次模型

递阶层次结构是一个关于整个系统结构的抽象概念,主要作用是为研究系统中各个元素的相互关系与功能之间的相互作用提供方便。递阶层次结构大致分为三个层,即目标层、准则层、方案层。依此,可将对档案全文数据库THDL和DNSA功能的评价作为目标层也就是最高层,之后为数据库资源、数据库检索、数据库服务平台、数据库使用权限以及其下一层各个指标组成的准则层,最后一层即为方案层。由于此次评价的最终目的并非在THDL和DNSA两者之间做出一个选择,而更重要的是在比较分析的过程中发掘它们各自的优势和特色,以及相应的不足之处,故将方案层略去(如图1所示)。

(四)判断矩阵的建立及一致性检验

在建立递阶层次结构的基础上,按照一定的准则对同一层级上的元素相对于上一级的某一元素进行一对一的比较,并按照标度构造出判断矩阵。其中,标度形式有两种——绝对标度和相对标度。绝对标度依据具体量化的数据可以准确的反映出所要比较的两个元素之间的差别,但对于其他一些情况,如行为、健康、环境等状况则不适用,需要借助于相对标度⑦,本文属于后者,故将采用相对标度来进行判断矩阵的建立。

图1 THDL和DNSA功能比较的层次分析模型

1.数据库资源

依据上文中THDL与DNSA功能比较中数据库资源部分的分析,得到判断矩阵—为

最大特征根为2.000,C.I.=0.000,R.I.=0.000,C.R.=0<0.1,可通过一致性检验。

2.数据库检索

依据上文中THDL与DNSA功能比较中数据库检索部分的分析,得到判断矩阵—为

最大特征根为2.000,C.I.=0.000,R.I.=0.000,C.R.=0<0.1,可通过一致性检验。

3.数据库服务平台

依据上文中THDL与DNSA功能比较中数据库服务平台部分的分析,得到判断矩阵—为

最大特征根为2.000,C.I.=0.000,R.I.=0.000,C.R.=0<0.1,可通过一致性检验。

4.数据库使用权限

依据上文中THDL与DNSA功能比较中数据库使用权限部分的分析,得到判断矩阵—为

最大特征根为2.000,C.I.=0.000,R.I.=0.000,C.R=0<0.1,可通过一致性检验。

5.目标层

最大特征根为4.015,C.I.=0.005,R.I.=0.900,C.R.=0.006<0.1,一致性检验通过。

(四)层次总排序和一致性校验

(五)结果分析

综合评价结果显示,THDL相较于DNSA处于优势地位。本文的综合评价主要是针对数据库的检索、服务平台、使用权限等与服务提供有紧密联系的部分进行分析比较,由于两个数据库的内容以及收录范围的差异性,所以对于数据资源的重要性不做更进一步评判。

由以上的分析可以看出,在数据库提供的检索服务方面,THDL远胜于DNSA。这主要得益于THDL所提供的检索结果分析以及多种形式的检索结果呈现方式,为用户提供了多元化的选择和服务;在数据库平台方面,THDL提供了更为积极具体的用户交互方式,形成一个良性的信息反馈系统;在数据库使用权限方面,DNSA除了提供单位用户的使用外,如想使用数据库必须通过购买的方式实现。较之DNSA,THDL则利用问卷形式明确用户的使用目的,待核实确证后,分配给用户相应的账户,为个人用户提供了更多的易用性。

三、结语

通过以上的比较,以及结合层次分析法的综合评估,我们对于两大档案全文数据库有了更进一步的认识,对于两者功能以及用户服务的提供方面也有了更深层的了解。通过此次比较研究,我们一方面了解到两大档案全文数据库各自的特色以及仍需完善之处;另一方面也在比较分析的过程中对于国内档案全文数据库建立过程中功能的完善以及用户提供服务方面提出了更多的思考和更高的要求。具体概括为以下几个方面:

(1)档案全文数据库的内容以及收录的完备程度。用户使用数据库最终的目的是为了获取所需的档案信息资源,所以数据库内容、覆盖面大小及其收录数据的完备性在很大程度上决定了数据库能否满足用户的信息需求,这是取信于用户的重要前提条件。

(2)档案全文数据库检索系统的设计。数据库检索系统是用户使用数据库获取数据库资源的必要途径,是用户和数据库资源之间的便捷通道。在检索系统的设计部分,应十分注重检索界面、检索入口、检索方式、检索结果这几个方面的设计和实现。站在用户的角度,从用户使用数据库的实际情境出发,不断完善和优化数据库检索系统的设计。检索界面更加友好,在简洁的基础上突出主题,并提供多语言版本,以方便多个国家掌握不同语言的用户对数据库的使用;检索方式力求在考虑用户易用性的基础上,不断实现多样化,以满足不同使用偏好的用户进行便捷的信息查找;检索的结果除了以传统方式如目录格式、题目和摘要等进行单纯的显示外,可以在检索结果方面为用户提供更多的服务,如多种排序方式的提供。这点在THDL中有很多的体现,除了提供一般常用的时间/年代排序,还根据数据库资源内容设置了出处、文件名首字字顺以及相关性的检索结果排序,这些都大大方便了用户,为用户提供了从多元化检索途径。

(3)个性化服务不容忽视。个性化服务一直是比较关注和强调的部分,也是数据库功能以及用户服务提升更进一步的体现。在档案全文数据库的建设中,用户个性化服务不容忽视。在THDL和DNSA两大数据库中,“自定义文件集”、“我的档案”、“Marked List标记清单”、“文件分布图”等功能的设计和提供从不同侧面反映出了对于用户个性化服务的重视。个性化服务的核心是信息的定制和推送,可以在了解用户信息需求和兴趣偏好的基础上提供信息推送服务等相关服务。

(4)用户互动与反馈机制的建立。为了提升用户对提供服务的满意度,提升数据库服务质量,信息反馈机制的建立以及建立与用户之间的互动不失为一个有效的途径。一般而言,大部分的网站或者数据库都会提供“联系我们”作为与用户沟通的途径,但是就自身认识而言这是远远不够的。对于大多数用户而言,查找到所需的信息之外的活动对自己是没有效用的,或者说是没有直接的效用,所以为了让用户积极地参与进来,必须提供给用户一个明晰的、具体的反馈平台,而不是一个笼统的、模糊的“联系我们”。这点THDL相对比较好,它以对话框的形式提供用户对于数据库内容方面的反馈和互动。

(5)数据库的推广。我们需要更新观念,打破传统的被动服务模式,在现实的档案服务工作中如此,在网络环境下的档案服务也同样要变被动为主动。档案全文数据库的建立是为了给更多的用户提供更加优质、便捷的服务,前提是用户知晓这个服务平台的存在,这才创造了后续使用的可能。这就要求我们不仅要重视数据库的建设,也不能轻视数据库的使用推广,这样才能真正发挥数据库的作用,实现为更多档案用户服务的最终目的。

注释:

①李明伍,吕先竞:《特色数据库系统建设评价指标分析》,《现代情报》2008年第1期:81-84。

②汪徽志,岳泉:《网络数据库评价指标体系构建》,《情报科学》2008年第4期:59-62。

③叶佩珍:《网络数据库评价标准探讨》,《科技情报开发与经济》2007年第8期:8-10。

④THDL词频分析示意图,摘自THDL系统功能说明.http://thdl.ntu.edu.tw/THDL/HelpDocs/html/2.htm.[2010-5-15]

标签:;  ;  ;  ;  ;  ;  

基于历史数字图书馆档案数据库与国家安全档案数据库全文档案数据库的比较研究_全文数据库论文
下载Doc文档

猜你喜欢