档案数据库质量控制的内涵与策略_数据库系统论文

档案数据库质量控制的内涵与策略,本文主要内容关键词为:质量控制论文,内涵论文,策略论文,数据库论文,档案论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       [中图分类号]G270.7

       当前,在档案领域开展基于大数据的各种研究比较活跃,普遍关注如何从汗牛充栋的档案资源中挖掘所需要的信息,其中很多研究都直接针对档案原文资源进行大数据技术分析。笔者认为,档案数据库是档案大数据的核心组成部分,大数据研究不能忽略长期以来已积累的大量档案数据库基础,档案数据库本身就是档案资源的“富矿”,是档案资源数据化的具体体现,因而现阶段再次关注档案数据库本身的质量具有相当的现实意义。

       事实上,当前档案数据资源多数是以数据库形式存在并提供利用的,其质量的好坏直接关系到档案信息系统的效果,由于档案数据库的记录不完整、数据不准确、表达不一致等质量问题导致的查询效率问题一直是困扰档案信息利用服务进一步深入的主要障碍。

       笔者在CNKI中文期刊全文数据库和维普期刊资源整合服务平台中查阅了2000年以来与档案数据库质量控制相关的文献,了解到目前对档案数据库质量控制的研究成果较少,主要集中在以下方面:

       (1)档案数据库质量问题表现。档案数据库存在的质量问题,主要表现为用户需求不明确、建设标准不统一、建设周期长、数据难以共享等①。孙瑾提出,档案数据库的建设现状和存在问题为建设目的不明确、利用需求不明晰、建设标准不统一、建设能力有差异、建库质量有高低、数据共享不给力②。

       (2)档案数据库质量控制措施。钱毅③认为档案分类理论对档案数据库的建设起着导向作用,有利于在来源单位层次上建立实体数据库,同时利用视图、索引等数据库对象对内容实施逻辑管理,使档案管理理论中的“二元主义”——逻辑主义和历史主义得以在数据库建设中融合。全宗内部档案的差异化管理需求要求建立相对独立的档案数据库,并提出了自由来源原则为专门档案的数据库建设提供理论基础,逻辑主义分类思路适合档案数据库的内容管理等观点。在质量管控措施上,贾慧娟认为需要分为前期、中期和后期分别进行质量控制。针对档案数据库的具体问题中标准不统一的问题,钱毅建议通过对标准规范的分析④,提出档案数据库标准体系构建的建议⑤。

       在通览相关文献后,笔者了解到目前国内学术领域对档案数据库质量问题的总体研究关注度不足、研究不深入。笔者拟通过对档案数据库质量的内涵与控制措施进行论述,以期引起档案数据库生产者与研究者的重视。

       1 档案数据库质量的内涵

       档案数据库是包括档案实体信息、管理信息、应用环境信息在内的各种类型数据按照特定数据模型进行组织的数据集合,本身就是一个由多种对象组成的复杂体,对其质量问题的认识应根据不同的对象类型进行相应的界定与分析,主要的角度包括:

       1.1 基于数据的角度

       数据可以按照属性—属性关系—属性值三元结构来进行理解,其中平时经常提到数据(狭义)主要是指属性值,属性关系包含了属性之间的内在联系以及约束条件。因而在对数据质量进行评估时应从上述三个方面进行分析,即从“属性”的选取质量、“属性关系”的表述质量和“属性值”的取值质量等方面进行判断。

       1.2 基于关系的角度

       由于系统中的档案数据库几乎都是关系型数据库,其基本单位是关系(即表)。关系中各个属性的组合称为关系模式(即常说的表头或数据结构),除表头外的其他行称之记录。其中,典型的模式层设计质量问题包括缺乏用户自定义约束、缺乏唯一性约束、缺乏参照完整性约束、属性依赖、命名冲突、异构、结构冲突等。记录层的质量问题包括数据录入错误、无效数据值、重复记录等。

       人们一般关心数据库中的记录层的质量问题,但事实上一个数据表的质量问题在很大程度上是由模式层决定的。良好的模式设计能对数据记录起到质量把关的作用,如实体完整性可以防止重复档案记录的产生、参照完整性可以阻止多种脏数据、用户自定义完整性可以根据用户的需求灵活地控制数据值的输入范围等。

       1.3 基于数据库的角度

       从数据或者关系的角度分析档案数据库的质量都是从微观的角度进行的,对于一个具体的档案部门而言,采用此类微观的质量结构进行分析能够较好地保障本地数据的质量。随着档案信息化普及程度日益加深,各地各单位都在建设各自的档案数据库系统,因此对档案数据库的质量控制需要基于社会信息资源共享利用的前提对档案数据库进行宏观层面的整体质量控制,保障档案数据库共享机制的顺利实施。

       2 档案数据库质量问题产生的原因分析

       2.1 数据库的信息提取方式是数据质量问题的主要来源

       对于以著录描述信息为主的档案数据库而言,其数据都需要经过“三个世界”的转换才能最终形成,如图1所示。即客观世界中的原始档案材料经过信息世界(即人的头脑中形成的概念)的理解后再以计算机能够识别的方式进入数据世界。很显然,一个档案数据模式的获得至少需要两次映射过程。第一次映射主要依赖于管理者的知识结构,通过标准、规则、实施办法以及反复训练等手段,我们可以使不同管理者拥有相对稳定的共同的结构,如通过学习著录规范和元数据标准,我们可以提取一份档案的各类属性值。第二次映射则是根据已有的“共同结构”将概念实例转化到数据库中。这个具体化的过程要求我们用字符、数字、文本、图像等类型来表达各属性值,很显然,这个过程需要一定的规则和技巧才能保证数据记录的一致性。

       可以认为,数据库对信息的提取方式是档案数据库表达信息的一个无法排除的系统误差。

       2.2 复杂的数据库设计可能导致档案数据库存在设计误差

       “在目前,数据库设计既是艺术,又是科学”。数据库设计是一门相对专业的工程,需要基于功能强大的数据库设计工具支撑来开发数据模型,需要将数据建模与档案业务规则有机融合的设计技巧。由于模型的刚性。数据库设计还是需要管理者良好的判断力,但事实证明,“良好的判断力经常属于旁观者”⑥。

       由于数据库并不纯粹是数据的集合。还包括数据之间的各种联系和约束。具体到档案管理环境中。如何将档案数据内部、档案数据与外部环境之间的联系和业务规则科学地表达出来是档案数据库设计者不可回避的课题。由于诸多的因素,这些业务规则在目前的档案数据库中体现得并不充分。最典型的情况是由于设计者知识结构的关系,档案管理者缺乏数据库的建模知识,数据库设计者对档案业务也深入不够,造成业务规则缺失,不完整、不系统,甚至相互矛盾,都有可能造成档案数据库的先天缺陷。

      

       图1 数据库的“三个世界”

       2.3 数据库不能完全满足档案信息管理方式的演进需要

       目前,档案信息检索已经从精确定位向概念搜寻转变。普通的档案用户不了解高度规范化的检索语言,他们使用自然语言进行提问,需要返回的往往并不是某个具体的检索值,而需要更为宽泛的信息反馈。为了得到这个结果,往往需要专门的用户导航设计,信息检索过程并不限于传统的目录、索引、摘要,需要从大量全文信息中进行查找。而传统的数据库是基于结构化数据的管理系统,对于一般用户基于自然语言的非逻辑检索的处理比较吃力,难以同时兼顾查准率和查全率两项指标。

       3 档案数据库质量问题的主要表现

       档案数据库建设中存在为数众多的质量问题,针对这些问题人们也采取了有关的质量控制措施。按照档案数据库中档案数据生命周期的大体框架,笔者简要归纳了各环节主要的质量现象及其控制措施。

       4 档案数据库质量控制的主要策略

       可以看到,由于档案数据库的质量问题涉及整个数据库生命周期管理的全过程控制,涉及众多的管理环节和人员,如果对质量控制没有一个整体的认识,采用头痛医头、脚痛医脚的简单方式是难以奏效的,因此需要从系统的角度对数据库质量进行综合评价,并采取基于标准体系的质量控制体系来进行。

       4.1 开展档案数据库质量评价

       档案数据库质量评价就是对数据库的质量及其运行效率和价值进行科学测定,这个工作是发现质量问题并评价质控措施的前提。由于数据库本身是一个复杂的系统,除了数据内容本身外,还与工作人员的工作质量、各类用户的使用需求息息相关,因此针对数据库质量的评价应该在综合指标框架的指导下进行。数据库质量评价通常采用分层法来进行,分层法是美国运筹学家T.L.SAATY在上世纪70年代提出的⑦,是用于分析影响质量因素的重要方法。运用改进的分层法可以对数据库系统的质量进行评价,为便于论述,笔者将该框架中的准则划分为数据质量评价、系统性能评价和系统效益评价三方面。

       4.1.1 数据质量评价 数据质量是数据库质量中最重要的部分,一般通过准确性、一致性、完整性、规范性、稳定性等指标来进行描述。数据质量是通过数据收集、数据识别、数据标准化、数据清理等多种手段来实现的,涉及技术、设计、业务流程、基础设施和人员操作。

       4.1.2 系统性能评价 系统性能评价主要关注对数据库系统的软硬件环境、数据管理和维护能力的评价,通过系统性能评价指标把握档案数据库系统的技术状态和综合管理能力,为针对性管理措施的采用、档案数据库系统选型和升级提供基础材料。

       4.1.3 系统效益评价 档案数据库系统效益应当是对数据库的投入和档案数据库对社会信息需求的有效满足程度之间的比较关系。档案数据库的建设投资相对而言是可审计的,但档案数据库的效益则由于档案信息利用具有多维性、间接性、长效性、扩散性等特点而难以测算,因而档案数据库的系统效益在很大程度上都是以间接效益的形式出现,且不单以经济效益的形式出现,更多的还表现在社会效益方面。

       可以看到档案数据库的评价指标中有不少难以测算并量化,因而构建一个以数值指标为主的指标体系来衡量档案数据库的质量是不现实的,在进行实际评定时往往需要结合机构情况、管理现状和专家经验来进行。因此利用档案标准体系实现对档案数据库的评价和质量控制不失为一条可行之路。

       4.2 构建以标准体系为基础的档案数据库质量控制体系

       质量管理领域的大量事实证明,对产品的质量控制行之有效的方式就是依据控制体系进行综合管理。对档案数据库整体控制的一个有效策略是对数据库构建依赖的标准体系进行分析把握。目前已有不少从软件工程角度对数据库建设活动进行管理的质控模型,如SQM模型⑨。而对于一般情况下我们着重关心档案数据库的内容质量特征则未有系统体现,因此通过分析档案数据库实施所依据的标准体系,能够对档案数据库的整体模式进行把握。通过研究标准体系组成成分及其实施情况,关注该体系对档案信息共享的支持程度,就能在模式层面对档案数据库的质量问题进行基础诊断,从而对症下药,保证档案数据库的健康发展。

      

       4.2.1 标准体系是多种质量控制要求的集中体现 从根本上说,标准本身就是质量控制的一种手段,标准体系是多种质量控制要求的集中体现,符合一定标准体系的就可以被认为达到了相应的质量要求。因为标准本身就是按照法定程序,作为工作或工作成果的衡量准则、规则或特性要求,可以看到标准本身就是某种“衡量准则”。因而采用已有的标准来进行质量控制是合理的、经济的。基于此,根据档案数据库建设的现状,应当加快某些重要标准的建设步伐,并进一步形成标准体系,使档案数据库的质量具有综合保障的基础。

       4.2.2 基于标准体系构建质量控制体系 在标准体系的基础上构建质量控制体系的可行性较强,这是由二者大量的共性决定的。它们的设计原理一致、目标和管理对象一致、相互依赖程度高,因此在二者之间进行转换的过程相对平滑,可行性强。

       4.2.3 基于不同业务模式下的标准体系进行构建 在档案数据库标准体系中我们需要根据其业务模式划分不同类型,如可根据文件生命周期将其划分为档案室模式和档案馆模式,也可根据档案内容划分为机关档案业务模式与企业档案业务模式等。不同模式的工作内容、管理需求和技术规范都存在差异,在构建相应的质量控制体系时就应该基于特定的业务模式进行。如档案室模式下的质量控制重点在数据著录质量方面,对于数据项的质量控制要给予特别关注;档案馆模式则更关注数据格式质量,关注不同数据格式之间的兼容转换质量。

       4.2.4 标准体系的发展为质量控制带来新的内容 标准体系动态性表现在微观和整体层面上都有可能发生变化,在构建质量控制体系时应随时关注标准体系的变化并进行调整。微观层面的变化表现在标准修订、标准引入、标准废止等情形,如个别代码标准的引入会直接影响到具体数据项的值域内容,但对标准体系整体结构和功能的影响有限。但如2006年发布的《中国档案机读目录格式》、2009年发布的《文书类电子文件元数据规范》等对档案数据库的建设具有重大作用,前者首次在档案领域引入机读目录格式,对于规范馆际数据交换格式,建立联合目录等都具有重大意义,实施该标准需要大量相关规范的配合,对标引工作乃至标引人员都提出了许多新的要求:后者也是首次在档案数据管理领域引入元数据方案,对于相关档案数据的采集提出了系统性规定。

       4.3 利用标准体系控制质量便于实施

       同时由于质量控制体系是档案管理人员进行数据库质量控制的重要工具,其表达方式应本着简明、清楚、方便的原则进行,而这正是利用标准体系构建质量控制体系的一大优势。利用标准体系进行构建,可以从标准体系本身的多种维度中获得良好的体系结构保证,更能从大量基础标准中获得控制的方法和指标。但二者在表现形式、功能、执行方法上还存在差异,需要灵活采用多种方式才能将标准体系中的质量控制内容转换为具体的、可操作的措施或指标。最基本的转换方式主要包括嵌入式和改写式两种方式。

       4.3.1 嵌入式 即将标准体系中具体的、可操作性强的质量要求嵌入到档案数据库系统中,采用这种方式可以将质量控制要求与技术手段进行高效融合,实现质量控制要求的系统自动实现,避免人工错误。如《档案著录规则》、《文书类电子文件元数据方案》中关于档号、保管期限、稿本等基本数据项的值域要求都可以采用这种方法,根据代码标准事先制作这些项目值域的代码表用于取值控制,从而排除了错误取值的质量问题。嵌入式的实现可根据具体的软件环境采用不同的方式实现,我们可以将质量要求嵌入DBMS的各种约束机制中,也可以在嵌入到具体的应用程序中,采用诸如下拉列表等形式实现。

       4.3.2 改写式 由于标准体系和质量控制体系在功能定位和表达方式等方面存在差异,对同一个质量问题的描述可能存在较大差别,因此应基于标准体系中的描述进行改写,使其符合实际的工作环境。如档案主题标引、分类标引工作,需要参考《档案主题标引规则》、《档案分类标引规则》、《档案主题词表》、《中国档案分类法》等标准进行。在实际工作环境中一般并不直接使用这些标准,而是结合具体的人员安排、工作环节、标引流程,结合校对、审核等质量控制措施形成专门的标引质量控制程序。

       注释:

       ①孙瑾,郭彦军.档案专题数据库建设热的冷思考——构建基于质量控制理论的档案专题数据库建设流程[J].档案学通讯,2012(5):67-70。

       ②贾慧娟,李建杰,郑晓云.档案专题数据库建设的质量控制研究[J].兰台世界,2010(7):11-12。

       ③钱毅.档案管理理论对档案数据库建设的影响分析[J].北京档案,2009(2):20-22。

       ④钱毅.档案数据库的规范和质量控制[J].档案学通讯,2007(5):53-56。

       ⑤钱毅.档案数据库标准体系的构建[J].北京档案,2007(5):24-25。

       ⑥Peter Rob,Carlos Coronel.数据库系统设计、实现与管理[M].6版.张瑜,杨继萍,等译.北京:清华大学出版社,2005:24。

       ⑦徐罗丁.建立数据库系统的综合评价体系[J].情报探索,1995(2):6-8。

       ⑧汤涌,赵立.国家档案馆引入ISO9000质量管理体系的实践[J].浙江档案,2004(3):31。

       ⑨即Software Quality Metrics,SQM,是从整体出发对软件产品的质量进行评价并指导软件的开发。影响较大的SQM模型是McCall模型和ISO模型。

标签:;  ;  ;  ;  ;  ;  ;  

档案数据库质量控制的内涵与策略_数据库系统论文
下载Doc文档

猜你喜欢