大数据时代下数字档案馆面临的机遇与挑战,本文主要内容关键词为:档案馆论文,机遇论文,数字论文,时代论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
大数据的概念于20世纪90年代被提出,最初只是对一些在一定时间内无法用传统方法进行抓取、管理和处理的数据的统称。随着时间的推移和技术的进步以及网格计算、云计算、物联网、移动互联网和SNS的兴起,每年产生的数据量都以几何级数增长,IDC Digital Universe in 2020报告预测全球产生的数据在2020年将达到40ZB,在这急剧增长的数据环境下,大数据的内涵也发生了重大变化,业界通常用4V①——Volume,Variety,Value和Velocity(即数据体量巨大、数据类型多样、价值密度低和处理速度快)来区分大数据和传统数据。
目前大数据时代已经到来,其相关概念、标准、技术等已经在物理学、生物学、环境生态学等学科领域和军事、通信、金融等行业得到了普遍应用,从本质上来说,大数据主要解决的是海量数据存储、计算、挖掘和展现的问题②。对于正在建设的北京数字档案馆来说,如何充分利用“大数据”相关标准、技术和软件来建设整合档案数字资源,是提高数字档案馆的建设品质、加强档案数字资源管理水平、挖掘档案数字资源数据产品、提升档案业务创新能力的关键。在此背景下本文分析大数据对数字档案馆建设带来的影响与挑战以及大数据对数字档案馆建设的重要性,重点探讨了大数据背景下,北京数字档案馆建设的若干应对策略。
大数据背景下数字档案馆的建设
我国的国家档案资源主要是由国家综合档案馆长期保存,实行分级集中管理的体制。近年来,国家、政府、各级档案行政管理部门都非常重视档案数字资源的收集、保管和利用,加大档案部门信息基础设施的投入、信息化系统的开发力度和应用实施的广度和深度,其中构建数字档案馆已经成为我国信息化建设中不可或缺的一项。数字档案馆的核心是档案数字资源,主要是指以数字形式存在的各类档案资源,包括各级各类在线生成并归档的电子文件即电子档案,和将各种载体的档案数字化后形成的所有档案数据及副本,以及各种因保管、利用需求而形成档案数据的集合③。在大数据环境下,随着档案信息化建设的深入开展,可以预见的是未来数字档案馆在建设中产生的数据和信息将呈爆炸性增长,若没有进行相应的规划和设计,档案数据“胀库”的现象一定出现④,因此如何对档案“大数据”进行有效的获取、存储、加工和利用变得越来越紧迫。
1.数字档案馆具有了大数据的特征
随着档案馆档案数字资源建设的加快,当前的档案数字资源已经呈现出了大数据特征。
首先,档案数据的规模“大”。目前馆藏数字档案数据已经从TB级别跃升到PB级别。当前北京市档案馆的一个主要工作就是全部馆藏档案数字化的工作,纸质档案(含图纸、地图)、照片档案、音像档案(含电影、幻灯片)用数字扫描形式转换;实物档案用数码拍照形式转换。据初步预计,若要完成当前馆藏所有的档案的数字化工作,其存储总量,将要超过10PB。此外,现在北京市各级部门都在大力开展信息化建设,每年所产生的档案数字资源,与以往相比,呈现爆炸式的增长形势。
其次,数字档案数据的类型“繁”。早期的数字档案馆的数据种类比较单一,往往只有少数几种,这些数据又以结构化数据为主。而现在,随着新技术发展,需要归档的数字数据的种类繁多,这些数据可能是结构化数据、半结构化数据以及非结构化数据,并且半结构化和非结构化数据所占份额越来越大。这些数据对处理分析能力提出了更高的要求。
第三,档案数据的价值“高”。海量档案数据中,数据价值密度相对较低,但数据的价值却极为重要。已经有很多例子可以证明,由于新工具的出现,从以前的小数据当中也能发现大的价值。如何充分把握大数据所带来的技术优势与数据分析方法,挖掘数字档案数据的潜在价值,比如通过强大的检索算法迅速地完成数据的价值“提纯”,是目前档案信息化亟待解决的难题。
2.大数据对数字档案馆建设的影响
在当前数字档案馆的建设中,数据处理的主要工作就是将当前的异质、异构档案资源进行数字化处理,主要包括数据的采集、传输、存储、计算、挖掘、展现等多个方面。随着大数据时代的到来,过去数字档案馆系统的体系架构与数据存储结构正在发生变化,以提供档案查询作为主要服务的档案馆传统业务正面临着冲击和挑战。本文主要从档案“大数据”的获取、大数据平台的建设、档案“大数据”的分析以及档案“大数据”的应用四个方面进行分析。
(1)档案大数据的获取。考虑到档案数字资源的复杂性和多样性,从技术实施上来看,档案大数据的获取主要从两个维度来考虑:数据结构类型和实效性要求。从数据结构类型上考虑,要同时支持结构化数据(来源于关系型数据库)、半结构化数据(来源于格式化文件如XML)、非结构化数据(电子照片、音频文件、视频文件等)⑤;从时间上考虑,要同时支持定期同步的方式和实时数据流的方式。另外,从档案数字资源主动和被动的角度考虑,大数据获取还需要同时支持数据的抓取和数据的推送接收功能。
(2)档案大数据平台的建设。档案数字资源庞大、类型繁多、结构复杂,在大数据获取之后,如何存储、管理和处理这些海量的数据,将是大数据平台层面需要完成的主要工作。由于大数据并不提供一整套完整的解决方案,因此档案大数据平台的建设可以基于现有的IT基础设施进行建设,比如数字档案云平台。但是云平台与大数据是有区别的,云平台侧重的IT基础设施的建设,而大数据侧重的是业务的改变,大数据平台需要有云作为基础架构,才能够顺畅的运营。需要强调的是,档案大数据平台需要建立起服务于海量异构异质数据的底层存储实现以及分布式的系统架构,涉及的技术主要包括存储、压缩、归档、数据的生命周期管理等。并且,当数据量超过当前服务器承载能力时,档案大数据平台的数据存储应满足可扩展性和可用性的要求。此外,档案大数据平台还要支持大数据分析和大数据应用的基础实现。
(3)档案大数据的分析。档案数字资源中,不同的档案数据中蕴含的价值是有差异的,不可避免的会导致用户获取有价值的信息的难度增大,因此大数据时代,急需的是对信息的区分和对联系的发现,从多维度、多方面再对档案大数据进行分析和挖掘,通过提纯转变为对数据的洞察,使得大数据的特性与优势能够在日常的生活中凸显出其巨大的优越性,并且支持对各种数据进行聚合分析,作为传统档案业务流程的改进的依据。
(4)档案大数据的应用。知识管理是档案管理发展的趋势和方向,档案用户已不满足于仅限于数据或文件的利用,更希望能够获得数据背后的信息以及信息蕴藏的知识,这就对档案大数据的应用提出了更高的要求。因此档案大数据的应用,可以针对档案业务的难点,在保证档案数据的凭证性基础上,从档案数据的源头进行规范,建立起一套逻辑结构元数据和档案业务元数据系统来进行数据的约束和维护,基于此实现档案数据的关联分析、元数据查询、档案数据的查询等功能。此外,为了展现海量档案数据的查询结果的多样性、多角度、多层次,也需要应用数据可视化的相关技术。最终的目标就是提高民众的档案信息获取能力,保障信息获取公平,实现信息获取环境最优化配置。
3.数字档案馆在大数据时代面临的挑战
随着大数据应用的深入和档案业务的发展创新,档案大数据平台将会面临新的挑战,主要有三个方面:
在档案大数据的分析方面,如何实现大数据处理方法和工具的简易化和自动化将是一个很大的挑战。随着大数据时代的到来,半结构化和非结构化数字档案的数据量会迅猛增长,将会给传统的分析技术带来巨大的冲击和挑战。
档案大数据的可视化处理。可视化技术是最佳的结果展示方式之一,通过清晰的图形图像展示直观地反映出最终结果,最终结果的展示应充分体现可视化的原则。
挖掘档案大数据的潜在价值、大数据技术的意义不仅在于掌握庞大的数据信息,同时需要对这些含有意义的数据进行专业化处理,通过“加工数据”,实现数据的“增值”,如何挖掘这些数据并从中获取价值,是数字档案馆建设面临的挑战。
大数据技术在数字档案云平台上的实践
北京市档案局在“十二五”期间立项建设基于云计算技术的区域性数字档案馆,从北京市档案信息化应用现状出发,分析存在问题,探索云计算环境下区域性数字档案馆的若干关键技术以解决电子档案的凭证性保护和安全保管等关键性问题,目前已经初见成效。
对于大数据技术与云技术之间的关系,EMC的大数据和存储专家、EMC资深产品经理李君鹏认为,大数据本身就是一个问题集,云技术是目前解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。微软公司张亚勤博士认为“云计算与大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用”。云计算是大数据成长的驱动力,而另一方面,由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理,所以二者之间是相辅相成的。
但是这里面存在几个关键点:
首先,由于数字档案馆所提供的各种数字化档案服务业务对数据的依赖越来越重,这对数据存储提出了更高的要求,所以数字档案馆应具有如下特点:
高可靠性:所存储的档案数字资源需要多套备份,包括异地备份,保证数据不会丢失⑥;
高可用性:应当提供7×24小时服务,保证服务不中断;
高扩展性:提供透明升级扩容服务,保证服务不受限制;
高安全性:严格遵守档案数据安全级别的要求;
高性价比:成本价格可控,尽量降低成本。
其次,是大数据的收集。要对收集汇总而来的档案数据附上时空标志,去伪存真,尽可能收集异源、异构、异质的数据,必要时还可与历史数据对照,多角度验证数据的真实性、全面性和可信性。
第三,是档案数据凭证性的维护。这其实也是复杂档案数据的处理,由于档案数据的元数据信息可能涉及上百个属性信息,此外,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,为了保持档案数据的凭证性,必须做有针对性的处理。
第四,是结果的可视化呈现,使结果更直观以便于洞察。
参考其他行业的一些大数据实施方案,本文在数字档案云平台基础上研究大数据技术的应用,在现有的云计算设施基础上,采用Hadoop开源架构、分布式数据库、分布式缓存等大数据核心技术,重点从档案数字资源的数据采集、传输、存储和处理等方面进行规划设计,使之能够满足未来档案大数据平台建设的需要,其技术架构如下图片所示。
从系统建设角度看,档案大数据平台是体系内部的集成服务商,通过使用云平台提供的服务与组件,将档案数字资源管理的制度条款、业务流程和管理要求融入到应用系统中,为数字档案管理业务的实现提供一个高度集成的协同工作平台和应用软件系统。
从业务处置角度看,档案大数据平台是业务代理商通过应用程序和各种平台工具在系统中自动地、智能地执行业务部门发来的指令,并返回执行结果。
从档案数字资源保管角度看,档案大数据平台是存储服务商,为档案数字资源管理提供柔性可扩展的网络空间,是档案数字资源持续保存和永久保管的虚拟库房。
从技术服务角度看,档案大数据平台是运维服务商,通过建立专业的IT运行和维护团队,使用智能化的管理平台,为开展数字档案管理的各个层级和各个环节的业务人员提供可信的网络环境、可用的IT资源和及时的技术支持和应急响应服务。
档案大数据平台的技术架构图
总而言之,档案大数据平台应该能够提供集约化综合服务,包括“档案数字归档分析”、“虚拟档案馆”、“虚拟档案库房”等服务,最终面向社会提供与数字档案馆业务相关的多元化的公共档案基础服务。
大数据的4V特性给档案资源的数据采集、传输、存储和处理带来了很多的挑战,本文结合数字档案馆业务在分析了大数据的相关概念、内涵和特点的基础上,重点探讨了大数据对数字档案馆建设的影响,在实践中通过建立档案大数据平台,研究云技术与大数据技术结合的可行性,从中也发现了一些问题并进行了深入分析。但是数字档案馆的大数据平台建设及服务是一项复杂的系统工程,涉及数据管理的水平、数据处理的技术及数据服务的创新等多个方面,只有在实际业务运行中检验效果。总的来说,目前对于在档案领域大数据的研究仍处于一个非常初步的阶段,还有很多基础性的问题有待解决。后续我们会在这个领域做更深入的研究,也希望这些探索能给大数据研究同行学者提供一定的参考。
注释:
①Barwick H.The “Four Vs”of Big Data.Implementing Information Infrastructure Symposium [EB/OL].http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data
②百度百科.大数据[EB/OL].http://baike.baidu.com/view/6954399.htm
③陶水龙.基于流程管理的电子档案安全策略的探讨[J].《北京档案》,2012(1)
④张健.档案数据库“胀库”问题研究[J].《档案学通讯》,2012(4)
⑤李生琦,徐福缘,徐莹.一种结构化数据和半结构化数据的统一集成模型[J].《计算机工程与应用》,2004(15)
⑥陶水龙.档案数字资源云备份策略的分析与研究[J].《档案学通讯》,2012(4)