浅谈数字档案的云存储_云计算论文

浅谈数字档案的云存储_云计算论文

论数字档案云存储,本文主要内容关键词为:档案论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

来稿日期:2013-06-20

1 引言

云计算是以互联网为基础的信息化深层次发展的产物。自1946年世界上第一台计算机发明以来,计算机的数值计算功能逐渐向数值计算与信息处理并重的功能方向转化。随着计算机应用的不断深入,信息处理功能在计算机应用中所占的比重越来越大。为了满足信息资源共享的应用需求,将多台计算机组成网络就成为一种必然。

上世纪60年代末,夏威夷大学应用共享数据传输通道思想研制了一种无线电网络并命名为ALOHA系统。1972年,美国施乐计算机研究中心基于该网络构建思想设计实现了全球第一个个人计算机以太(Ethernet)局域网并命名为ALTO ALOHA网络。在此期间,美国基于网间网构想并于1969年开发成功ARPA(Advanced Research Projects Agency美国国防部高级研究计划署)网,并发展成为今天的Internet网络。

计算机互联网的不断发展和成功应用,引发了“网络即计算机”(The Network is the Computer,Sun Microsystems,1983年)的网络资源共享思想,IBM公司则在上世纪80年代对其客户实现了通过备用计算机进行远程计算和服务的功能,这些都是云计算发展的雏形。

2006年,有人将因特网络中众多分散并互连的计算机称为云,对该云进行组织并实现网络远程运算和网络远程存储的功能称为云计算。可见,云存储是云计算的重要组成部分。也有学者认为,云存储是在云计算概念下延伸出来的一种新概念,云存储技术包含了分布式文件系统技术、网格技术、集群应用等技术,将分散在网络中的各种存储设备整合在一起,为用户提供海量、统一和安全的网络存储[1]功能。

从面向应用的实际性角度看,云存储是云计算先行发展的领域。例如,一些公司推出的网盘、快盘、酷盘、云盘、云手机、E云盘、I云盘、密盘、纳米盘、天盘、随身盘、深盒、数据银行等形形色色的应用级云存储服务已变成现实。一些公司如微软、谷歌、亚马逊等推出平台级云存储服务也逐渐形成市场。

档案信息化进程与信息技术的发展具有跟进关系。从上个世纪80年代的单机版档案管理系统,上世纪90年代的网络版档案管理系统,到21世纪初的客户机/服务器档案管理系统,以及近年来的数字档案馆、虚拟档案馆、电子文件中心和机房数据中心建设等,信息技术最新成果在档案信息化进程中不断得到应用,提升了数字档案管理水平和层次。

2010年6月,国家档案局发布的《数字档案馆建设指南》(2010年)中,鼓励具备条件的档案馆探索采用云计算等先进技术为各立档单位提供软件服务和存储服务。2010年12月15日,中共中央书记处书记、中央办公厅主任令计划在出席全国档案工作座谈会时强调档案工作要密切跟踪和应用“云计算”等最新信息技术服务于档案信息化建设[2]。2012年5月8日,中国档案学会等联合主办了“档案云服务高峰论坛”,对云计算信息技术在档案信息化建设中的运用进行了专题研讨[3]。

上述举措充分说明,云计算思想在档案信息化的应用已得到高度重视并成为一种必然态势。然而,针对数字档案特点,如何合理运用云计算思想和相关成果构建数字档案云存储模式是应当加以思考的现实问题。

2 数字档案云存储的可行性分析

2.1 现有存储方式分析。随着数字技术和互联网技术飞速发展,档案数字化进程的加快,数字档案数量迅速增长,客观要求采用海量存储方式。冗余磁盘阵列技术(RAID,Redundant Array of Independent Disk)在一定程度上解决了这一问题。这种技术可以将多个硬盘组合成为一个大容量的硬盘作为存储设备加以使用。采用这种存储方式的存储设备与服务器的连接方式有三种,即直接附加存储(DAS,Direct Attached Storage)、网络附加存储(NAS,Network Attached Storage)、存储区域网络(SAN,Storage Area Network)[4]。

直接附加存储(DAS)是将存储设备直接与各种服务器和客户端扩展接口相连接的存储方式。该存储方式技术比较成熟、成本较小,但也存在数据管理的分散性、存储容量扩展的有限性、数据传输的局限性、服务器与网络资源的高消耗性等弱点。

网络附加存储(NAS)是将存储设备与服务器分离,作为独立文件服务器通过TCP/IP协议在网络中进行连接的存储方式。这种存储方式减轻了服务器传送数据的负担,有助于提高网络的整体性能和便于数据集中管理,但该存储方式只适合做网络文件共享用,功能受到一定限制。

存储区域网络(SAN)是通过集线器、路由器和交换机等连接设备将存储设备与服务器相连接的存储方式。这种存储方式具有海量数据共享、高速数据传递、配置灵活、备份效率高、安全与可靠性高等优点,也利于数据的集中管理,但文件系统仍存在于相应的服务器中。该存储结构很大程度上提高了存储性能,但投资成本会因此增加。

从上述分析可以看出,现有的存储技术在分散性、扩展性、共享性、功能性、经济性等方面均存在一定问题,还不适应数字档案快速增长和资源整合共享的存储需求[5]。另外,由于分散和重复建设,出现层次良莠不齐、资源共享度不高和服务能力不强等现象[6]。而云存储理念的提出,为化解这一矛盾带来了新的契机。总体上讲,云存储在技术、管理和经济上已经具备了数字档案存储的基本条件,下面作具体分析。

2.2 云存储技术上日渐成熟。云存储技术是分布式文件系统技术、网格技术、集群应用等技术的集成,后三种技术在理论和实践上都逐渐成熟。国际上关于云存储的两大研究项目Fedorazon[7]和DuraCloud[8]都已经完成,云存储技术也在项目进行中得到进一步完善。

数字图书馆云存储研究较早,有可借鉴的经验。例如,马晓亭等[9]研究了数字图书馆云存储应用系统并提出了构建该系统的模型。王伯秋等[10]研究了云存储在图书馆数字资源保存中的作用等。数字图书馆云存储与数字档案云存储的主要区别在于存储的内容不同,而技术具有互通性,可以相互借鉴。

2.3 云存储管理上方便实用。云存储将分散在各地的数字信息集中起来存储,可以动态查重,删除重复数据,管理十分方便。数字档案云存储把部分数字档案信息交由云存储统一管理,本单位无须额外配备专业的软件和硬件,也无需专业人员维护[11],可适当减少管理工作量。

数字档案云存储可分为四个层次:存储层、基础管理层、应用接口层、访问层。其中核心层次为基础管理层,基础管理层通过分布式文件系统技术、集群技术、网格技术来实现云存储中多个设备之间协同工作,使这些设备向用户提供统一服务[12],具有自动性和智能性,不会增加额外的管理负担。

2.4 云存储经济上节约增效。云存储可以动态扩展,按需求配置。各档案馆(室)可以根据需求来申请适当的存储空间,不需要太多投资就可以开展数字档案的存储工作。无须额外附加存储设施,也无需机房、硬件设备、温湿控设备等,相比于传统存储方式,降低了资金投入。存储系统的管理运行维护都由云存储提供商来完成,节约了管理运行维护成本[13],也提高了管理效率。

以上分析表明,面向海量数据、实时存取、资源整合、跨平台应用等新需求,传统的存储模式存在一定的局限性。云存储模式的成功应用为满足数据管理的新需求提供了手段。数字档案云存储的关键是实现传统数字档案存储模式向云存储模式的转变,具备了技术、管理和经济上的可行性。

3 数字档案云存储的优势和问题分析

3.1 数字档案云存储的优势。云存储具有公认的明显优势,主要表现在信息处理海量性[14]、数据管理低成本性[15]、性能与容量线性扩展性[16]、数据自我复制与修复性[17]、数据存取高效性[18]、数据共享广泛性[19]和用户访问透明性[20]等方面。数字档案云存储可以充分利用和发挥这些优势,包括:

第一,增强海量存储能力。采用云存储方案,数字档案馆系统的存储能力可大大增强且具有增长性,能够满足数字档案数量海量增长的存储需求。

第二,增强容灾、异地备份能力。云存储把数字档案信息放在不同的节点,当某一节点不能被访问时,系统自动将读写指令发送到另一服务器上的文件。同时,云存储可实现数字档案网络在线异地备份。以上两类功能可避免各档案馆(室)单独存储时遭遇停电、火灾、水灾等情况时可能带来的损失[21]。

第三,提升资源共享度。数字档案云存储能消除档案资源冗余,最大限度地提升档案资源共享度[22]。

第四,提升检索能力和档案信息服务能力。云存储为用户提供统一的、方便的检索接口,检索功能强。云存储涵盖广泛,冗余度小,也有利于提高检索效率。云存储可协助解决海量数据的计算处理和分析问题,并能协同开展“一站式”服务,档案信息服务能力[23]将得到显著增强。

3.2 数字档案云存储的问题。数字档案云存储有诸多优越性,也存在不可忽视的问题。这些问题主要表现在数据可用性安全保障的同时存在数据保密性安全[24]、数据管理方便的同时存在数据传输带宽受限[25]、相关标准规范和信任机制尚待完善[26]以及云存储供应商的信誉等方面。

数据保密性安全、管理规范性保障和服务可靠性承诺问题正是数字档案安全存储最为关键的问题。

第一,云存储平台的安全问题。档案的保密性以及档案工作的机要性都需要一个安全的环境。云存储基于因特网,而因特网的开放性会带来内部管理者、黑客、网络病毒等潜在威胁。如果将不能公开或暂时不能公开的数字档案以远程方式存储到云端,必定引发管理者的担忧。目前,云存储软件、资源和平台还无法对此提供值得信赖的可靠保障。

第二,云平台差异和云商问题。为确保档案记录的原始性,数字化保存系统必须在各个层面提供存储的长期性、完整性、准确性、系统性和安全性保障。然而,互联网的云存储供应商开发的云存储机制多样性、云商信任度的差异性、云商间的竞争性等现象均可能导致云存储服务在安全性、可信性和稳定性方面出现问题。

第三,云存储的技术标准问题。在技术层面,对于长期有效存取数字档案,尚存在诸多待解决的问题,其中之一就是技术标准问题。目前,在全球范围内尚未形成一套公认的数字档案信息长期保存标准[27]。

第四,虚拟环境信息安全问题。虚拟环境信息安全包括两个方面,一个是数据可用性安全,另一个是数据保密性安全。

在云存储数据可用性安全方面。云存储模式下,数字档案的存储位置没有确定的地点,会造成用户对数字档案存储地的担心。对于一些机要档案的访问,如果云存储管理出现问题,可能导致用户不能掌握自己的访问权限。如果云端数字信息出现部分损坏或全部损坏,云存储提供商是否有能力恢复数据,需要多久才能恢复都具有不确定性。当数字档案云存储量增长过快,现有的存储不能满足需求时,云存储提供商能否同意它的用户将数据全部安全地迁移也存在不确定性[28]。

在云存储数据保密性安全方面。如果将用户涉密数字档案保存到云端,这些涉密数字档案的访问以及使用可能不再受用户控制;如果云存储中存储了多用户的数字档案,这些数字档案本身应该是隔离的,云存储提供商能否确保涉密数字档案不能被其他用户访问等,这些问题都会引发用户对数据秘密保护的担忧。

数字档案云存储保密性安全问题的出现与云存储提供商服务条款和约定也有很大的关系。例如,谷歌规定当用户注册使用Google Drive时,用户所有上传的资料即授权谷歌以及与谷歌合作的公司具有在世界范围内使用、托管、存储、复制、修改、再创作、传播、出版、公共场合演示或分发资料的权利。用户授予的这些权利不仅会用于已有服务的运行维护、产品升级和服务提升等方面,而且可被用于开发新的服务;即便用户停止使用,该服务条款仍然生效,即谷歌保留了用户的许可[29]。这样的服务条款是不能为数字档案云存储所接受的。

3.3 数字档案云存储安全保障对策。通过数字档案云存储存在问题分析,发现云存储仍然存在安全问题、信任问题、规范问题,也有单方服务条款和网络带宽受限所带来的问题等,而最为突出的是入云数据的安全问题。下面结合相关研究成果,探讨可用性和保密性各类安全的保障措施。

3.3.1 可用性安全保障对策。解决数字档案云存储可用性安全问题有安全访问接口、安全存储机制、安全分级保护和安全数据备份四种途径。

第一,安全访问接口。由于云存储本身的特征,使用同一用户账户可以通过不同终端登录并访问用户数据。一旦密码失窃,会对所存数据造成各种危害。设定安全访问接口十分重要,可以借鉴网络数据传输的安全手段,如动态密码、数字认证、数字签名或者综合使用两种甚至两种以上安全措施,以此保证数据访问的安全性。

第二,安全存储机制。如果存储系统本身不具备良好的数据保护功能,数字档案很容易受到黑客攻击、病毒感染或非法入侵,造成档案数据丢失、恶意篡改等严重问题。可以通过硬件、软件或者软硬件结合的方式实现数据保护。如通过自加密磁盘、加密软件、分布式文件系统安全技术等提高安全存储性能,以此确保存储系统的安全性。

第三,安全分级保护。对于云端数字档案,可以根据机要性的高低,设置相应的安全级别。对有一定浏览限制的档案,设置较高级别进行保护;对于可社会公开的开放档案,可以设置低级别。对于只针对某一类群体开放的数字档案,可设置对其他群体禁止访问的安全级别进行保护。总体来讲,安全分级保护就是根据用户的安全需求,来匹配相应的安全等级,这是云存储需要考虑的问题,也是保证数字档案云存储安全的重要手段。

第四,安全数据备份。数据备份在数据存储领域一直都占有重要地位。在数字档案云存储模式下,可以利用云存储的这一功能增强数字档案的安全性,以确保原始数据信息在受到破坏,甚至丢失情形时能够迅速得以恢复;也可以采用异地备份的方式,将备份放置于存储系统之外,提高备份的可靠性[30]。

3.3.2 保密性安全保障对策。解决数字档案云存储保密性安全问题有很多途径,如通过建设国家和地区数字档案私有云形成自主云平台、通过加密机制增强云存储服务平台的可信性以及通过制定安全标准和安全保密协议对云平台中的数字档案信息存储与访问行为进行规范等。

其一,建立国家或区域数字档案私有云。一些学者提出建立全国档案系统私有云[31]。把每个档案馆(室)的涉密数字档案加密处理,标识出其唯一性,然后将这些涉密档案集中起来,建立全国性的数字档案私有云存储。通过提高私有云存储的安全级别并从数据收集、加密、存储、备份、访问、使用等方面加强监管以确保数字档案的保密性安全。

其二,建立可信云存储平台。有文献作者提出基于同态加密技术的云数据存储、数据加密、解密以及检索技术[32]或采用“对称加密+嵌入式的非标准编码解码器”技术[33],使数据以乱码方式传递,只有信息所有者才能恢复的方案;有的采用校验分块的索引方式,使用户信息和数据分开,以避免敏感用户信息的泄露;有的提出通过数据加密技术建立可信平台来解决海量数据信息的安全存储、高效检索以及智能处理问题的方法;有的认为可以通过设计可信虚拟平台的数据封装方案,解决数据的安全问题和避免传统平台对硬件的依赖性[34],等等。总之,通过一定的加密手段对数据进行处理,对增强云存储的可信度具有积极作用。但是,涉密档案不放入云端则是最安全的措施。

其三,制定安全标准和安全保密协议。通过制定数字档案云存储技术标准和安全保密协议,规范数字档案云存储[35]。

4 数字档案云存储的建设原则

数字档案云存储建设首先应遵循云存储构建的统一部署、标准化、虚拟化、弹性化、自动化、可扩展、高共享、分布管理和资源整合等原则与要求。在此基础上,还应考虑数字档案本身的特点,制定数字档案云存储的建设原则。基于上述对数字档案云存储安全问题的讨论和对策分析,数字档案云存储建设中应当将其纳入规划并具体体现在实施原则中,提前做好安全防范工作。具体讲,数字档案云存储建设应遵循云存储理念的应用性、云存储规划的统筹性、云存储资源的适用性和云存储目标的共享性四个原则。

4.1 云存储理念的应用性原则。云存储理念的应用性原则简称云应用原则。云应用原则要求数字档案云平台的构建应以云应用为理念,避免对云商的过分依赖。一些学者在探讨数字档案云存储过程中,强调将数字档案资源集中到云供应商所搭建的云计算平台(云端)中以实现资源的整合,并利用该云计算平台所提供的存储功能、计算功能和服务功能实现对数字档案资源的全程管理,在利用上按云平台的“一站式”资源共享功能加以开展[36]。这种理念的核心内容是档案部门专心资源建设,其余交由云商解决。

这种云依赖或许有分工协作带来的增值效用,但过分依赖也会产生一些不可预料的后果。如从一个云迁移数据到另一个云不便性问题、云商出现信任危机等情况时的数据完整保全问题、带宽限制产生时间响应延长导致使用效率下降问题,等等。

因此,应用云存储理念,以架构自主为基础,以建设私有云和使用公有云相结合,则可以有效避免因过分依赖带来的不利影响。

4.2 云存储规划的统筹性原则。云存储规划的统筹性原则简称云统筹原则。云统筹原则要求数字档案云存储平台建设应有计划、有标准、分层次、有重点、有试点、有分布、有布局地进行。在分析现有基础设施和系统资源的基础上,依托政务内网、政务外网和互联网,由内至外分层建立档案云存储平台,并实现原系统平台到云平台的自然转换过渡。

建成的云平台应具有环境虚拟、标准统一、分布合理、管理集约、云端共享、弹性供需、服务自动的特点,能够发挥云存储平台的资源集群服务优势,提高原有系统资源的共享率和利用率,提升平台的整体效能。

4.3 云存储资源的适用性原则。云存储资源的适用性原则简称云适用原则。云适用原则要求数字档案入云前应当经过分类鉴选加工过程。无论采用的是公有云还是有基础架构自主权的私有云,在保密性安全上的健壮性还令人疑虑且尚无法律保护依据的情形下,未开放档案放入任何云端均存在潜在的风险性。

因此,可以将数字档案划分为两类,即已开放档案和未开放档案。对于已开放档案可分为社会公开和内部公开两类,经鉴定和筛选后的社会公开档案可以传至云端进行共享,并充分利用云商提供的服务优势,面向社会公众开展检索利用和个性化服务工作。

4.4 云存储目标的共享性原则。云存储目标的共享性原则简称云共享原则。云共享原则要求数字档案入云应当以信息共享为目标。虽然数据备份是云存储的重要优势并对数据的可用性安全提供保障,但由于数字档案云存储主要基于互联网架设,云备份仍存在保密性安全风险。

有文献作者认为数字档案云备份作为对云存储的一种应用,是解决数字档案快速增长存储问题和维护数据安全手段之一[37]。本文认为云备份在鉴选分类的适用性原则下进行更为妥当。

5 结语

从历史发展的角度看,计算机经历了单机、网络、互联网、信息网络计算机集群的发展历程,信息处理也经历了并行计算、集群计算、网格计算、云计算的发展阶段。现阶段,云计算已经成为各领域研究的热点问题。基于云计算的数字档案云存储,具有云端数据共享、云端软件服务、无限空间分配、跨平台应用、资源整合增效等云服务的特点和优势,因此,具有广阔的发展应用前景,应当着力加强研究。

然而,数字档案云存储也存在一些问题,其中,数据安全保障问题最为关键。尽管许多云存储模式在技术层面做得非常出色,但在管理层面、法律层面和标准层面等还有不完善之处。因此,明确数字档案云存储建设原则,完善相关管理制度与规范,对于正确处理档案保密安全与服务利用的矛盾,提升数字档案云存储系统平台建设质量,充分发挥档案信息在云时代的作用具有积极意义。

标签:;  ;  ;  ;  ;  ;  ;  

浅谈数字档案的云存储_云计算论文
下载Doc文档

猜你喜欢