云环境下数字档案资源管理过程研究_云计算论文

云环境下数字档案馆资源的管理过程研究,本文主要内容关键词为:档案馆论文,过程论文,环境论文,数字论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       1 概念界定

       云计算的产生是借用了量子物理中的“电子云”,强调说明计算的弥漫性、无所不在的分布性和社会性特征。云计算是并行计算、分布式计算和网格计算的综合发展,或者说是计算机科学概念的商业实现,同时又提升了虚拟化、效用计算、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等功能。云计算的发展经历了网格计算、共用计算、软件即服务和云计算的四个阶段(见表1)。

      

      

       云计算的基本类型分为IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)(见表2)。云计算拥有超大规模的各种信息资源,把这些分布在不同地理位置的数据资源、模型资源、知识资源及计算资源等定义为云计算环境下的信息资源。

       数字档案馆是指存储和利用档案信息资源的信息空间,是一个由众多档案资源库群、档案信息资源处理中心、档案用户群构成的数字档案馆群体。[3]云环境下的数字档案馆资源管理过程主要指档案馆为了实现资源共建、共享和为用户提供优质服务的基础上所建立的基于云计算资源建设、共享和服务的过程。

       2 云环境下数字档案馆资源管理的特点

       2.1 数字档案馆资源的虚拟化

       虚拟化是云计算区别于传统计算模式的重要特点。[4]云计算是由一系列可以动态升级和被虚拟化的资源组成。具体的虚拟化实现形式有数字档案馆硬件虚拟化、数字档案馆软件虚拟化和应用虚拟化。数字档案馆硬件虚拟化是指不需要操作系统,可直接对硬件资源进行划分;数字档案馆软件虚拟化是指在操作系统之上运行一个虚拟软件层,用户可以通过这个虚拟软件层安装多种操作系统;数字档案馆的应用虚拟化是指运行在操作系统之上,利用软件层来屏蔽操作系统的差异,应用运行在虚拟层之上。[5]这些资源被数字档案馆用户共享和访问,用户无需掌握云计算的技术,只需要按照个人或者团体的需要租赁云计算的资源。[6]

       2.2 数字档案馆资源的统一池化

       在云计算环境中,数字档案馆资源统一池化是指围绕业务系统,将其主要涉及的可用资源进行通用化、平台化、模块化的整合。

       区别于传统垂直分割的条带化架构,统一资源池打破了传统架构下数字档案馆各个烟囱的孤岛状态,其旨在为业务系统提供一个横向的、通用的、扩展性高的、可用性高的、透明化的新一代系统架构。[7]在过去,数字档案馆的各部门资源相对独立。由数字档案馆各部门将用户所需的资源通过协议方式借阅或者让读者浏览,资源的利用效率和手续相对复杂。在云计算环境中,在统一规划和协调下,档案馆各部门依据协议,将所属的资源放在资源池中,避免资源重复建设,协同为用户提供优质的服务。基于资源池的资源聚合需要根据对用户需求以及网络中资源分布统一协调来完成,从而为用户建立一个相对稳定的资源视图。[8]

      

       图1 云环境下数字档案馆资源池化图

       2.3 数字档案馆资源的无缝对接

       在云环境中,云计算具有大规模、无缝扩展的特点,能自如地应对使用急剧增加的情况。其最关键的特点是计算资源能够被动态地有效分配,消费者(最终用户、组织或者IT部门)能够最大限度地使用计算资源但又无需管理底层复杂的技术。[9]而且由于其很强的扩展性和容错能力,可将资源池相同或者相似的资源同构化,同时应用集群技术、虚拟化技术实现数字档案馆资源之间的无缝对接和超级共享。

       2.4 数字档案馆资源的节能环保

       云计算技术在数字档案馆中的应用,将减少资源中心的运作成本、提高空间利用率,为解决传统资源池过量制冷和空间不足的问题提供了有效的途径,主要体现在:(1)从用户到档案馆来说,双方的成本费用大幅度降低。云计算对用户端设备要求低,可降低IT维护的费用,节省因不断升级设备所带来的经费支出。[10]而且云计算以极低的成本投入获得极高的运算能力,克服服务器访问限制的瓶颈,在更大程度上共享档案馆信息资源,[11]实现低碳经济节能环保的诉求。(2)云计算用低耗的机器取而代之大型服务器、高端处理器,加上集中管理,对外租用,从而减少了档案馆服务器的数量,既能达到节省能源方面的开支,又起到了保护环境的作用。[12]

       3 云环境下数字档案馆资源的管理过程

       数字档案馆资源的管理由资源的描述、资源的组织、资源的调度、资源的存储和资源的挖掘几个方面组成(见图2),它们每一方面的运作模式和方法将会与过去不同。

       3.1 数字档案馆资源的描述

       资源描述是指系统依据既定的规则和标准,对资源的内容和形式特征进行分析、选择和记录的过程。[13]元数据是信息资源或数据的一种结构化的数据,包括资源的标识、类型、结构、内容等。云环境下,元数据是数字档案馆资源有效存取和充分利用的基础。

       目前,对国际上通用的元数据描述标准有都柏林核心元数据,数据规范最基本的内容包含十五个元素的元数据集合,用以描述资源对象的语义信息(见表3)。

      

       图2 数字档案馆管理过程图

      

       但在云的环境下,数字档案馆资源服务是不分地域和时间的汇聚式服务,为了能更好地表述资源的来龙去脉,资源的表述除了采用以上都柏林元数据标准外,还应该加上距离、数量、区域、精确位置等空间因素。[15]

       3.2 数字档案馆资源的组织

       云环境中,数字档案馆资源的组织从根本来讲就是元数据的组织。元数据组织的过程包括两个方面:(1)元数据系统将用户的提问翻译成不同的表达形式,然后分别在各自相应的档案馆系统中查找与之匹配的信息资源;(2)元数据系统还要将检索到的、使用不同元数据标准描述的数字档案馆的资源用同一种元数据标准表示出来。云计算为用户提供统一的信息点击界面,通过元数据的转换、解释和翻译的功能将用户的提问在资源池中进行匹配,解决异构数据的问题。元数据描述机制能有效的组织数字档案馆中的各种信息资源,并为其提供精确描述数据内容、语义和服务的机制。[16]

       3.3 数字档案馆资源的调度

       基于云计算的数字档案资源的调度通常分为两种:集中式调度和分布式调度,二者各具优缺点。集中式调度易于控制全局资源,分布式调度灵活性的特点较突出(见表4)。

      

       但在云环境下数字档案馆资源的调度涉及内部资源的调度和部门之间的资源调度,采用混合式的资源调度模式将会更有效率。即在整个资源调度过程中,数字档案馆的内部采用集中式的资源调度模式,而在档案馆部门之间采用分布式资源调度模式。这种资源的调度模式中,每个部门内部设置一个或者多个中心服务器,该中心服务器作为虚拟组织内的集中式的资源注册机构,负责存储共享的资源信息。部门之间所有的中心服务器之间则采用分布式资源调度模式进行组织(见图3)。[17]这种资源调度模式克服了集中式与分布式资源调度模式的不足。

      

       图3 云环境中数字档案馆资源调度模式图

       3.4 数字档案馆资源的存储

       数字档案馆云资源存储是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的系统。[18]数字档案馆的各个部门都有自己的存储系统,把每一个存储系统看成“数字档案馆云”的一个存储节点,通过虚拟化技术,将不同物理点的存储节点连接起来,形成逻辑上的整体,这样就形成了数字档案馆的存储云,各部门的数据都在这片云中[19]。

       云环境下数字档案馆资源的存储具有以下特点:

       (1)虚拟存储技术的应用。用户不用面对实体的存储载体,同时又可方便、快捷的获取信息资源。

       (2)资源集群存储和管理。在云环境中,数字档案馆资源的存储管理平台支持跨数据中心的部署、管理、用户访问调度、数据迁移、数据异地存储备份等功能。

       (3)异构与动态数据的存储。用户实现“无处不在”的访问,运行在“云”中的服务器集群则根据云计算服务器的控制任务,提供用户需要的资源。[20]但无论数据存储接口如何变化,无论数据存储在什么位置,用户都可无缝地访问到所需数据,而不必关心存储设备所处的位置,采用何种存储系统以及资源如何配置。[21]

       3.5 数字档案馆资源的挖掘与可视化

       3.5.1 数字档案馆资源的挖掘 在云环境下数字档案馆的资源挖掘技术是指从数字档案馆的数据仓库中提取人们感兴趣的隐性知识,这些知识是事先未知且是潜在的。提取出来的知识通常可以表示为概念、规则、规律或模式等形式。[22]基于云计算的数据挖掘采用分布式并行挖掘技术。分布式并行数据挖掘技术不同于其他并行算法的地方在于它适用于处理大规模的数据处理。过去所使用的串行数据挖掘算法只能适用于规模很小的数据,并且其运行需要花费大量的时间也成为其缺点。分布式并行数据挖掘是指在分布式系统中,机器集群看作硬件数据池,将并行的任务拆分,然后交由每一个空闲机器去处理数据,任务分解处理以后,将处理以后的结果再汇总起来[23]。

       MapReduce是云计算环境中处理大规模数据集的挖掘模型,程序员在Map(映射)函数中指定对各分块数据的处理过程,在Reduce(规约)函数中指定如何对分块数据处理的中间结果进行归约(见图4),它在数字档案中的应用,不仅可以提高数据资源挖掘的效率,而且这种机器数据的无关性对于计算集群的扩展也提供了最好的设计保证。[24]

       3.5.2 数字档案馆资源的可视化 数字档案资源的可视化是将大型数据集中的数据以图形、图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程[25](见图5)。

      

       图4 MapReduce—数字档案馆数据挖掘模型图

      

       图5 数字档案馆资源可视化图[26]

       资源可视化一方面让用户深入了解数字档案馆系统资源的内部构造,同时有助于挖掘数字档案中的隐性知识,为用户提供有价值的信息线索,而且还可以用形象直观的图像来指引检索过程,加快检索速度,提高数字档案馆管理与服务的质量和效率。

       4 云环境下数字档案馆资源管理的保障策略

       4.1 建立数字档案馆资源云管理框架

       建立数字档案馆云管理框架,从整体上构建数字档案馆管理的模式,用于指导数字档案馆云管理实践。首先,数字档案馆要树立“社会化”服务的新理念,改变传统的服务理念与资源的管理方式。第二,围绕数字档案馆资源“共建共享”,建立统一的资源协调机构,避免重复性的建设。第三,数字档案馆“资源的挖掘和利用”是云管理的主线。第四,数字档案资源的可视化成为数字档案馆云服务的重要工具。

       4.2 制定相关的法律,保护云计算时代下档案信息资源的安全

       根据在北美的调查显示,其中有75%的网民表示对云计算安全问题的担心,最关心的就是隐私安全和如何有效保护的问题。[27]在云环境中,数字档案馆系统所依托的非关系型数据库中,在访问控制中并没有设置严格的访问控制和隐私管理工具,同时由于数字档案馆数据资源来源的广泛性和复杂性,让档案部门定位私密信息的界限变得复杂起来。而且由于云管理中将数据资源储存在同一个地方,虽便于数据资源的保护但同时也容易成为黑客的攻击目标。因此,这就需要政府部门加强立法,保护个人隐私安全。面对技术进步以及信息呈几何级数增长,立法部门一方面需要使相关法律更加具体和细化,其反应机制也应该越来越快,为监管部门提供及时有效的监管依据;另一方面,需要借鉴其他国家云环境下数字档案馆资源管理的经验,加强国内外数字档案馆之间的合作,共同保护云环境中数字档案馆资源的安全。

       4.3 建立数字档案馆相关的云计算标准体系

       全球范围内的云计算标准化工作已经启动,全世界已经有30多个标准组织宣布加入云计算和数据相关标准的制订行列,并且这个数字还在不断增加。[28]因此,我国政府也需要积极参与云计算和数据标准的制定,为各级各类数字档案馆信息系统的网络互连、信息互通、数据共享和安全奠定基础。

       4.4 积极培养数字档案资源分析的人才

       数字档案资源的分析和挖掘需要掌握计算框架和基础算法知识,并能很快部署到云计算和掌握机器学习、知识图谱的人才和具备数学、统计学、数据分析、商业分析和自然语言处理方面的应用型人才。传统的数字档案馆人才的层次结构已经无法满足云环境的要求。因此,需要积极培养和引进人才,为数字图书馆资源的充分开发和利用提供重要的条件。

标签:;  ;  ;  ;  

云环境下数字档案资源管理过程研究_云计算论文
下载Doc文档

猜你喜欢