“云”下的数字图书馆资源存储研究,本文主要内容关键词为:数字图书馆论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 云计算和云存储
1.1 云计算
云计算作为分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Crid Computing)的发展,是通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户。通过云计算技术,网络服务提供者可以在数秒之内,处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大的网络服务。云计算系统的建设目标就是将运行在PC机上、或单个服务器上的独立的、个人化的运算迁移到一个数量庞大服务器“云”中,由这个云系统来处理用户的请求,并输出结果[1]。总的来说,它是一个以数据运算和处理为核心的系统。
1.2 云存储
云存储是在云计算的概念上发展而来的。云存储的概念与云计算类似,它是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统川。
但严格来讲,云存储不是存储,而是服务。就如同云状的广域网和互联网一样,云存储对使用者来讲,不是指某一个具体的设备,而是指一个由许多个存储设备和服务器所构成的集合体。使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务[2]。云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。云存储结构如图1所示。
图1 云存储的网络结构图
2 数字图书馆资源存储现状
数字图书馆诞生于20世纪80年代末、90年代初的西方发达国家。随着因特网的出现与日益普及,信息资源的类型及产生、发布方式都发生了巨大变化,图书馆传统的文献信息开发利用与服务模式也无法为用户提供跨时空的信息服务,所以,利用网络进行信息采集、加工、存储、传递的数字图书馆成为信息时代图书馆发展的主流方向。
由于数字图书馆本身所具有的存储容量大、媒体形式多、分布广、动态异构等特性,数字图书馆的资源存储历来备受重视。而纵观数字图书馆的发展历程,存储技术的更新也经历了从以计算机、服务器为中心的传统图书馆的现代转型期到以网络为媒介的图书馆综合服务功能拓展期。目前数字图书馆广泛采用的存储方案主要有DAS(Direct Attached Storage,直接附加存储)、NAS(Network Attached Storage,网络附加存储)、SAN(Storage Area Network,存储区域网络)、ISCSI(Internet Small Computer System Interface,互联网小型计算机系统接口)和网格存储等。表1从六个方面详细比较了现有的五种存储方案。
表1 DAS、NAS、SAN、ISCSI和网格存储特点比较
从表1可以看出,现有的五种存储方式虽然在一定程度上能解决数据存储集中和共享问题,但也各有弊端。DAS价格低廉,但扩展性能差也无法使用多台服务器进行集合;NAS价格虽然实在,但单个设备容量受限也较易受网络环境性能影响;SAN虽能实现跨平台共享,但兼容性较差,投资成本也相当高;ISCSI虽然方便扩展容量,但整体存储技术不算成熟,难以大范围使用;而网格虽然能使得存储简单化,也能兼容不同的网络协议,支持不同的系统平台,但由于要建立专门的存储网格造成费用增加。
总的说来,五种存储方案各有千秋,但是单独采用其中任何一种方案,都无法全面解决数字图书馆资源存储面临的众多问题,如存储系统扩充性差;多用户、异构性与跨平台导致数据兼容性和共享性较差;不能满足动态存储、按需存储的要求;数据的批量传输、移动和复制能力较差;数据的存储效率无法满足大数据量、大并发访问的要求等。针对这些现存问题,下文首先分析了数字图书馆利用云存储的优势,然后在此基础之上给出了具体的数字图书馆云存储方案。
3 数字图书馆应用云存储的优势
云存储作为一种服务存储,应用云存储不仅能提高存储资源的利用率,而且能提高数字图书馆之间的资源共享度,可以实现性价比最优以及资源存储效率最优,较之之前提到的几种存储方案,应用云存储有五大优势:
(1)超强的可扩展性,理论上可以无限量存储。云存储可以很好地平衡服务器之间的负载,在各种数据中心之间快速地移动数据,确保信息总是在最近的存储上[3]。这种服务可以让数据非常迅速地传递到需要使用的位置。
(2)较高的可用性和可靠性。较之以往的存储网络,云存储采用了分布式存储,当某个存储节点失效时,控制节点能自动将工作负载交给运行正常的存储节点完成。云存储还拥有副本备份机制,从而当云中某个节点发生错误时并不影响资源的可靠性[4]。
(3)低廉的建设、管理、存储成本。由于云存储系统是在已有的存储设备的基础上搭建,对硬件的要求又没有特殊限制,无论是PC、服务器还是其他设备,都可以应用到搭建的数字图书馆云存储系统中,建设成本相对更加低廉。同时,云存储采用的是集中存储、统一管理模式,所以,存储系统的管理完全可以交给云存储商,图书馆不再需要专人维护、管理,又大大减少了管理成本。
(4)增强的数字图书馆服务性能。使用以往的存储网络时,如果碰到数字图书馆用户突然增多、访问量突然加大时,很容易给存储服务器带来压力,甚至会导致整个系统瘫痪。而通过云存储系统,利用其自身的分布式系统、集群系统,能合理分担存储和访问的压力,从而提高数字图书馆的服务性能。
(5)广泛的数字图书馆资源共享。云存储理论上就是要做成一个多区域分布、遍布全国、甚至于遍布全球的庞大公用系统。图书馆界引入云存储构建数字图书馆存储系统,应该以共享为前提,建立众多数字图书馆之间共享云端,实现图书馆资源更大程度上的共享。
4 数字图书馆云存储方案
4.1 数字图书馆云存储的技术前提
云存储本身就是一个多设备、多应用、多服务协同工作的集合体,而将云存储应用到数字图书馆的资源存储中,还要考虑到数字图书馆信息服务的特点,因此数字图书馆云存储的实现自然需要以多种技术的发展为前提。
(1)宽带网络的发展。带宽的大小将直接影响云存储的发展,只有宽带网络得到充足的发展,用户才有可能获得足够大的数据传输带宽,实现大容量数据的传输,真正享受到云存储服务。
(2)Web2.0技术。Web2.0技术的核心就是共享,应用Web2.0技术图书馆用户就能够通过PC、手机、移动多媒体等多种浏览设备来享受数字图书馆所提供的各种服务。
(3)应用存储的发展。应用存储技术的发展可以明显减少云存储中服务器的数量,从而降低系统建设成本,减少系统中由服务器造成的单点故障和性能瓶颈,减少数据传输环节,提供系统性能和效率,保证整个存储系统的高效稳定运行。
(4)集群技术、网格技术和分布式文件系统。通过集群技术、分布式文件系统和网格计算等技术,实现多个存储设备之间的协同工作,使多个存储设备可以对外提供同一种服务,并提供更好的数据访问性能。
(5)CDN内容分发、P2P技术、数据压缩技术、重复数据删除技术、数据加密技术。CDN内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问,同时,通过各种数据备份和数据容灾技术保证云存储中的数据不会丢失,保证云存储自身的安全和稳定[5]。
(6)存储虚拟化技术、存储网络化管理技术。云存储中的存储设备数量庞大且分布在不同地域,如何实现不同厂商、不同型号甚至不同类型(如FC存储和IP存储)的多台设备之间的逻辑卷管理、存储虚拟化管理和多链路冗余管理将直接影响整个云存储系统的性能。
4.2 数字图书馆云存储的构建原则
数字图书馆资源存储的需要可归纳为两大类:
第一类是数据库访问,包括图书馆业务管理系统、馆藏书目数据OPAC系统、电子图书(期刊)数据库等,特点是需要后台数据服务、I/O请求非常多,对系统响应要求高。图书馆业务管理系统的数据量不大,但要求系统具有高可靠性,保证图书馆数据信息的安全;电子图书(期刊)数据库不仅用户访问量大,而且各个数字图书馆也一直在不断引入新的电子数据库,这就要求系统的数据量和数据流量都要足够大。
第二类是文件服务,如VOD系统、FTP下载等,特点是存储文件较大,I/O请求相对较少。该类服务要求存储系统容量大、速度快、性能高、扩展性强。此类业务系统要求存储系统具有集中管理、异构资源整合和再利用、性价比高等特点[6-7]。
所以建构数字图书馆云存储系统时,就要考虑:一是尽可能扩大系统存储容量,提升系统可扩展性;二是大幅度提高存储系统的I/O性能;三是保证存储数据、信息的安全可靠[8]。为此,在构建数字图书馆云存储系统时,我们要遵循以下三大主要原则。
(1)利用云存储的共享优势,解决数据存储的多样性和零散性,将地理位置分散的多个数字图书馆的存储资源进行整合,形成具有统一逻辑视图的高性能数字资源云存储系统[9]。
(2)结合数字图书馆的应用,将不同需求、不同特点的数据分布在不同类型的存储设备中。由于云存储中的存储设备多种多样,各种设备的性能就要根据资源的特点进行合理分配。在数字图书馆中,各种资源的访问量、使用效率以及安全性能都有差别,在构建云存储系统时就要考虑到不同资源的需求进行设备的合理使用。
(3)数字图书馆云存储是要整合原有的存储系统,充分利用现有设备,在此基础上构建更大容量、更快响应速度的存储系统[10]。因此,在构建云存储系统时,做到原有资源的合理使用,并做好扩容准备。
4.3 数字图书馆云存储的体系结构
上文已经提到要构建的数字图书馆资源的云存储系统就是在现有设备的基础之上构建一个整合存储网络,力求使其实现更多数字图书馆之间的资源共享,来满足数字图书馆急剧增长的数据量需求。结合云存储的结构模型,本文构建了针对数字图书馆应用的数字资源云存储体系结构,如图2所示。
图2 数字图书馆资源云存储体系结构
数字图书馆资源云存储体系结构共分成4层:
最底层是存储层,也是数字图书馆云存储的硬件层。该层为整个云存储系统提供基本的网络环境、物理存储资源和逻辑存储资源,包括存储设备(磁盘阵列、光盘库和磁带库)、存储管理设备、数据逻辑存储系统(文件系统、数据库和元数据集)等。其中云存储系统中的存储设备大部分是现有的存储设备通过网络连接整合形成。而统一的存储设备管理系统可以实现存储设备的逻辑虚拟化管理、多链路冗余管理,以及硬件设备的状态监控和故障维护。
第二层是基础管理层,是数字图书馆云存储的核心层。该层通过集群、分布式文件系统、网格计算等技术,实现云存储中的多个存储设备间的协同工作,包括存储监控、调度,副本管理等,可以根据数字图书馆的需求在某个时刻对外提供同一种服务,并提供更好的数据访问性能,保证众多用户可以同时使用数字图书馆资源。此外,该层还采用各种数据备份、数据加密、数据容灾技术来保证数字图书馆存储系统中数据的自身安全和稳定。
第三层是应用层,为用户提供了数字图书馆资源存储平台和数字图书馆各类Web服务,包括信息采集、加工、管理所需的存储;信息的发布与服务所需的存储以及容灾备份等所需的存储。同时,数字图书馆中的业务管理、书目管理OPAC等通过应用层共享云端平台,图书馆管理人员可以更方便地访问与管理。
最上层是访问层。任何一个获得授权的用户只要拥有能够接入互联网的终端设备,诸如PC、手机、移动多媒体等,就可以在任何时候任何地点通过应用层的数字图书馆资源存储平台使用数字图书馆资源的云存储服务,满足自己的信息需求。
5 结语
云计算与云存储的出现,不仅是IT界的又一个里程碑,也会给图书馆界带来新的发展活力,尤其是将会带动互联网下数字图书馆的新发展。虽然云存储能解决数字图书馆资源存储中遇到的诸如扩展性、兼容性、共享性差,并发访问难、动态存储受限等问题,但由于云存储是通过硬件设备的共用以及虚拟存储等技术来完成存储,数据的安全性以及图书馆中资源的版权等问题还需要进一步探讨。但随着云计算与云存储的不断发展与成熟,我们相信借助云存储,数字图书馆的发展会进入一个崭新的阶段。
收稿日期:2010-12-08