“云”下的图书馆网络存储探讨,本文主要内容关键词为:图书馆论文,网络存储论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
近年来随着计算机技术、通信技术以及网络技术等高新技术的蓬勃发展,图书馆的存储技术和存储方案也在不断变化。事实上就在几年前,图书馆技术部门对存储技术关注的并不是很多,这是因为在图书馆自动化建设的初期,技术人员关注的热点是图书馆的计算机自动化管理,也就是如何使图书馆的采访、编目、流通等传统业务实现计算机自动化,而这些传统业务所产生的相应数据无非是馆藏书目数据、读者数据以及流通日志等一些基础数据①,这些数据虽然数量大,但对存储容量和存储技术的要求不是很高。但这两年来随着数字化图书馆建设进程的推进,大量的网络数据库、数据库镜像站、随书光盘、在线视频等新型服务产品的出现,直接导致了电子资源数据的几何级数激增,此外随着要求图书馆资源整合和提供一站式服务的呼声越来越高,传统的存储方案已经力不从心,而且代价昂贵。本文将对图书馆网络存储引进“云存储”概念做一些探讨。
1 图书馆数据的分类
图书馆存储的数据类型各异,因此对存储的需求也有所不同,从图书馆的日常业务和读者服务模式来看,主要有以下3大类。
1.1 图书馆传统业务数据
主要包括历年来纸本书刊馆藏目录数据、历年来纸本书刊采访数据、历年来纸本书刊流通数据等。以上海大学图书馆目前馆藏300万件、每年引进新书9万册、续订中外文报刊3000多种为例,可以看出传统业务数据的量比较大,但数据结构简单且每年的数据增量基本稳定,所以这类数据对存储的可靠性、稳定性、安全性以及存取性能要求很高②,对存储容量和采用的存储技术要求不高。
1.2 电子资源数据
主要包括历年来引进的网络数据库、数据库镜像站、电子图书、电子期刊以及多媒体资源等。随着数字化图书馆和网络技术的发展,电子资源已经成为高校图书馆文献资源的重要组成部分,在高校图书馆文献信息服务中所占的比重日益提高。各高校对电子资源的引进日渐频繁,经费投入巨大,因此电子资源的数据量和每年增量都非常庞大。以上海大学图书馆为例,新馆建成以来就不断加大电子资源建设力度,电子资源数量从无到目前的40余种,涵盖了世界上全部知名的高质量电子资源。此外,上海大学拥有学生30000余人,每日对电子资源的访问量也非常巨大。
以上数据可以分为两个部分,一部分是电子资源本身的数据量,这类数据的索引和全文数据因数据库商存有数据备份,对存储的安全性要求相对低些,但是数据本身结构复杂,需要存储容量巨大,图书馆需要不断扩容存储设备来适应数据量激增的严峻形势;另外一部分是访问镜像和网络数据库时所产生的一系列的统计数据和读者信息,这类统计数据对图书馆管理决策、服务评价以及成本分析意义重大,数据库商本身没有备份,因此这部分统计数据对存储的安全性要求较高,一旦丢失的话将无法弥补修复。
1.3 图书馆自建数据库数据
包括图书馆自建的特色数据库数据以及随书光盘上载的光盘数据等。以上海大学为例,自建了“钱伟长数据库”、“上海作家作品数据库”等,随书光盘也配置有专门的服务器来进行上载,对读者提供交互服务。这类数据量中等,但属于各图书馆特色馆藏或独家拥有,因此对存储的安全性要求较高,如果数据丢失,损失很大。
2 图书馆网络存储技术
随着数字图书馆的数据存储几何级数增长,网络存储技术得到了应用和推广,目前主流的、前沿的网络存储技术主要有以下3种③。
2.1 直接附加存储DAS(Direct Attached Storages)
它是传统的数字图书馆的资源系统进行数据共享的存储方案。服务器与存储器设备基本一一对应,这种连接方式在图书馆发展的早期应用较为普遍,因为早期的数字图书馆对存储资源的要求并不高。但随着数字图书馆的不断发展,这种存储技术暴露出了一些明显的缺点。由于存储设备与服务器一一对应,系统的扩展能力有限;每台服务器直接和存储设备连接,数据的存储、备份占用了很大的网络带宽,增加了LAN负担。以上种种缺点使DAS只能应用于单机或两台主机的集群环境中,因此它只适合小型数字图书馆。
2.2 网络附加存储NAS(Network Attached Storage)
它是一种专用网络数据存储\备份器。它以数据为中心,将存储设备与服务器彻底分离,由于数据不再通过服务器内存转发,而直接在客户机和存储设备间传送,因而具有更快的响应速度和更高的数据带宽。因其物理位置灵活,可缩短用户访问时间,也提高了网络吞吐量和系统性能。另外,NAS还支持异构平台,网络用户可以使用不同的操作系统和存储设备进行通讯。但使用NAS设备存储备份数据时,要进行带宽消耗,而且它对数据的备份也不是集中化的。这些缺点注定NAS技术只能用来解决存储容量不足的问题,而在管理超大容量的信息时很难有满意的性能,只在中小型图书馆有较好的应用前景。
2.3 存储区域网络SAN(Storage Area Network)
它是存储技术进入网络时代的产物,它提供了灵活的存储连接,服务器可以访问存储区域网上的任何存储设备,如磁带库、磁盘阵列。同时存储设备之间、存储设备同SAN交换机之间也可以进行通信。SAN技术具备可扩展性极强、易存储、可靠性强的优势,实现了服务器和存储设备在物理上的分离,使不在机房的存储变得很容易。随着数字图书馆资源的全面整合,它更适合在大型数字图书馆中投入使用。
3 云存储的概念及在图书馆应用中的优势
3.1 云存储的概念及系统架构
云存储是在云计算概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。IBM大中华区云计算中心项目总监朱近之指出:云存储不是一个设备,而是一种服务,具体说来,它是把数据存储和访问作为一种服务并通过网络提供给用户。云计算是提供计算能力,相应的,云存储是提供存储能力④。图1是云存储系统架构模型⑤。
3.2 云存储技术的优势
从技术上看,存储虚拟化也好,还是集群存储、SAN+NAS等都是一种技术,云存储和它们之间虽没有必然的联系,但是从架构上看,云存储会更好地利用到现有的存储技术,更好进行了发挥,对外提供统一的存储外包服务,充分体现着云存储的优势。
3.2.1 绿色环保
随着2009年末哥本哈根环境大会的召开,绿色和环保的概念越来越深入人心。然而随着数据量的几何增长,全世界30%的数据中心都面临能源消耗过大的问题,随之而来就是能源成本增加的压力。维护和保养系统,减少热排放,节省电力,提高计算机和存储的利用率对于美国著名的谷歌公司都成为重要的问题,目前谷歌公司已经发现的是⑥:十多万台计算机的发热,对于环境的影响;巨大的电力消耗,成为日常开支的负担;保障十多万台计算机的故障自动切换、自修复的操作系统,网络管理成为提高维护能力的关键;故障最多的是风扇,每天坏大约1000个磁盘,低利用率时如何节约电力。
图1 云存储系统架构模型
云存储具有具备相对稳定的基础技术、系统架构、高性能的网络环境,有助于提高硬件设备的利用率,节省能源,减少热量,有利于环保。
3.2.2 节约成本
在多数图书馆的技术中心,基本上都是一个应用对应一个服务器,导致这些服务器的平均利用率很低,几年就被淘汰,形成了大量的电子垃圾,极不利于环保和节能,并且浪费了大量的图书馆经费。云存储提供了一些诱人的优势。它是现收现付的模式,不需要基础建设投资,并且不需要为未来的存储需求购买多余的设备。你可以对存储设备进行动态的扩展,并且只需为你所使用的部分支付费用,从而大大缩减了图书馆的硬件成本和自动化系统建设成本。
云存储提供了可靠、安全的数据存储中心,用户不用担心数据丢失、软件更新、病毒入侵等问题。因为在“云”中,有专业的IT团队来管理信息,有先进的数据中心来保存数据,严格的权限管理策略可以帮助用户与指定的人共享数据⑦。云存储的这种服务外包商业模式使得图书馆这种非IT单位,不再需要非常专业的高级编程或者软件开发人员,这就很好地解决了图书馆界有经验的专业技术人员高流通率问题,图书馆可以对一般技术人员重新配置或消减,从而节约了图书馆的人力资本,同时使得数据的维护更加专业化,服务的质量和水平也得到提高。
3.2.3 用户端使用方便
事实上,图书馆作为“云”的使用者,并不需要知道云存储和云计算的具体技术细节或者系统架构,它只要付费定制相应的云服务即可。云计算对用户端设备的要求低,用户只要有一台可以上网的电脑,有一个浏览器,就可以在浏览器中直接编辑存储在“云”中的文档。
3.2.4 不受物理地址和时间限制,实现图书馆资源共享
在云存储系统中,图书馆的数据只有一份,保存在“云”中,所有符合权限的电子设备只要通过互联网连接到“云”,就可以不受物理地址和时间限制的访问所有资源。这就很好地解决了很多高校不同校区的访问权问题,以及校内校外的访问权问题,云存储不再受物理IP地址的局限,使得师生校内、家中访问学校图书馆资源变得随心所欲,使图书馆的服务更加灵活和人性化。
通过以上的分析,可以看出在有限的经费条件下,把握存储技术的发展方向,构建一个既具有前瞻性,又能整合现有计算机网络和存储设备,性能稳定、安全可靠、维护方便的网络存储方案,就显得十分重要,而云存储的应用,恰恰是一个很好的解决方案。
4 图书馆对“云存储”的担心及解决方案
4.1 图书馆的困惑
图书馆最大的疑惑就是数据是否安全?数据和系统都“生活”在别处,自家的防火墙没法保护它。这引发了图书馆人对于云存储提供者可靠程度的高度关注。如果“云”出现了问题,存在里面的图书馆历年来购买的资源以及相关数据全都付之东流,可谓损失惨重。
4.2 不同供应商间数据标准问题
对于云存储来说,图书馆只是个使用者,按需订购其服务的角色。所以如果选择云存储,也就要选择适合本馆的云存储供应商,供应商之间应该有竞争机制,供应商之间可以替代或者兼容,这就需要云存储供应商所提供的服务能够遵循于共同的标准。没有共同的标准,就不可能实现从一家供应商到另一家供应商之间的零成本转移,垄断的“私有云”无法真正保证图书馆的利益和权利,因此制定一个开放性的标准显得尤为重要。
4.3 数据隐私、所有权问题
把数据保存在别的地方,一些类型的信息可能会面临安全或者服从法律的问题,机构之间也有可能会出现法律的纷争[8]。比如读者信息,它们也需要考虑保存这些记录的要求,图书馆可以选择继续在自己的系统中保存一些信息,把不那么敏感的数据处理交给云,比如说托管图书馆网站、备份多媒体收藏,或者储存以及检索书目数据。
4.4 数据访问能力
如果执行大规模数据请求或数据恢复操作,那么云存储是否可提供足够的访问性?如果我们的本地数据发生了灾难性的损失,云服务商是否可以将数据再传输回来?
4.5 目前云计算的10大挑战及相应的解决方案请见下面列表[9]。
5 结束语
事实上,“云”为CALIS三期建设提供了新的思路和可行的技术路线,即设计和开发CALIS数字图书馆云服务平台(称为Nebula平台),构建多级CALIS数字图书馆云服务中心,为高校用户提供各种类型的数字图书馆服务,同时为图书馆提供本地化的数字图书馆云计算解决方案[10]。
笔者认为,随着云计算的推进,图书馆迟早要引进这种新思路,实现某种意义上的“责任外包”。从图书馆的社会责任和历史发展来看,任何阶段无论采用什么样的先进技术,图书馆的关键在于“服务”,图书馆人应该把眼光放在“服务”上,努力探讨“云”所带来的新的服务模式,以及相应产生的一系列新问题,正是在新问题的解决中,图书馆的服务模式才能在“云”下更灵活更便利。
注释:
①王国平.图书馆网络中心各存储技术的应用研究.图书馆论坛,2009(18):255
②金文新.高校图书馆存储系统的构建及其数据安全和备份方案研究.情报资料工作,2009(1):40
③卢险峰.数字图书馆信息存储技术发展浅析.http://www.bianjibu.net/tongxin/1316.html,2010-02-08
④云存储:技术、平台还是服务?.http://storage.chinabyte.com/170/8820670.shtml,2009-04-24
⑤深度剖析云存储.http://www.sansky.net/article/2008-09-17-depth-analysis-of-storage.html,2009-09-17
⑥⑦黎春兰,邓仲华.论云计算的价值.图书与情报,2009(4):43
⑧Ellyssa Kroski.Library Cloud Atlas:A Guide to Cloud Computing and Storage.http://www.libraryjournal.com/article/CA6695772.html#,2009-09-10
⑨Michael Armbrust.Above the Clouds:A Berkeley View of Cloud Computing.http://www.eecs.berkeley.edu/Pubs/TeohRpts/2009/EECS-2009-28.pdf.,2009-02-10
⑩王文清,陈凌.CALIS数字图书馆云服务平台模型.大学图书馆学报,2009(4):13
标签:云存储论文; 数字图书馆论文; 图书馆论文; 网络存储服务器论文; 网络存储技术论文; 云计算论文; nas存储论文;