现代图书馆存储技术方案的选择和应用,本文主要内容关键词为:图书馆论文,方案论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 存储技术的更新是现代图书馆需求发展的必然选择
许多图书馆在现代化进程中,都不同程度地经历过数据存储问题的困扰,原因是多方面的,有规划跟不上发展的情况,有资金到位滞后的拖延,也有技术保障难以同步协调的问题。同样,许多图书馆的技术人员都不同程度地遭遇过数据维护时经历过的尴尬和无奈,面对的情况是复杂的,有系统配置的局限性造成的瓶颈效应,有黑客、病毒侵入带来的数据损毁,也有设备长期超负荷运转发生的紊乱。
纵观现代图书馆的发展进程,数据存储技术的更新经历了初期(上个世纪80年代后半期至90年代前半期)以计算机、服务器为中心的传统图书馆的现代化转型期,这一时期业务工作主要是联机检索、专题资料题录信息的组织、馆藏书目信息的回溯建库、图书馆集成管理系统的应用,相比较而言,存储单元容量的增加与存储系统性能的提高并不是最迫切的;到了近期(90年代中后期)即以网络为媒介的图书馆综合服务功能拓展期,逐步实现了联合目录查询、合作编目及文献采购协调,逐步开展了网上预约互借和文献传递,逐步增加了自建专题数据库检索和网上电子资源导航,随着图书馆功能的不断拓展和读者对图书馆的需求不断增加,网络运行所需的数据量迅速扩充,运算过程对于数据的完整性和可靠性的要求也越来越高,原有的存储方案已经无法满足要求,许多图书馆的存储系统采用了磁盘阵列技术RAID,以计算机、服务器为中心的存储架构通过把多个较小容量的硬盘连在智能控制器上,增加存储容量及提高网络数据的可用性,免除单块硬盘故障所带来的灾难性后果,随着RAID技术在图书馆的应用日趋广泛,双机热备份、磁盘镜像、数据库软件的自动复制等功能和相关技术也在许多图书馆得到不同程度的应用,极大地降低了数据出错的可能和风险,一定程度上缓解了图书馆应用和需求对存储系统的压力;进入21世纪以来,现代图书馆的发展已经进入以人为本以数据为中心的加快数字图书馆建设进程新阶段,特色数字信息资源建设成为图书馆的首要任务之—,经购置整合的各类电子出版物成为许多图书馆网站的重要服务内容,网络环境下传统图书馆的功能得到进一步拓展和延伸,网上读书、远程教育、在线交流、信息咨询、视频点播等应用也逐渐成为现代图书馆网络服务的热点,面对着日益繁忙的网络应用需求和爆炸性增长的数据信息增量,以服务器为中心采用磁盘阵列技术的存储架构已经受到扩充能力、存储资源共享、响应速度等问题的严重挑战,数据的增长,尤其在数据内容、格式和应用服务多样化的情况下,不仅涉及到设备的扩充、异构系统的兼容、网络传输的速率、系统的全天候响应乃至存储系统的可扩充性与扩充容量对先期投资的保护等问题交织在一起,其局限性不容忽视,存储问题已经成为现代图书馆发展的关键问题之一,数据的存储、使用和保护已经成为影响图书馆正常工作秩序和网络服务乃至生存发展的至关重要的问题,随着需求的高速增长,新的数据存储技术应运而生,目前可供各类图书馆采用的存储技术包容了单一磁盘存储数据、磁带备份和磁盘阵列存储数据以及日趋成熟的DAS、NAS、SAN等网络存储系统,为图书馆海量信息存储提供了新的解决方案,并成为今后图书馆存储模式的发展方向。
2 现代图书馆存储技术方案选择和应用的理性思考
2.1 提高对数据存储问题重要性的认识——观念更新要到位
首先要认识到数据存储问题的重要性已经远远超出技术层面的意义,是现代图书馆进入以数据为中心发展阶段的必然选择。随着我国信息化进程的不断加快,信息资源正朝着数字化、网络化、智能化和多媒化的方向发展,在存储技术不断发展和转变的过程中,存储领域的变革已经到来,新的存储需求逐渐被提出,优化选择理想的存储模式,在建设现代图书馆方案的设计与实现中显得尤为重要。
其次要明确现代图书馆数据存储问题的解决必须靠不断更新的技术来实现。现代图书馆数据量的爆炸性增长,直接后果是导致存储容量无法适应需求的增长,存储需求和存储能力之间的差距,必须靠不断更新的技术来缩短;图书馆网站应用服务的迅速发展造成存储系统性能无法有效地满足用户的新增需求,存储系统性能的提升,也要靠不断更新的技术来解决;同时,存储系统面临复杂的内外环境是数据管理问题日益严峻的客观原因,数据管理的有效性,还得靠不断更新的技术来支撑。
此外要从数据安全的角度加深对数据存储问题的认识。造成数据安全问题的因素集中在三个方面:①人为的因素包括外部的、内部的,有意的、无意的,恶意的、误操作等等。②自然的因素如灾害、意外事故以及其他不可抗力的影响等等。③设备本身的局限性,存储空间的不足导致新增数据无处存放,所有超过设备存储能力的一切服务和应用乃至数据的安全备份、管理、整合都无从谈起,实际上许多工作并不因为存储空间不足就可以完全不做,然而这正是引起数据安全问题的一个经常出现的矛盾,即使通过简单的磁盘堆砌增加了存储容量,也不可能确保提高存储数据的安全性和可靠性。
2.2 了解图书馆数据存储技术进展情况——发展脉络要清晰
2.2.1 数据存储的技术基础——磁盘阵列技术RAID(Redun-dant Array of Inexpensive Disks廉价磁盘冗余阵列)
RAID是由多块磁盘构成的冗余阵列,它是通过磁盘阵列与数据条块化方法相结合,以提高数据可用性的一种结构,根据RAID采用的方法不同,可以将其分为0-5六个级别,常用的有0、1、3、5四种。RAID技术是形成DAS、NAS、SAN的共同基础。RAID子系统将用户数据和应用分布在多个硬盘上提供容错,提高了数据的可用性,也提高了I/O传输,多硬盘并行数据存取可提高系统性能,从而可使多个硬盘同时处理单一传输请求。RAID技术是一种快速、大容量和容错分布合理的磁盘阵列,优点是适用大数据量的操作,也适用于各种事务处理,随着在线的全文数据库日益增多,单个硬盘已完全不能满足数字化图书馆在线存储容量的需要,因此RAID技术在图书馆的应用日益广泛。缺点:控制比较复杂,尤其表现在利用硬件对磁盘阵列的控制上。
2.2.2 网络数据存储的3种技术架构
(1)DAS(Direct Attached Storage,直接访问存储)是指主机与存储设备(磁盘或磁盘阵列等)之间直接连接,存储设备通过SCSI或ATA(目前连接方式已扩展为FC、USB、1394等多种)作为数据接口的存储方式。特点是存储设备通过电缆线直连到一台计算机或服务器上,其本身是硬件的堆叠,主机操作系统独占该存储设备的使用权限,其它主机不能直接访问该设备。目前的PC机、通过SCSI卡接SCSI磁盘或磁盘阵列的服务器均属于DAS范畴。DAS的优点是:对网络带宽的依赖程度低,服务器上的每块SCSI卡可以连接16个存储设备,便于扩容,存储设备和服务器可以分别购买。由于DAS出现较早,技术成熟,标准统一,兼容性较好,价格相对较低,性能也不错,安全性较高,安装也简单,不需要复杂的软件和技术,维护成本较低,仍是现阶段图书馆数据存储的主流方式。
DAS的不足在于:受服务器性能局限影响或发生故障时,将成为网络瓶颈或存储设备中的数据不能被存取;扩展性差,有几台服务器就必须有几台相应的DAS设备,容易形成数据信息的孤岛,不利于集中管理和共享。
(2)NAS(Network Attached Storage网络附加存储)是指直接挂接在网上的存储设备,实际上就是一台专用的存储服务器,它不承担应用服务,而是通过网络接口与网络连接,数据通过网络协议进行传输,支持异构服务器间共享数据。NAS是文件服务器存储专门化的产物,是文件服务器的替代者。优点是易于安装、即插即用,NAS设备的物理位置可灵活安排,价格也不太贵,易于维护,可扩展性强,增加存储空间只需要在网上增加新的NAS设备即可。作为网络化存储产品,由于NAS具有较好的多平台共享能力,强大的数据集中能力、方便的管理和可扩展性,相对SAN存储投资的高性价比,目前已有许多中小型图书馆在数据扩容时采用了NAS存储技术。
缺点:可扩展性受到设备容量的限制,新增加的NAS设备与原有的NAS设备不能集成为一体,不能形成为一个连续的文件系统,备份过程中会形成带宽消耗,其性能也要受现有网络带宽的限制,不适合大型数据库的应用。
(3)SAN(Storage Area Network,存储区域网)是独立于服务器网络之外的高速存储专用网,采用高速的光纤通道作为传输媒体,以FC(Fiber Channel,光通道)+SCSI的应用协议作为存储访问协议,将存储子系统网络化,实现了真正高速共享存储的目标。作为新兴的存储技术,SAN以其快速的传输速度、灵活的扩展能力、极高的远程共享能力以及较高的可靠性,成为企业级主流的存储解决方案。其优点是:引入存储网络的理念,实现了数据存储的集中化;通过专用网络进行数据存储与备份,不占用原有网络带宽,有效地改善了网络的传输性能;允许多台服务器使用由SAN连接的磁盘存储设备组成的存储池,具有几乎无限的扩展能力;能方便的实现高性能的服务器集群、负载均衡、双机热备、异地容灾等应用,极大地提高系统的性能和可靠性;光纤接口使得服务器和存储系统实现物理上分离,体现了部署的极大灵活性。
SAN适用于存储量大的工作环境,需要巨额的投资成本。随着SAN标准的逐步统一和价格的下降,它将成为数字图书馆存储系统一种比较理想的选择。
2.3 搞好图书馆存储系统的需求分析——对号入座要准确
由于各馆的规模、性质、服务对象均有不同,因此对图书馆数据存储的需求也会有所不同,现代图书馆存储需求的定位大致有三种类型:
一是基本适应型(指数字图书馆业务有一定程度的开展,服务的规模暂时还比较小、需求也比较集中,这种类型在中小型图书馆中占有很大的比例),具体实施只需在原有配置基础上进行扩充,增加硬盘数量或适当扩充、改造磁盘阵列。
二是迅速扩张型(各类图书馆都占一定的比例),需要对原有存储配置动手术,进行优化整合、更新升级、数据迁移、重点备份、规范管理等等,由于这类需求情况千差万别、十分复杂,必须针对个案具体分析,按照今后三至五年的发展进行规划和科学论证,提出新的实施方案。
三是新馆规划型(针对部分特大型图书馆、大学新校区图书馆)采用新的存储方案,对原有配置实行功能分离,建设现有技术条件下可一步到位、能持续发展的以数据为中心的存储系统。
2.4 现代图书馆存储系统选型必须坚持的几项原则——关键问题紧跟随
(1)先进性:有良好的人机接口,满足主流平台的应用,能够适应存储技术的发展趋势,并且是已经取得多项成功案例的存储架构和应用模式。
(2)可用性:存储系统在任何时候,都能够保持在线状态,满足7X24X365全天候全方位不间断业务的需要。
(3)实用性:具备很高的性能,数据吞吐量大、系统响应时间快、负载能力强,适应规模快速壮大发展的业务需求。
(4)可靠性:采用稳定可靠的成熟技术,存储系统任何条件下都可以保证数据的完整性、保证数据不损毁、不丢失,满足关键任务的要求。
(5)易用性:具有良好的投资保护,系统管理人员在无额外培训的情况下,就可以胜任新的存储系统的配置、管理和维护工作。
(6)开放性:适应多厂商、多平台和系统的持续性发展,适应不断增长的海量数据存储需求。
(7)安全性:确保任何情况下的数据丢失,都具有快速恢复的能力,支持系统扩容时的在线处理功能;确保未经授权的数据不被访问、测览、读取、写入或者执行;确保传输过程中的数据不被窃取、篡改;确保未经授权的空间不被使用或者授权使用的空间以非授权方式使用。
(8)兼容性:能够与原有系统无缝集成,还能够实现与同一厂商不同时期的产品相互兼容,实现与不同厂商的产品之间相互兼容,包括在线扩容,具有容错处理能力,确保读者可随时访问各类数字信息资源。
(9)扩展性:能有效地支持多系统多平台及多种应用的异构处理环境,在系统的发展目标中,能够建立分级管理的存储系统,使大量访问频率不高的数据可以存放在成本较低的二级存储设备(如磁带库)中,形成合理的层次化数据处理系统。
2.5 选择存储系统的几点思考——求真务实促发展
(1)要正确看待资金的投入问题。现代图书馆是当代高科技发展和应用的一个亮点,实现数据集中存储与管理和多平台共享、低成本备份与保护等,已经成为现代图书馆发展中极为关注的焦点,投入问题已经成为制约现代图书馆进一步发展的重大因素之一。解决这一问题的关键在于克服盲目性,规范理性的投资行为,投入规模要与图书馆的发展目标定位相协调、与图书馆整体功能规划相一致、与当前发展长远建设相配套。
(2)要对图书馆的存储内容实行科学分类。网络化存储系统的建设需要昂贵的资金作保障,不是什么数据都值得花费巨大的代价去保存,现代图书馆重点保障的存储内容是特色数据信息资源,所谓特色除了其它条件就是人无我有包括经过数字化的特色馆藏书刊资源、地方特色资源、科研特色资源、教学特色资源、专题服务特色资源,以及服务于传统图书馆集成管理系统涵盖的书刊信息资源、流通信息资源、采编典信息资源和服务管理信息资源。相对而言其它类型数据信息资源的存储保障,完全可以采取灵活的办法、花费较低的存储代价来解决。
(3)要坚持从实际出发,原有存储系统如基本适应图书馆网络建设发展需要就不应泫去改变。虽说网络化存储是一种趋势,但在实际应用中还是应该够用就好,不需要太多的锦上添花,不要盲目追求最先进的方案,最先进的不一定是最合适的,最合适的未必就一定是最先进的,先进总是相对而言。
(4)对社会成果即经购置整合的各类电子出版物、数字图书要坚持为我所用,服务为先,资源共享的原则,强调有偿使用、有偿拥有、有偿存放,未必每个图书馆都要花费巨额资金配置专门的服务器和存储设备,尤其是中小型图书馆,要打破共享资源数据存储的时空概念,这些数据存放何处并不重要,重要的是有效地利用这些资源,为读者提供优质的服务,把有限的建设资金投放在本馆特色资源的数据存储上。
(5)要充分发挥大型图书馆、特大型图书馆的数据资源、存储资源、技术储备、外文资源的综合优势和地缘覆盖作用,进一步整合优化扩充网络存储资源,迅速提升存储系统服务功能,合理规划联合共建资源共享布局,逐步形成地域、区域或同城数据存储中心和数据服务中心。
收稿日期:2004-06-10
标签:图书馆论文; 数据存储论文; 存储服务器论文; 服务器类型论文; 硬盘论文; raid论文; raid磁盘阵列论文;