书目数据库中冗余数据的影响及解决方案,本文主要内容关键词为:冗余论文,数据库中论文,书目论文,解决方案论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着信息时代的来临,全球每年出版的各类书刊资料呈现迅猛增长的趋势,信息总量日趋庞大。而图书馆由于资源建设与管理自动化、标准化、网络化的发展的需要,不但要对新购进的图书资料进行标准化的分类编目,而且还要对原有的馆藏图书进行回溯建库,以便纳入整个计算机自动化管理系统,因此图书馆书目数据库中的数据信息膨胀迅速,大中型图书馆的书目数据库均在几十万至上百万种以上,并且还在继续快速地扩张。
1 问题的提出
图书馆书目数据库信息容量的日益庞大,一方面标志着图书情报业向现代化、网络化的迅速发展,另一方面也对信息技术和数据库管理提出了更高的要求。书目数据的管理是图书馆数据库管理中最重要的一个方面,也是图书馆提高管理水平与服务质量的重要保障。数据库的一大特点在于其中存放的海量数据,并且数据与数据之间存在着大量相关性,但随着信息的爆炸使数据库以令人吃惊的速度不断膨胀,数据库中数据容量的级别正从GB级迅速发展到TB级乃至PB级。
伴随着书目数据库的日益庞大,其数据维护与日常管理的任务亦越来越繁重,而其中不断产生的冗余数据的不良影响问题,也日显突出。所谓冗余数据是指书目数据库建库与回溯过程中,由于各种原因产生的重复的或无效的数据,这些冗余数据的存在,不仅增加了数据库的容量,占用了宝贵的存储空间,增加了数据库管理与维护的工作量,而且造成了标准化书目数据库的混乱,降低了图书馆自动化系统的运行速度与效率,并可能造成整个数据库系统的管理混乱甚至濒于崩溃,因此对书目数据库实施有效的日常维护与有效整合,已经成为图书馆自动化进程中面临解决的迫切任务。
2 冗余数据产生的原因
书目数据库中冗余数据的产生,主要是由于在文献机读目录的数据加工和回溯建库过程中,各种人为因素和自动化管理软件的不完善等因素造成的,冗余问题大致分为以下几种情况:
(1)新建书目数据时查重失误。或只从单一途径查重,或采用多个字段的“与”查重等,均可能造成对库中数据的查重失误,导致重复数据的产生,当然这种情况不光产生冗余数据,而且造成目录组织中的同书异号现象,不利于数据库的规范化管理和流通排架组织。
(2)由于书目数据库合并或升级产生的问题。由于在原数据库中的书目数据存在错误,导致在新书分编时的查重不彻底。如我馆把原库中的数据导入新库时,因为原库结构的限制,致使长书名中20个字符后的部分内容丢失,当用全书名查重时便出现查不到的情况。或者由于库中数据字段存在的错误,或者是由于系统对字符和标点符号兼容性差,均会导致查重策略的失误,也会产生一些冗余数据。
(3)针对套书与连续出版的图书处理方法不同。如果按各册分别著录,也会产生一些“必要的”冗余数据,说是“必要”,是因为按照有关著录标准的要求可以按各分册分别著录,说是“冗余”,是指若按成套图书进行集中著录或总著录,可以省却只为区分差别细微的分册而产生的多条书目数据。因为只要把分册书名著录在有关字段作为检索点,同样可以达到有效检索的目的。当然,如果有的计算机管理软件对种和册的借阅有特别限制的话,那又该另当别论了。
(4)在分馆合并过程中数据融合采取权宜之计。例如有些院校合并后图书馆对各校区图书的回溯建库时,为了加速实现校区间文献资源的共享,有的对原有图书不作改编处理,而只在原索书号上添加区分符加以识别,如果某些系统对同书异号排斥的话,那也只能另建书目,允许“必要”冗余数据的存在。但在允许同书异号的系统中应加以归并处理,避免冗余数据的产生。
(5)自动化管理软件自身存在的不足。由于某些管理软件的不完善,如对半角、全角字符的不兼容识别,或不支持对标点符号的模糊查询,或对其他语种的不兼容性等等,都会导致书目数据查重和合并的失误。另外,一般管理软件往往还不具备编目时自动查重、提示的功能,依靠手工输入方式难免会产生误差,这些也会使冗余数据在不经意间产生。
(6)一些分编著录规则制定的要求,也会使书目类型、文种类型、载体类型等区分过细,导致各种著录内容相同而类型不兼容的书目数据的产生。如目前我国有许多出版社引进外文原版图书的版权在国内影印,或者有些图书只是重印而非再版,其内容甚至版式与原书完全一样,在排架管理和实际使用中经常与原书集中管理,但按要求有的要做细微的版本区分,这些也是值得工作实践中商榷、斟酌的。目前也已经产生了一些要求对不同文种、不同书目类型的文献著录一体化的观点。
3 对书目数据库的影响
正是由于种种主观与客观的原因,导致了书目数据库中大量冗余数据在无意或无奈中产生,而冗余对数据库意味着什么呢?
(1)数据冗余直接导致数据库容量日益庞大。首当其冲便是吞噬了内存和外存大量宝贵的存储空间,影响了系统整体的正常运行,长此以往必然会降低管理系统的性能和效率,影响图书馆各项业务工作的顺利开展。
(2)由于冗余数据的产生,很大部分原因是因为原始数据或原库数据的错误或者不标准所致,这不仅会影响书目数据库的正常运行,降低利用效率,使管理和业务工作出现分析偏差,导致决策失误。而且还会影响馆际间书目数据的共建共享,影响数据的上载和导入进程。
(3)冗余数据的大量存在,不仅增加了硬盘等硬件设备的开销,而且提高了系统日常维护和管理的成本。大量无效和重复的劳动,浪费了有限的人力和物力,影响数据的标准化和完整性维护,降低了图书馆运作的经济效益。
(4)从书目数据库的发展角度看,数据库中无效数据和冗余数据的存在,对管理系统的硬件扩容和软件升级都增加了难度,影响了数据库向标准化和网络化的发展。
4 解决方案
冗余数据是影响书目数据库平稳、高效运行的噪声,为了切实有效地提高书目数据库的运行效率,保障图书馆各项业务和管理工作的正常进行,对书目数据库中冗余数据的问题必须采取积极主动的姿态,尽早提出和实施有效的解决方案。
(1)把握源头,加强规范。制定数据库人员准入制度,严格把关,加强对编目员的著录标准化、规范化的业务培训。在书目数据新建和回溯倒库伊始即制定规章制度,包括小到字母、标点的录入及全角、半角字符和大小写的使用等都要有明确的规定。提高编目员计算机应用能力和系统软件的操作水平,增强编目员对系统软件问题的处理能力,从而避免人为因素“制造”冗余数据。
(2)经常维护,加强管理。技术部门要加强用户管理和业务权限的授予,在经过阶段性的编目和建库后,技术人员要对书目数据库及时进行全面的维护和整理工作,负责检查、合并、删除冗余数据,经常对数据库进行备份和索引重构,保障系统整体的正确性、稳定性和高效性,保持数据库的动态更新和完整。
(3)及时处理,减少冗余。对已经调拨、剔旧和理赔的图书的书目数据要及时进行相应的处理,减少冗余数据的存量。同时要慎重对待数据库的合并和导入,必须全面考虑可能产生的后果,有条件的应该先进行可行性试验,防止对现有数据库造成不必要的损失。
(4)完善系统,实时监测。应该要求系统软件开发商或自行开发接口程序,增强计算机编目过程中的自动报错、提示功能。如针对关键字段ISBN、书名等设置自动匹配查重的功能,增加对冗余数据的有效监测力度。另外要求系统软件能支持模糊查询功能,智能识别多种语言和各种符号,具有较好的兼容性和可持续发展性,易于实现产品的升级换代,不断提高软件的性能,减少由于系统自身原因造成的问题。
(5)合理设置,统一标准。针对计算机编目的使用字段和各种标识符号的设置,要统一标准,杜绝设计中的随意现象,改进数据库建设中数据设计的不恰当问题,因为一旦设定不合理,会造成大量冗余数据的产生。同时由于问题产生的多样性、复杂性、持续性,往往回头纠正的话需要付出加倍的工作努力。
在信息资源通过网络共享已成为图书馆事业发展趋势的今天,建设一个全面、有序、准确的反映馆藏文献信息的书目数据库,是图书馆全面实现自动化、网络化和数字化的前提条件,也是图书馆文献资源共建、共享的主要内涵,通过建立高标准、高效率的数据库,有利于优化文献结构,提高信息资源的有效利用率,同时使图书馆的管理和服务模式发生崭新的变革。
收稿日期:2004-01-06