论高校图书馆特色数据库的建设标准_全文检索论文

论高校图书馆特色数据库的建设标准_全文检索论文

高校图书馆特色数据库建设标准刍议,本文主要内容关键词为:刍议论文,图书馆论文,特色论文,高校论文,数据库论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

近些年,一些高校图书馆开始着手建设或已经建成了自己的特色数据库,并取得了阶段性成果。但是,高校图书馆界限分明的体制使各个馆在建设过程中单兵作战,模式各异,有的馆购买或自行开发的软件,不遵守图书馆数据库建设标准,导致著录标准、系统规范的千差万别,给特色数据库的将来共享造成了巨大困难。

高校图书馆特色数据库建设既要考虑实际的业务需求,又要考虑到未来数字资源建设的发展需要,有选择地采用合适的建库软件与相应的建设标准,应吸取国内高校图书馆特色数据库开发的经验与教训,确保特色数据的系统性和完整性。本文拟对如何选择建库标准等问题提出看法。

1 标准的选择

1.1 建库软件的选择标准

建库软件的选择应充分考虑该软件所采用的底层数据库技术,一般现行的特色数据库建库软件底层采用的都是关系数据库,而关系数据库严格的表格结构使关系数据库对数据类型的处理只局限于数字、字符等,而对图书馆领域内的大量文献类非结构化数据的处理,由于不支持重复字段、子字段和变长字段,对这些文献数据却只停留在简单的二进制代码文件的存储,特别是不能实现海量非结构化信息资源的管理与全文检索,显然不适合图书馆用户从简单的存储上升为识别、检索和深入加工的需要。因此,是否以非结构化全文数据库作为底层数据库是建库软件选择的重要衡量标准之一。

1.2 元数据标准的选择

元数据标准是指描述某种资源的具体对象时所有规则的集合,包括了数据项集合、数据项语义定义、著录规则以及计算机应用时的语法规定。每个数字图书馆的资料都有其独特之处,在元数据集的选用上要非常谨慎。优秀的元数据集既能全面完善地描述系统的资料,又要尽量保持和标准元数据集的兼容,增强数据交互能力和共享程度。一般说来,数字图书馆使用的元数据标准有两种来源:直接采用现成的元数据标准,通过制订详细著录规则的方法来处理;借鉴其它元数据的成功经验、制订相应的新的元数据标准。

1.3 数据交换标准的选择

建成的特色数据库及建库软件平台应该采用标准的XML文件作为元数据和数据的存储格式,提供基于OAI-PMH和Mets规范的数据交换方式。

1.4 全文检索标准的选择

全文检索需支持非结构化和结构化数据的统一管理,实现对各类非结构化数据全文检索与图、文、声、像关联检索。应提供全方位全文检索手段,支持多种检索运算符,支持包括外部特征与正文内容的各种逻辑组合检索、多字段复合检索、距离检索、二次检索、历史检索、相关词扩展检索、分类导航检索、西文(字符)字段支持前方一致检索、短语与句子检索功能等;提供基于同义词典的扩展检索功能,能够满足特殊应用领域的高查准率和高查全率的要求;支持对检索结果的各种排序:对检索结果可按与检索表达式的相关性和重要性程度排序;基于字段的排序;后进先出的快速排序。最为重要的是能够提供图、文、声、像多媒体关联检索功能,满足用户快速获取相关资源的需要。

2 软件的选择

笔者认为高校图书馆在特色数据库的建设过程中,不能贪大求“全(全部)”,但是应该求“全文”。特别是根据CALIS管理中心的规定,建立一个基于集中式元数据库的特色资源库中心门户,并要求凡是立项资助的专题特色库,在验收时,其数据量应不少于4万条,其中全文数据不少于20%。可见从长远角度考虑,应该将特色鲜明、有价值、利用率高的文献,特别是图、文、声、像并茂的特色文献尽量多地做成全文数据库。读者访问你的特色数据库就是为了检索他想要的特色文献全文,如果检索到的特色文献只有目录或摘要,还要他去浩瀚的纸本文献中寻找原始数据,这会使读者乘兴而来、败兴而归。从这点考虑,高校图书馆在建库中应优先选择具备强大多媒体信息加工和全文检索能力的建库软件。受到资源、资金、人才等诸多方面的限制,这方面大型图书馆制订的标准对高校图书馆不一定很合适,笔者对这个问题提出一些个人的看法,请同仁指教。

2.1 建库软件选择方面

目前国内已有很多种特色数据库建库软件,其中已有数家软件商与CALIS中心签订了第三方软件供应承诺协议书,但是这些建库软件绝大多数是基于关系数据库平台开发的,是不能从真正意义上实现特色数据库内容(图片、文本、音频、视频)的关联管理与检索,这对高校图书馆特色数据库来说是致命伤。由于关系数据库从一开始就定位于数字等结构化信息的应用需求,而对于各种非结构化文档信息、多媒体信息以及海量信息全文检索需求显得有些力不从心。关系数据库的基于中间件的解决方案又给WEB应用带来了新的网络瓶颈,应用服务器端由于与数据库频繁交互,因其本身的效率和数据库检索的效率造成WEB应用在服务器端的阻塞。与关系数据库相对应的是,非结构化数据库在数据模型上,采用字段、重复字段(多值字段)以及变长字段的机制,允许创建许多不同类型的非结构化或者说任意格式的字段,从而解决了关系数据库模型过于简单,不便表达一篇文章多作者、多主题词等文献领域中复杂嵌套问题,可管理各种类型的数据;摈弃了传统关系型数据库对图像、声音等多媒体信息采用简单的二进制字段存储方式,而采用外挂文件方式,实现对TXT、HTML、XML、DOC、PPT、PDF、PDG以及图形、声音等多媒体数据的高效管理和全文检索;在其底层存储机制约变革基础上,采用先进的倒排B+树索引技术(如浙江天宇的CGRS系统),从而实现了对海量信息快速全文检索的功能,并实现基于自然语言的任意字符串划串的全文检索和基于文献内容的智能全文检索;直接面向互联网应用,无需编程就可实现文档型和数据库型信息资源的直接上网发布与全文检索。

同时,非结构化数据库系统还内嵌全文检索引擎,避免了图书馆使用关系数据库进行资源建设后,在提供全文检索服务时需要再选购一套全文检索系统的双重投资问题,这对经费紧张的高校图书馆是非常有利的。

目前除了国内极少数几家软件厂商采用自主开发的非结构化数据库,如浙江天宇信息技术有限公司开发的CGRS系统无论是在功能与技术上,都是非常优秀的。而其他大多数仍然是基于关系数据库平台开发的,高校图书馆不宜盲目跟风,不考虑未来发展需要就选择大型馆推荐的软件平台。

2.2 数据存储与检索标准方面

采用图、文、声、像并茂的特色文献建成的特色数据库需要海量的存储空间,同时在海量的数据中要求全文检索时又快又准,这对数据库软件有很高的要求。

2.2.1 海量储存方面

非结构化数据库处理的对象多为海量非结构化数据资源,不仅检索功能强而且检索速度快,在检索速度方面一般不受文献量的影响。以CGRS非结构化数据库为例,数据库支持64位平台,单库容量可达TB级。

2.2.2 索引方式和全文检索方面

数据检索是任何一个数据库系统的核心内容和精髓所在,而进行数据检索之前必须建立索引,只有建立了严密的索引,才能使数据库强大的检索功能得以发挥。数据库索引方式的差异决定了数据库的检索方式及检索能力。现有关系数据库支持的索引只限于单字段索引、复合索引(多字段索引)等几种方式,对数据库的检索主要基于结构化查询语言(SQL),用户通过构造SQL查询表达式和设置各种查询条件,实现对关系数据库的检索,因为受到关系数据库的索引限制,其数据查询能力也受到很大的限制。由于有着灵活的数据结构,非结构化数据库中支持的索引方式比关系数据库要丰富得多,可以满足极其复杂检索的需要,其中字段索引兼容关系数据库的索引,子字段索引和全文索引(英文单词索引和中文单汉字索引)是非结构化数据库的特色,非结构化数据库甚至可以支持人工标引索引,中、英文混合索引等方式,配合非结构化数据库的格式化语言,可以对同一字段进行若干种不同的索引,以满足特殊检索的需求,数据库系统能够提供的检索方式,是和其对数据库内容建立的索引密切相关的,高度灵活的索引方式造就了高度灵活的检索方式,非结构化数据库对中文的全文检索效率比关系型数据库要高得多。以CGRS系统为例,100万篇全文数据响应速度在亚秒级内。

2.2.3 信息查全率和查准率方面

非结构化数据库采用自然语言处理和人工智能技术,提供基于内容的检索和关键词检索方式,并在检索中实现对于特定类目相关词的利用,大大提高了系统的查全率。同时非结构化数据库提供了后控制词表技术。后控制词表技术是提高自然语言全文检索效率,减轻用户负担的有效途径。该技术对于后控制词表采取数据库管理方式,与全文检索的检索式构造相连接。对每一个检索词提供用(UF)、代(USE)、属(BT)、分(NT)、参(RT)等关系词,用户可根据具体检索需求选取关系词,并将之增加到检索表达式中,从而实现检索表达式的优化,提高全文检索的效率。后控制词表技术的另一个特点是实现了基于网络的词表动态维护。多个用户可通过网络共享词表,根据检索的经验动态地维护词表,进一步进行具体的信息检索。这些检索技术对信息的查全率和查准率的意义非常大,是我们高校图书馆特色数据库建设方面所必须要考虑到的。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

论高校图书馆特色数据库的建设标准_全文检索论文
下载Doc文档

猜你喜欢