基于Web的期刊全文检索系统的设计与实现_全文检索论文

一个基于Web的期刊全文检索系统的设计与实现,本文主要内容关键词为:期刊论文,检索系统论文,全文论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G354.4

随着Internet的迅猛发展,网络已成为一个巨大的信息集散地。为广大的网络用户提供更好的信息检索服务,以实现信息资源的最大共享,是信息工作者的重要职责。全文检索技术是20世纪80年代得到快速发展的一项新型检索技术。它的新颖之处在于,它可以使用原文中的任何一个有实际意义的词(字)作为检索入口,而且得到的检索结果是原文献而不是文献线索。我们在构建一个期刊网站时,将历年来发表在该期刊上的文章进行整理建成了一个全文数据库,取得了较好的效果。本文将简要的阐述它的设计及实现过程。

1 全文检索系统概述

全文检索技术是一种面向全文,提供全文的新型检索技术。全文检索系统以文本资料为主要的处理对象,实现内容信息的存储与检索,用户可以将任何有意义的自然语言作为检索词,获得的检索结果是包含有该检索词的所有的原始文献。这显著区别于传统的书目型的检索系统。一个全文检索系统一般由全文数据库和全文检索技术两个核心部分组成。

(1)全文数据库

全文数据库是一种相对新颖的强密度型数据库,它指存储在文献全文中主要部分并提供全文检索的源数据库,它可以是单一文献,如字典、法律条文、经典著作等,也可以是许多文献的集合,如期刊论文等。与关系型数据库不同的是:全文数据库的结构没有一个统一的标准,而是随着全文检索软件的不同而不尽相同。它一般由一个变长的主文件和一个在索引文件控制下的倒排文件组成。

(2)全文检索技术

全文检索是对文献全文内容进行字符串的匹配检索,包括字符串检索、截词检索、布尔检索、位置检索。其中位置检索是全文检索的特有技术,它最能体现全文数据库的优势。所以有人认为全文检索实际上就是位置检索。

全文检索系统的特点:

① 检索结果的直接性、客观性、原始性。全文库中的信息基本上未经信息加工的原始文本,具有直接性、客观性、原始性。

② 信息检索的彻底性。可对文中任何字、词、句进行检索,具有较高的查准率、查全率。

③ 检索语言的自然性。用户可用任何自然语言进行检索,无需额外学习人工语言,检索负担轻。

④ 系统制作的高效性。由于避免了传统检索系统复杂的受控标引过程,系统对文献只需不多的加工,就能为用户提供检索的全文库。另一方面,全文系统的信息源可来自各种形式的电子文本,系统只需把这些文本整理成标准形式,即可迅速发布,易于实现自动化。

2 期刊全文数据库的设计

我们采用了一家公司的全文数据库技术,根据系统的需要,建立了三个全文数据库;期刊全文数据库、锚点词库、图表库。其中期刊全文数据是保存发表在该期刊上的论文全文的全文库,锚点词库主要是用于建立锚点知识链接,图表库是为了输出图表,在此主要介绍一下期刊全文数据库的构建。

(1)纪录的确定 确定纪录的原则是内容逻辑上有相对完整性, 形式上易于分割。在期刊全文库中,我们以单篇论文为一条记录单位。

(2)字段的确定 针对期刊上文章的特点, 一条记录除了正文字段外,我们还加上文献题名、栏目、作者、卷期这四个字段。这样做是因为:利用正文以外的信息项,以增加检索入口,这样既可以进行全文检索,又可以进行字段检索,以提高检索的查准性能,提高检索速度。一条记录的结构如图1所示:

文献题名 作者 栏目 卷期 正文

图1 记录结构示意

(3)建立索引 为了实现快速的全文检索,必须为全文库建立索引文件,检索则是基于这些索引进行的。索引的建立方法可分为按字索引,按词索引。按字索引将每个汉字按单个词对待,它避开了汉语分词的难题,实现起来比较简单,但系统检索速度慢、误检率高。按词索引是预先建立切分词典,以次建立词的索引。它的优点在于检索速度快、查全率高并能根据词义进行扩检和缩检。其缺点是词典的维护工作量大,而且由于词汇的动态变化,难以达到彻底的专指。鉴于这两种方法的优缺点,我们采用了字词结合、以字为主的索引结构。通过对源数据块的扫描,不仅记每一汉字的出现在数据块的位置信息,而且记下一定长度的字串信息,即词的位置信息。尽管这些词可能有一些没有实际意义,给系统带来一定的噪音,并增大了索引文件,但可大大提高系统的响应速度的查准率。由此我们建立索引汉字及一些词的倒排文件,将这些字词的倒排文件组织成索引文件。索引文件与倒排文件在物理上是分开的,在逻辑上也可组合为倒排索引文件。检索时由索引文件指向倒排文件,倒排文件指向主文件。

检索的时候,如果用户输入的是字,则直接查找字索引文件,若找到,则输出检索结果,反之检索失败。如果用户输入的是词,先查找词索引文件,若找到,则输出检索结果,找不到则通过字索引进行组配,组配成功,则输出结果,反之检索失败。

3 Web的动态交互

将这个全文检索系统在Web上发布,即是要建立客户端与Web服务器的动态交互的过程。客户端通过浏览器将查询提交给服务器。服务器根据客户的请求调用程序执行对全文库的检索,并将结果以HTML的形式反馈给客户端。在众多的Web数据库的交互技术中, 我们选择了基于微软IIS服务器的ISAPI方式。因为第一:我们的系统运行于IIS 服务器平台,ISAPI方式与之具有较好的兼容性。第二:相对于其它的Web数据库交互的方式,ISAPI程序以动态链接库DLL的形式被加载到Web 服务器的进程空间中,能被多次使用,具有较高的效率。有利于提高系统的检索速度。

4 系统的特点

本系统采用B/S结构。服务器端采用Microsoft Internet Information Server(IIS)服务器平台。客户端采用IE或Netscape 等浏览器。它具有如下一些特点:

(1)检索入口全面。本系统不仅提供全文检索, 还能够从文献题名、作者、栏目、卷期等角度进行检索,同时还支持这几种检索入口的组合检索以及对全文的二次检索。为用户使用提供了极大的方便。

(2)检索速度快、查准率高。由于采用了字词结合的索引结构, 提高了系统的检索速度和查准率。

(3)具有初步的图表处理能力。 图表是文献内容的重要组成部分,从信息含量的角度,图表中包含的信息量往往超过文本信息,而且图表显示效果形象、直观。本系统通过动态链接的方法使之具备了初步的图表处理能力。

(4)能自动生成锚点。超文本是一种非线性的信息组织方式, 符合人们联想思维的方式。动态链接技术可将文档中的数据在逻辑上在组织成超文本结构,便于查询和检索。本系统利用锚点知识库,将文献中的专业词汇与其详细解释等相关信息节点自动链接起来,激发用户思维的拓展延伸。

5 系统的功能设计

本系统主要分为三个模块:数据前处理,数据库维护,信息检索。如图2所示:

图2 系统功能模块图

(1)数据前处理。 在这个模块中, 将计划加载到全文数据库中的数据进行整理,规范格式。我们把期刊上的文章都转换为文本文件(.txt文件),并对其格式进行规范,使其能被全文库识别。对于本系统,每条纪录的格式为:

纪录起始符

字段表识 字段内容

……

例如:

TM环境法与自然资源法的体系关系(文献题名)

LM知识天地(栏目)

ZZ常纪文(作者)

JQ1999.6(卷期)

TX环境法与自然资源法的体系关系是法学界长期争论的问题,自然科学是社会科学赖以存在和发展的基础,要想弄清楚这个问题,恐怕还是要从自然科学入手。……(正文)

因为在文本文件中无法处理图形和表格,所以我们以锚点词的思路解决这一问题。首先,我们将文章出现的图表扫描成图形文件(.gif文件),并为每一幅图表赋一个唯一的文件名,以此名建立图表库,输出时自动建立链接,已达到显示图表的目的。

(2)数据库维护 在这个模块中, 我们对本系统建立的三个数据库进行维护。包括文献的追加、文献的删除、建立索引、生成锚点。

(3)信息检索。

① 系统提供多种检索途径,可进行字段检索、全文检索、或其二者的混合检索。检索界面如图3所示:

期刊全文数据库检索

图3 信息检索界面

② 结果输出 系统以二级显示的方式输出检索结果。首先按一定的数目(缺省为50篇)分屏显示命中文献列表,文献题名作为超链供用户选择查看全文。另外,系统还提供二次检索手段,即对当前的检索结果作进一步提炼,提高查准率。

在显示全文的时候,将用户输入的检索词以红色显示。在输出全文的过程,系统将全文字串与锚点词库、图表库中的词采用最长匹配法逐一匹配,若匹配成功,则在该字串下自动产生链接,其链接指向它的相应的解释文本或是图形文件。

6 系统数据流图

本系统数据流包括数据生成流、检索数据流。数据生成流包括:由准备好的全文文件(文本文件)加载到期刊全文库中,由图形扫描产生的图形文件建立的图形文件名文件加载到图表库中、由锚点知识库信息录入生成的锚点知识文件加载到锚点库中,以及由锚点库、图表库产生的锚点在期刊全文库的自动生成。如图4所示:

信息检索数据流包括:由用户输入的检索条件,经过系统的检索运算,从期刊全文库中提取命中的文献供结果输出。如图5所示:

图4 数据生成流图

图5 信息检索数据流图

7 结语

随着网络中文信息资源的日益丰富,开发网络信息资源的巨大的价值,已成为当务之急。全文检索技术正是向人们提供更友好、更方便的信息服务的工具,它在这个网络时代具有很广阔的发展前景,但目前的全文检索技术还存在一些不足,例如:各种全文库结构的不统一造成各种全文库的移植性差,缺乏通用性。另外,目前全文检索只限于字词的匹配,而不能实现在语义层次上的检索。因此,全文检索技术还需要我们进一步研究。

标签:;  ;  ;  ;  ;  ;  

基于Web的期刊全文检索系统的设计与实现_全文检索论文
下载Doc文档

猜你喜欢