基于Web的信息服务_检索词论文

基于Web的信息服务,本文主要内容关键词为:信息服务论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

《中国大百科全书》把物质、能源、信息并列为现代社会的三大支柱。信息化成为现代化建设事业的核心。

信息的价值体现在对信息的有效利用之上。信息量的日益膨胀与目前低效率的传播方式导致的信息有限使用形成了一对矛盾关系,因此,信息传播方式研究成为当前情报工作者的重要任务之一。传统的手工及单机系统的信息服务方式严重阻碍了信息的广泛交流。计算机技术、通讯技术的发展为解决这一问题铺平了道路。

1 Internet成为信息服务的有效手段

Internet是全球规模最大的、用户最多的、影响最广的网络互联系统,到1994年底已覆盖150个国家和地区,连接近4万多个子网,300 多万台计算机主机,拥有用户近4000万,预计到2000年将会有2 亿个用户。Internet在世界范围内得到普及最重要的原因是其丰富的信息资源和完善的信息服务工具。

Internet的信息源主要包括基于服务器的文件系统和数据库系统。文件系统指各种形式的格式文件,如DOC、TXT、HTML等,提供此类信息的服务器称为文件服务器;数据库系统指由DBMS维护和管理的关系、层次或网状数据库系统,目前主要是关系数据库系统,数据库服务器提供数据库信息服务。

Internet除了有丰富的信息源之外,服务机构还为网络用户提供了功能强大的、多种形式的查询引擎,方便用户信息检索。

无疑,Internet将成为改善信息传播方式的有效手段。

Internet的信息传播有:电子邮件、远程登录、Web等多种方式。 实践证明,Web方式是提供网上信息服务的有效手段。

2 Internet的Web技术适合于网上信息服务的工具

(1)Web技术。

Web即World Wide Web(WWW),最初是1989年由欧洲高能物理实验室的研究人员提供的一个基于HTTP协议的超文本系统。但直到1993年,当Matthew Greay和MTT的一个学生设计的软件系统投入运行时,WWW 才在世界范围内流行,并成为Internet上用户最多的网上工具。WWW 是基于超文本的信息检索工具, 通过 Web 服务器的 URL ( UniversalResource Locator)地址将全球Internet网点上不同地点的相关数据或者同一数据库中的不同信息单元有机地编织在一起。

(2)基于Web的信息服务方式。

Web 技术是一种先进的计算平台, 适合作为网上信息服务工具。 Web的Brower/Server计算模式是一种三层结构的C/S计算, 它把传统C/S模式中的服务器分解为一个应用服务器(Web 服务器)和一个或多个数据服务器(包括文件服务器和数据库服务器),在服务器端集中了全部应用。Web服务器是远程信息与网络之间的通讯和翻译的中介, 而Web浏览器是与平台无关的“前端”,采用“请求驱动”的方式服务。

Web 网上信息服务的强大功能使得数据库服务机构都希望将自己原有的数据库以Web的方式移植上网或者直接在Web平台上建立新的数据库,全面开展基于Web的信息服务。

在Internet的Web上,用户不必使用复杂的检索命令, 就可以获得满意的信息反馈,而且价格低廉,同时可以获得巨量的免费信息,因此,国外有人预测,美国商业性联机检索服务的现有模式在5—10 年内将难以维持下去。基于Web的数据库信息服务将在以后几年内蓬勃发展,目前,一些面向普通家庭联机信息服务的机构如American Online 、Delphi Internet Server、Prodigy和Compusery以及代表美国信息服务业先驱的DIALOG和BRS等老牌公司积极提供与Internet的连接服务, 建立Web服务站点。

3 基于Web的信息服务技术

在基于Web的信息服务中,传统的联机检索工具由Web查询引擎和数据库检索两部分取代,Web查询引擎用于定位信息源, 数据库检索仍由DBMS完成,而Web与数据库的接口技术实现Web与数据库的融合。

利用查询引擎的Web信息服务方式示意如图1。用户利用查询引擎得到信息源的URL地址后,通过浏览器从Web服务器获取信息。Web 服务器通过HTTP协议建立HTML页面与其它Web服务器HTML 页面的链接(如果是数据库系统则建立与后台数据库的超文本链接),并以超文本置标语言HTML(Hyper Text Mark Language)描述信息页的形式向用户提供信息反馈,其中可以包括文本、图象以及声音等多媒体信息。

从示意图1不难看出,高效的网上服务依赖于两个重要的部分, 即查询引擎和Web服务器与数据库的接口技术。

图1 利用查询引擎的Web信息服务方式示意图

3.1 Web查询引擎

Internet是一个浩瀚的信息海洋,随着提供信息服务的Web 服务器的增多, 用户预选信息源显得更为重要, 查询引擎就是帮助用户检查Web页的全文检索工具。

Web查询引擎本身就是Web服务器上的Web页, 其目的是辅助人们进行信息检索。Web查询引擎很多,常用的包括Infoseek、Excite、 Open、Text、Lycons等等。查询引擎都拥有一个导航数据库和一套检索方法。用户连接上查询引擎后,只要输入检索词,引擎就会自动查找导航数据库,识别出与输入检索词匹配的URL地址表, 再根据地址表转入相应的Web服务器。

(1)导航数据库的建立。

查询引擎有一个导航数据库,导航数据库的优劣对查找质量有很大影响。向导航数据库添加记录的工作方式有两种:

①主动搜寻方式。大多数导航数据库是由Crawler程序、漫游Web的软件程序通过页与页的连接顺次查找新的地址收集来的,当找到新页时,自动把新页添加进数据库。

②被动更新方式。即由URL 的拥有者自行将信息登录到导航数据库中。

导航数据库的内容实质上就是对信息源进行语词切分、自动标引以后建立起来的数据库系统。它的检索项索引一般采用倒排文档结构。包括“检索词”与“信息源位置”间的对应关系,还可能有“检索词”的权重信息。其中“信息源位置”除了含有URL信息之外, 如果支持全文检索,它还应当有检索词的具体位置信息,如“文档的第m段第n 句第p词”。

导航数据库存有成千上万个Web页,并且每天都在增加。 在常用的查询引擎中,Lycos和Excite覆盖的面最广,有大约150万个Web页, 其次是Open Text,据称有130万个Web页。

(2)检索方法。

WWW查询引擎是高效的全文检索工具, 提供完善的途径检索导航数据库,诸如布尔检索、位置检索、字段检索以及概念检索等,并辅以自然语言的处理功能。部分查询引擎还包括支持按词组检索,向量空间模型的文献相似性检索,检索结果按相关度排序、结果分类、自动文摘等功能,以便与用户进一步交互,获得更加准确的检索结果。

查询引擎检索方法各有特色,但目标相同:即实现高查准率、高查全率、方便实用的全文检索。

(3)工作方式。

查询引擎的工作方式如图2所示。

图2 查询引擎的工作流程示意图

查询引擎的使用减少了用户网上信息利用的盲目性。

Web针对文件系统的服务只要通过HTML超文本链接即可实现, 对于数据库系统,则需要Web与数据库接口技术。

3.2 Web服务器与数据库的接口技术

八、 九十年代流行的关系数据库系统, 如Foxpro 、 Oracle 、 Sybase、Informix等,大都基于单机或主仆结构的计算机网络上。在此基础上许多服务机构建立起数据库。Web 信息服务要求这些数据库移植上网时采用优秀的Web服务器与数据库接口技术。

Web的数据库接口技术目的在于建立HTML页和数据库之间的链接, 使浏览器可以利用SQL语言实现数据库查询。 良好的接口技术不仅具有用户透明性,而且反馈迅速,节省用户检索费用。同样查询引擎也需要它优化导航数据库的网络连接,提高工作效率。

接口技术实现方式很多,根据工作方式的不同,可以分为以下两种:

(1)Web服务器接收检索请求,调用进程操纵数据库,并将结果以HTML页的形式返回给用户浏览器。

此方式目前采用得很广泛,又可分为以下两种:

①CGI方式。

CGI,即公共网关接口。服务器上运行的CGI程序可以与浏览器端用户进行交互,接收用户检索请求到服务器端,并通过数据库API 检索属于外部资源的数据库,最后产生HTML文档返回浏览器,完成数据库服务工作。CGI是实现数据库网上服务时信息交换必不可少的接口程序。 一个CGI通常有三部分组成:分析、读入数据;处理数据; 返回数据到用户端。

基于Web的数据库服务一般采用表格式检索, 表格实际上就是数据库用户的检索界面,它显示在浏览器上由用户填写,在点击提交按钮后将检索信息传递给服务器,并且指出服务器上处理这些信息的程序,实际上就是CGI程序。CGI的工作方式如图3所示。

图3 利用CGI实现表格式查询的概念性工作流程。

具体工作步骤如下:

·数据库用户获知某个提供服务的Web服务器地址, 利用浏览器向此站点请求检索;

·服务器返回带有检索界面的HTML文档,要求用户填入检索词;

·用户根据需要选择、填写检索词,然后提交检索。浏览器提交检索时,不仅发送检索词,还发送需要运行的CGI程序名;

·服务器根据要求启动CGI,并将检索词传递给它;

·CGI程序利用检索词通过数据库API检索数据库,获得结果;

·CGI将检索结果生成HTML文挡,传送回服务器, 再由服务器传递给浏览器。用户在浏览器上获得检索结果,数据库服务完成。

利用CGI实现接口功能优点:

·CGI作为最早的数据库连接技术,得到几乎所有的Web服务器的支持,即可以兼容多种Web服务器;

·使用方便灵活,可以采用Web服务器上的任何语言编程。 目前也出现了专用的CGI编程工具,如FoxWeb就支持利用FoxPro编写的CGI,成功地实现Web服务器与FoxPro数据和程序的交互。

CGI也存在很大的缺陷:

·CGI作为独立的外部的应用程序与Web服务器的其它进程竞争处理器资源,运行速度缓慢;

·对程序员要求较高,既要精通HTML语言,又要至少熟悉一种编程语言;

·CGI无状态管理功能, 对浏览器的每一次请求都要有一个对等连接的建立和释放过程,因此效率较低;

·虽然数据库查询语言SQL已经规范化,但每种数据库系统SQL又有自己的特点,影响了CGI程序的可移植性。

总之,利用CGI实现接口程序效率较低,前景暗淡。

②API方式。

API方式的接口程序工作方式与CGI 相当, 与CGI 不同的是, WebAPI以Web服务器的动态链接库(.DLL)形式驻留在服务器上,API 的应用程序与服务器处于同一地址空间,相对于作为外部应用程序的CGI, API方式更加高效和快速。

API方式的缺点在于其编程困难,需要多线程、 线程同步以及直接协议编程的知识。而且,API一般只依附于某一种服务器, 不能跨服务器运行。

目前主要的Web API有Netscape的NSAPI,Microsoft 的ISAPI 以及O'Reilly的WSAPI。

为了减轻程序员直接API编程的负担, 很多公司推出了对于自己的服务器API 高级编程接口。 Netscape 为其Netscape

Enterprise /Fasttrack Server推出了Live Wire,利用Javascript 语言操纵定义的数据库对象;Microsoft针对其IIS SERVER提供了动态链接库IDC,采用IDC脚本文件通过ODBC访问数据库,利用HTML模板文件返回检查结果。

API高级编程接口的提供仍需程序员有丰富的编程经验。 为了进一步简化系统开发,RAD工具随之推出。RAD工具的优点在于利用图形开发界面和可视化技术,用鼠标的指点拖曳即可快速生成代码,程序员无须编程即可获得所需应用, 而且增强了软件的可靠性。 目前投入市场的RAD 工具有ORACLE 公司的 Designer2000 和 Developer2000 以及PowerBuider的Development kit等等。RAD 工具的缺点主要是在功能上要受到所用工具的限制,生成的代码依赖于固定的模型,可能会影响总体运行效率。

(2)浏览器从Web服务器下载Java Apllet,如果其调用了JDBC, 则在本地运行它,直接访问指定的数据库。

JDBC是一个支持Java语言的、与数据库系统独立的API, 在功能上等同于ODBC。数据库系统只需提供一个JDBC驱动程序,就可利用Java完成数据库的访问。

此种方式的工作流程如图4所示,流程按顺序1—11。

图4 JDBC接口技术的数据库检索流程

数据库检索——→检索结果反馈——→

Java语言完善的网络功能使得此种方式在Web 信息服务领域发挥日益显著的作用,普遍认为它将取代CGI成为新的标准。

4 Web信息服务的优越性

Web信息服务有美好的前景,以下几点可以充分证明:

(1)Web服务依托于Internet,不仅可以在更广泛的范围内收集信息和提供检索,而且查询引擎使得检索手段更加灵活、方便,大大简化了检索过程。

(2)可以提供多媒体检索服务。 精彩动人的多媒体界面除了文本以外,还包括声音、图象等信息,这是其它信息服务方式所不可企及的。

(3)友好的检索界面,直观导引用户检索信息。Web由于其友好的用户界面而在短时间内风摩全球。Web 检索的基本方式是一个超链结构,用户既可按同一线索在不同层次上检索信息,也可随时调整检索方向,

获得更加准确的结果。

目前广泛使用的Web 浏览器导航工具有Netscape公司的Navigator和Microsoft公司的Explorer,使用方便,从另一方面增加了Web信息服务的吸引力。

总之,基于Web的信息服务将成为网上信息服务的基本手段。 无庸置疑,伴随着Internet技术、Web 技术以及新兴的数据库技术的产生和发展,Web信息服务还将被赋予新的内容。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于Web的信息服务_检索词论文
下载Doc文档

猜你喜欢