论虚拟图书馆软件设计,本文主要内容关键词为:图书馆论文,软件论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
对虚拟图书馆这一概念的理解到目前为止还存在着诸多争议。有的学者将其与电子图书馆和数字图书馆等同起来;也有学者从图书馆的形态角度考察,认为与传统图书馆相比,虚拟图书馆是一种没有物理形态的信息空间;还有学者将其理解为一种抽象意义上的环境或知识管理实体。在对因特网上存在的数以千计的虚拟图书馆考察后,我国著名情报学家陈光祚教授认为,虚拟图书馆是因特网上组织信息资源的一种有效而又经济的形式,是对特定学科领域的网络信息进行搜集和系统组织,并提供检索、浏览和链接的信息集合〔1〕。基于这一界定,在对因特网上存在的众多虚拟图书馆实体考察后,作者认为,从软件性能角度来讲,一个理想的虚拟图书馆软件应具备如下八大功能。
1 软件的基本要求
·软件的整体结构应为Browser/Server。虚拟图书馆的软件运行在因特网的WEB服务器上,用户通过自己终端的浏览器来输入虚拟图书馆的网址来访问虚拟图书馆的主页,通过主页来利用虚拟图书馆所提供的各种服务。所以,虚拟图书馆软件整体结构应是Browser/Server结构,前端为用户的浏览器(Brow-ser),后端为因特网的WEB服务器(Server)。
·软件应支持动态数据库的更新、检索、显示、超链等项功能。虚拟图书馆软件从本质上讲是一个对存放有存在于因特网上特定专题的网页网站描述项目的数据库进行各种操作的程序,而这个数据库应会随着网上资源的变动而随时更新,以反映因特网的实际,所以虚拟图书馆所操作的数据库是动态的。另外,对数据库的检索、检索结果的显示以及从检索结果中调出原始的网页网站是虚拟图书馆的基本要求。
2 顺排档数据库的管理功能
·变长字段、可重复字段的定义。顺排档中的各个著录项目的长度随网页的不同而有所变化,如果设置定长字段来存放这些著录项目的内容,势必会导致数据库的冗余度增加。另外,对一个网页来说,一个特定的著录项目可能有多个,如网站的URL,只有通过可重复字段的定义来录入一个著录项目的多项数据。
·数据库记录的增删改。因特网上的网页网站是动态的,随时都会出现新的网页、删除已有的网页及网页内容的变化等情况,为了真实地将这些变化反映到顺排档数据库中,就必须设置记录的增删改功能。
·外部数据的成批转换入库。顺排档数据库的数据生成一般来说有两种方式,其一是逐条记录输入,其二是将存在于其他格式文件中的数据成批导入。第一种方式可通过虚拟图书馆中顺排档记录的录入窗口来实现。第二种方式就要考虑原文件格式的类型,最基本的功能应设计将TXT、DOC、RTF、WPS等文本文件导入到顺排档数据库中的操作
·网页地址、网页名称、网页内容简介等项目内容的抓取入库。根据对目前因特网上存在的各种虚拟图书馆的考察,其各个著录项目的录入都是由人工实现的,既费时费力,效率又低,并且出错率高。由于虚拟图书馆中顺排档的大多数著录项目的内容直接取自于所收录的网页网站中的内容描述(如网页的URL,网页网站名称等),有的仅做适当的加工(如内容简介),所以对著录项目的内容直接从网页中抓取入库,并设置修改功能则是一种比较理想的做法。
3 后控词表的建立与维护
后控词表是在检索时进行词汇控制的一种方法,适用于自然语言情报检索系统。虚拟图书馆中建立和维护后控词表的方法有两种:
·人工建立与维护。根据虚拟图书馆所选的专题,由专家收集该专题的词汇,并分析它们之间的语义关系,将同义词及近义词进行聚类,形成一个专门文档。检索时,系统将用户输入的检索式中每一个检索词在该文档中查找,并将与检索词相聚类的所有词进行逻辑“或”连接,重新形成新的检索式,再进行检索。
·由程序自动建立与维护。系统捕捉用户检索式中用逻辑“或”连接起来的检索词,并将它们进行聚类,从而形成后控词表的初表。日积月累,后控词表就逐渐完善。这种方式建立的后控词表的质量完全取决于用户构造的检索式的质量。由于用户要构造检索式时随机性较大,再加上用逻辑“或”连接起来的检索词的关系除了同义关系和近义关系外,还会有其他关系,所以这种方法构建的后控词表的质量难以得到保障。为了提高后控词表的质量,人工干预是一种手段。
4 倒排档的自动生成与更新
为了提高检索速度,用户的检索大多在倒排档层面上进行,显示则是在顺排档层面上进行。当顺排档的内容发生变化时,相应的倒排档必须及时更新,否则,将可能导致显示结果与检索结果不一致现象。一般来说,虚拟图书馆中的倒排档有下述几种类型。
·关键词倒排档。这是关键词检索的基础。虚拟图书馆的管理人员对收集的网页网站进行关键词标引的结果放在顺排档中的相应字段中,关键词倒排档的生成程序抽取顺排档相应字段中的关键词,然后进行排序、合并,并且赋予与顺排档相连接的指针。
·题名倒排档。这是题名限定检索的基础。虚拟图书馆的管理人员对收集的网页网站赋以题名并放在顺排档中的相应字段中,题名倒排档的生成程序抽取顺排档相应字段中的题名,然后进行排序、合并,并且赋予与顺排档相连接的指针。
·分类号倒排档。这是分类检索的基础。虚拟图书馆的管理人员对收集的网页网站根据编制好的分类表进行分类,将分类号放在顺排档中的相应字段中,分类号倒排档的生成程序抽取顺排档相应字段中的分类号,然后进行排序、合并,并且赋予与顺排档相连接的指针。
·语种编码倒排档。这是语种限定检索的基础。虚拟图书馆的管理人员对收集的网页网站根据其使用的语言赋予相应的语种编码,并存放在顺排档中的相应字段中,语种编码倒排档的生成程序抽取顺排档相应字段中的语种编码,然后进行排序、合并,并且赋予与顺排档相连接的指针。
5 检索功能
·关键词检索。这是虚拟图书馆必备的检索途径之一,是基于关键词倒排档的一种操作。包括关键词的单词检索、导引式检索(一般调用一个与关键词检索窗口不同的导引式检索窗口来实现,如在WWW虚拟图书馆中Anthropology专题就有一个导引式检索窗口〔2〕)和完全的布尔逻辑检索等三种。
·限定检索。限定检索词必须出现在题名字段中、URL字段中、文摘字段中等。实际上,一个功能完善的检索软件应提供数据库中所有字段的限定检索。限定检索可以是关键词的限定检索,也可以是字符串的限定检索。
·截词检索。包括左截词检索、右截词检索及中间截词检索三种。
·语种限定检索。这是基于语种编码倒排档的一种检索方式。可以单独进行语种编码检索,以检索出所收录的某语种的网页网站。也可以作为一种辅助检索方式,限定上述各种检索结果的网页网站所使用的语言。
·后控词表检索。这是基于后控词表文档的一种检索方式。其目的在于提高检全率。
·顺序扫描的全文检索。这是基于顺排档的一种全文检索。上述各种检索均需要倒排档的支撑,但对于没有相应倒排档的字段则无法提供检索途径。为了弥补这个缺陷,就要设置全库顺序扫描检索。
·分类检索。这是所有虚拟图书馆的必备检索功能之一。但必须以分类表的设计和分类标引为前提。分类检索弥补了上述各种关键词检索符串检索中难以“鸟瞰全貌”的缺陷。
·检索速度。虽然虚拟图书馆软件所检索的数据库容量与一般的搜索引擎相比要小得多,但检索速度仍然是衡量其性能的一个主要指标。系统软件的设计者和实现者要尽可能地优化检索算法,以提高检索速度。一个常规的要求是系统的响应速度必须在一般用户可接受的范围之内,否则,就会严重影响系统的使用性。
6 检索结果的显示功能
·检索结果的分屏显示。这样可以减少网络通讯的负荷,提高显示速度。分屏显示时,应该设置每个屏幕显示的记录个数的参数,并且该参数的值应允许修改。
·检索结果的显示项目。应该显示顺排档中的所有著录项目。
·检索结果显示中超级链接。这是用户调出原始网页网站的入口。当一个网页有多个URL时,应分别显示,并提供相应的超级链接入口,这样当某一个或某些URL产生死链时,用户可通过其他URL来调出网页网站。
·检索结果显示时的排序。如按与检索式贴近的程度排,按网页名称排,按更新日期排等。当检索结果较多时,显示的序列尤其重要。该项功能应提供用户排序键值的选择。
7 软件的辅助性能
·汉字内码自动转换功能。包括GB与BIG5汉字编码之间的自动转换。
·软件的易用性。包括联机帮助,界面设计符合心理学的要求,使用过程中有向导等。
·用户信息反馈功能。应提供增加修改网页网站建议的录入与提交功能,也应提供用户对虚拟图书馆提建议的窗口。
·软件可管理的数据库容量。与一般搜索引擎相比,虚拟图书馆可管理的数据库容量要小得多,无需超大规模的数据库软件支撑,但容量要适中。
·软件的免费性。
·软件的稳定性。
8 软件的高级性能
下面列举的性能在目前的虚拟图书馆中还不具备,但随着人工智能技术的研究进展和因特网技术的发展,有可能将会实现。这些高级性能都是致力于虚拟图书馆构建的自动化。
·虚拟图书馆中学科专业或专题的界定描述与计算机自动识别。目前的虚拟图书馆对其学科专业或专题的描述与界定都是人工进行的,因此对收集来的因特网上的网页网站的甄别(判断是否属于所界定的学科专业或专题)也只能由人工实现。这种方法一方面降低了相关网页网站收集的效率,全面收集相关的网页网站从实践上讲不可能,另一方面由于这种甄别由人工进行,主观上判断的误差在所难免。如果建立一个模型来自动认别这种对学科专业或专题的描述,那么将有利于网页网站收集的全面性,并且与此同时可避免主观上的判断失误。
·因特网络学科专业或专题网页网站的自动搜索。根据上一步预建立的模型,调用因特网上的各种检索工具,对网上存在的相关网页网站进行全面的自动的普查。这个过程可通过设计一个WEB代理程序来进行,该代理程序将上述的学科专业或专题的界定模型进行自动识别后作为检索需求,提交给因特网上的各种检索工具,这些检索工具在各自的数据库中进行检索,并将检索结果返回给代理程序,代理程序接收来自各种检索工具的检索结果,进行去重整理,最后作为检索结果输出。
·虚拟图书馆中各个著录项目的自动获取。目前的虚拟图书馆中的各个著录事项的内容均由人工编辑加工而成,这是一项非常烦琐的工作。随着自动文摘及内容自动识别与提取技术的完善,可对上一步骤获取的网页网站进行内容自动识别与提取加工,从而形成虚拟图书馆中各个著录事项的内容,并存储在虚拟图书馆顺排档的相应字段中。
·虚拟图书馆中关键词的自动标引。目前的虚拟图书馆中的关键词标引都是由人工进行的,与一般的搜索引擎相比,标引质量较高,这也是虚拟图书馆的检索效率优于一般搜索引擎的主要原因所在。但这种标引的效率较低。虽然目前一般的搜索引擎大都采用自动标引,但由于自然语言理解技术的限制,尽管算法不断改进,但标引质量仍然很低。随着人工智能技术的完善,虚拟图书馆中的关键词标引的自动化将是一个趋势,并且标引质量将大大改善。
·虚拟图书馆中网页网站的自动分类。目前虚拟图书馆中对网页网站的分类与一般的搜索引擎一样大都由人工进行,其优点是准确度较高,但分类效率较低。虽然已有一些对网页进行自动分类的算法的报道,但大规模的实际应用系统还没见到。实际上对电子文本的自动分类的研究已有几十年的历史,但真正实用的算法和系统还非常少。其困难仍然在于自然语言的智能理解。
·虚拟图书馆中顺排档数据库的自动更新。由于因特网是一个动态性很强的网络,新的网页网站随时都有可能产生,已有的网页网站随时都有可能消失,甚至内容被改头换面。所有这些变化都要及时反映在虚拟图书馆的顺排档中。目前的做法都是由人工进行的,这就不可避免地导致更新滞后现象。如果设计一个类似于搜索引擎中机器人(Robot)的程序,在因特网上不停地搜索、判断、比较,及时地找出虚拟图书馆收录范围之内的新产生的网页网站、被删除的网页网站和内容被更改的网页网站,并将这些变化及时反映到虚拟图书馆的顺排档中,这将使虚拟图书馆中的数据库的维护更加及时、全面和准确。
对虚拟图书馆软件设计的研究,不仅可以用于现有虚拟图书馆功能的完善,而且还对构建新的虚拟图书馆具有指导意义。与国外尤其是西欧相比,我国的虚拟图书馆建设刚刚起步,已有的虚拟图书馆的构建技术水平欠佳,功能也不完善。研究国外虚拟图书馆的构建技术和功能设置,对我国的虚拟图书馆建设具有很强的现实意义和使用价值。