试论虚拟图书馆的词汇控制,本文主要内容关键词为:试论论文,词汇论文,图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G250.76 [文献标识码]A [文章编号]1003-2797(2002)01-0053-03
1 虚拟图书馆的词汇控制分析
“虚拟图书馆是因特网上组织信息资源的一种有效而又经济的形式。具体说来,虚拟图书馆就是根据特定的目标,选定信息资源的学科领域,对有关的网站网页进行搜索和收集,加以鉴定核实,并对核实后的网址进行合理组织,使之能够提供检索、浏览和链接的信息集合。”[1]因此,虚拟图书馆的本质特征可概括为下述三点:其一是虚拟图书馆都是专题性的,没有综合性的虚拟图书馆。其二是虚拟图书馆要对链接进行鉴定核实,不产生死链。其三是虚拟图书馆要对收集的信息进行分类、编排等合理组织。
与数字图书馆相比,虚拟图书馆无需自己的藏书,而是要对网上已经存在的信息资源进行有序化组织,并提供相应的检索与浏览功能。与一般搜索引擎相比,虚拟图书馆具有学科专业性强、信息组织有序化程度高等特点[2]。
虚拟图书馆的组成一般包括网页网站收集、标引、检索浏览和维护等子系统。其中标引子系统是影响虚拟图书馆检索效率的最重要因素之一。纵观互联网上信息标引的现状,以及情报语言学和情报检索学的研究成果在网页网站标引中的可能应用,从理论上讲,虚拟图书馆中的词汇控制方法可作如下归类。
1.1 人工赋词标引
这种标引是由标引人员在对网页网站内容进行分析的基础上给出标引词,并组织主题词倒排档。该标引方法可分为人工受控标引及人工关键词标引两种。
(1)人工受控标引。这种标引需要相应的受控词表。 虚拟图书馆大都为某一学科专业的,而大部分学科专业都有了自己的主题词表,所以这种标引方法从理论上讲是可行的。然而,在实践中却存在着以下局限性。首先,标引成本高,这不仅包括词表的维护费用,还包括标引人员付出的大量智力劳动。其次,用户检索的困难度增大,这是因为用户用虚拟图书馆进行主题检索时,不仅要学会检索方法,还要通晓主题词表的使用方法,方能得到较理想的检索结果。而一般网络用户及传统的联机检索用户与图书馆用户相比,其组成人员更为复杂,他们要学会检索方法可能并不困难,但要通晓主题词表的使用方法则是很难的,再加上网络用户检索时很少通过代理,而是自己直接检索,所以难以得到较理想的检索结果。一个补救的措施是设计词表的联机帮助子系统,但这样不仅会增加虚拟图书馆的建设成本,而且也会增大用户使用的困难度。
(2)人工关键词标引。 这种标引方法是由标引人员在对网页网站内容进行分析的基础上给出标引词。这种标引词既可是由标引人员从网页网站内容中手工抽取的,也可是由标引人员重新给定的。这种标引属于自然语言标引的一种,虽然无需主题词表,但仍需标引专家或训练有素的标引人员来实现。
1.2 自动抽词标引
这种方法是由程序从网页网站的素材中,根据一定的算法(如加权、Web网页中的标记符号等)而自动抽取网页网站中所用的关键词。 这是一种纯粹的自动语言自动标引,无需受控词表,也无需标引人员的加入,再加上广大网络用户习惯于自然语言检索,所以,采用这种方法建立的虚拟图书馆不仅成本低,用户友好程度也高。但由于自然语言中存在着众多的影响检索效率的因素,所以检索效率难以得到保障。这种词汇控制方法又分为基于Web页面标记的自动抽词标引和基于Web页面素材的自动抽词标引两种。
(1)基于Web页面标记的自动抽词标引。目前Web页面大都为 HTML文档,文档中的〈meta〉标记用于提供该网页的标引词,以供虚拟图书馆中自动标引程序识别并抽取,组织虚拟图书馆中的关键词倒排档。HTML中〈meta〉标记的词既有由HTML文档自动生成,也有由HTML文档制做者赋予的,前者大都是有关文档属性的描述,后者赋词的随意性很大,甚至有些文档制作者为了提高被检出的几率而制作“鬼页”,从而严重影响检索效率。另外,HTML文档的严重缺陷之一在于难以实现语义理解。随着INTERNET应用领域的扩展,对Web页面智能化需求的呼声越来越高,XML(可扩展标记语言)以其灵活性、可扩展性及语义的理解能力等优势,已于1999年被W3C(万维网联盟)颁布为Web信息组织与传输的一个新标准,并大有取代HTML之趋势[3]。在虚拟图书馆中,可编制某学科专业的DTD(Cocument Type Definition)文档或利用XMLSchema(包含在XML文档中),验证该学科专业的XML文档的有效性,定义该专业的关键词标记。XML 文档的制作者在关键词标记中书写用于描述页面信息的关键词,利用虚拟图书馆中的倒排档生成程序来自动抽取XML页面的关键词,从而形成关键词倒排档。上述这两种方法的实质是由Web页面制做者对所发布的信息进行标引,从而实现词汇控制。它类似于传统图书中的CIP(图书在版编目)。
(2)基于Web页面素材的自动抽词标引。这种方法基于的Web 页面素材可以是Web页面的标题、文章的标题、文摘乃至全文。对于英文Web页面,可采用一个专业的停用词表,凭借自动抽词程序而抽取关键词,再根据一定的加权评价算法,从中分析产生标引词。对于中文Web 页面,首先要实现自动切词,然后再产生标引词。由于汉语自动切词技术目前还不完全成熟,所以这种方法对于中文Web页面而言, 其可操作性不强。
评价虚拟图书馆的主要指标是收录相关网页网站的网络度、标引的专指度和网络度、文档的编制以及系统的检索功能等,这些指标将直接影响到系统的检准率、检全率、成本费用及用户的易用性等性能。由上述分析可知,仅就标引子系统而言,采用受控词表标引而实现的虚拟图书馆的检索效率能够得到保障,但成本费用高,对一般网络用户的易用性差。而采用自然语言标引实现的虚拟图书馆,成本费用低,一般网络用户的易用性好,但检索效率得不到保障。那么,如何能保证较高的检索效率,同时又具有较好的用户易用性及较低的成本费用呢?笔者认为,在虚拟图书馆中采用自然语言标引,加入后控词表实现词汇控制,是一个较理想的解决方案。
2 虚拟图书馆中后控词表的实现方法
加入后控词表的主要目的在于提高虚拟图书馆的检全率。后控词表的原始思想是,由情报检索系统的学习子系统捕捉用户检索式中的语义片断,尤其是由逻辑“或”联接起来的语义片断,并将其纳入后控词表中。这样日积月累,结果在后控词表中形成比较完善的语义网络。检索时,用户输入检索词,检索子系统在后控词表中查出该词的语义片断,从而实现自动扩检[4]。实际上, 由后控词表原始思想所产生的后控词表中的语义片断,都是聚类关系。由于网络用户的广泛性及随机性,这种聚类关系不仅有同义关系、准同义关系、等级关系及相关关系,还有相当一部分的模糊关系,再加上检索式的类型千变万化,所以这种方法产生的后控词表的质量得不到保证。为了得到质量较高的后控词表,必须加入人工干预。
由于虚拟图书馆大都是某一学科专业的,可由该学科专家预先编制一个后控词表初表,或者在某学科专业的受控词表的基础上由人工建立一个后控词表初表,再由专家审定,这是一个比较理想的做法。
综上所述,虚拟图书馆中后控词表的实现步骤如下:
第一步,由人工将某学科专业受控词表中的等同关系、准同义关系及相关关系抽取出来,进行分析和组织,形成多个聚类关系的语义片断,由专家审查后构成后控词表的初表。对于没有受控词表的学科专业,由专家直接编制一个后控词表的初表,并将该表上传到服务器。
第二步,由捕捉子程序捕捉用户检索式中由逻辑“或”联接起来的检索词语义片段,从而形成一个基于用户保障的临时语义表。捕捉子程序位于服务器端,当有用户访问虚拟图书馆时可自动激活。
第三步,当由第二步产生的临时语义表达到一定规模时,由人工对其进行分析,将其中有价值的且在后控词表中没有的新的语义片断纳入到后控词表中,并将临时语义表的内容消除。
第二、三步多次循环。在虚拟图书馆运行初期,临时语义表中有价值的新的语义片断较多,但随着时间的延续,后控词表将日臻完善,临时语义表中有价值的新的语义片断会越来越少。当后控词表基本完善后,捕捉子程序即可停止运行。这样得到的后控词表既有较高的质量,又具有在相当长一段时间内的稳定性。
此外,对于多义词,可在后控词表中采用加限定词的方法对其实施控制,以提高检准率。
3 具有后控词表的虚拟图书馆的逻辑结构分析
加入后控词表后,虚拟图书馆的逻辑结构如下图所示。
由上图可知,人工搜索、识别、标引(采用人工赋词的自然语言标引方法)、著录Web网页后,形成虚拟图书馆的顺排档, 再抽取顺排档中关键词字段的关键词形成虚拟图书馆的关键词倒排档。网络用户对自己的需求进行分析,形成检索式,通过后控词表由检索策略分析子程序对检索式自动扩充重组,如果检索式中有多义词的检索词,系统将提示用户选择合适的限定词,继而形成一个新的检索式。将新的检索式与虚拟图书馆中的关键词倒排档进行匹配,形成检索结果的文献号集合,调用顺排档浏览有关著录事项。如果需要原始文献,再通过超级链接调出相应的网页网站。
由人工对专业受控词表进行分析,抽出语义片断,再由专家审查后形成后控词表初表,对于没有受控词表的学科专业,由专家直接预先编制一个后控词表初表,上传至服务器。当有用户访问虚拟图书馆时,位于服务器端的捕捉子程序将自动被激活,捕捉用户检索式中的语义片断,并自动进入临时语义表中。当临时语义表中的数据达到一定规模时,由人工辨别新的有价值的语义片断,并纳入到后控词表中。
4 结束语
虚拟图书馆是互联网发展到一定阶段的产物。从本质上讲,虚拟图书馆类似于专业搜索引擎。目前互联网上的大多数搜索引擎的检索效率并不理想,使网络用户难以接受。检准率之所以低,主要是因为搜索引擎的自动抽词标引的标引词,大都直接来自于HTML文档中的〈meta〉标记,该标记中给定的词,要么是由HTML自动形成的,要么是由HTML文档制作者提供的,这两种方法产生的标引词的质量都难以得到保证。另外,全文检索基于Web网页上的标题乃至全文,检索素材中用词的专指度较低。检全率低则是由于检索子系统缺乏扩检的机制。所以,虚拟图书馆的建设应吸取一般搜索引擎中检索效率低的教训。笔者认为,虚拟图书馆的主题标引,应采用人工赋词的自然语言标引方法,以提高检准率;同时,加入后控词表以供用户检索时实现自动扩检,从而提高检全率;对于多义词,可由系统显示用户选择限定词来提高检准率。这样,用户的易用性不会降低,成本费用也不会大幅度提高。从实践看,这也许是虚拟图书馆中词汇控制的有效途径。