知识分类:Web环境下个性化知识组织的一种方法_检索策略论文

知识分类:Web环境下个性化知识组织的一种方法_检索策略论文

知识分类:Web环境下个性化知识组织的一种方法,本文主要内容关键词为:知识论文,组织论文,环境论文,方法论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G250.76[文献标识码]B[文章编号]1005-6610(2004)05-0009-05

1 引言

万维网上丰富的信息资源给信息专业人员提供了能满足用户信息需求的大量机会,但同时,也向那些试图对这些信息进行组织和检索的人提出了巨大的挑战。针对网上信息检索机制的设计,已经做了许多前期努力,开发出许多组织和检索信息的工具,但它们仍然跟不上Web资源的快速增长。特别是近年来由信息专业人员开发的先进的检索理论和工具没有被保留在Web上,或者未完全整合到网上知识发现和信息检索机制中去。

从Web的早期阶段开始,书签法(bookmarking)就成为跟踪感兴趣网站的大众工具。书签法的基本特征在于它是个人的,集中在特定的主题并能方便用户。但是,随着Web的继续增长,这些特征与不可抗拒的Web巨量信息相比,显得相形见绌。于是,用户开始更多地依赖于搜索引擎和主题指南,或者依赖于由搜索引擎和主题指南服务商为浏览和导航的需要而提供的主题表。这些主题表试图对范围广泛的Web资源进行组织,能够应用于各种各样的Web资源,而不是针对特定用户而设计的。它们对于辨别一般领域中的“某些”信息特别有用,但对于确定定义明确的有限领域中的特定信息却没有什么效果。它们类似世界地图,对于辨认大的地区极为有用。但对于想到具体地方旅游的人来说,就需要更细致、更专门的较小地方的详细地图。同样,几乎没有哪个用户想从某一图书馆得到“全部”信息,更没有人需要巨量的电子信息。

研究者和精益求精的检索者的工作领域通常是定义明确的和限定的。对于许多用户来说,为特定目的或学科领域而设计和定制的工具更为有效。因此,用于特定领域的检索工具的设计模式和机制应当是灵活的、适应性强的。通过这样的模式和机制,可以为单个用户创建和维护链接到所需资源的个性化地图,这些地图与数字环境下不断发展的信息需求和变化相适应。在这种情况下,特别是对精益求精的检索者来说,为特定领域定制的精细工具可能更有价值。同时,对于经常甚至偶尔使用Web的用户来说,也要求改进检索、导航和跟踪远程电子资源的工具。

本文探讨一种被称之为“知识分类”的定制知识组织和检索的新方法、新工具,试图就传统信息组织工具如何适应个性化的Web信息组织与检索,提出几点设想。

2 知识分类

X.Lin和L.M.Chan[1]开发出一种叫做“知识分类”(Knowledge Class)的工具,可以用作Web检索的概念模块。作为一种集成了传统的信息组织方法和先进的Web技术的框架,它由一个信息组织框架和一个图形界面组成。据称,这种“知识分类”方便基于某一特定主题或学科的等级结构式的信息组织,该结构类似叙词表和分类表的结构。此外,通过建立受控词汇和预存检索策略,使等级词表更有价值。它通过一个既包括动态链接(或软链接)也包括静态链接(或硬链接)的交互式的图形界面,链接到搜索引擎及有关网站。设计“知识分类”是为了获得一种新的信息组织和检索工具。当知识分类被完全开发出来后,它有望成为一种有用的工具,帮助个人检索者检索、组织、存储和管理电子资源,以备将来使用。

在http://lislin.gws.uky.edu/kc上提供了知识类的一些实例,它们基于一个用NetScap的javaScript开发的工作模型。目前,正在开发知识分类的Java版本。本文用“知识分类”一词表示这个概念本身,而用“知识类”一词表示采用该方法的实例。

为知识分类设计和试验的Web界面是受控词汇和自由文本检索机制的结合,该界面能够直接检索网上文献,并能创建和维护与远程资源的动态和静态链接。这个界面应该是足够灵活的,使用户能调整所存储的词汇和所创建的链接的广度和深度。换句话说,可根据需要来缩小或扩大该等级结构的分支。对于那些集中于特定学科领域为其顾客设计定制数字图书馆的信息专业人员来说,这样的界面是有用的。此外,对于想开发个性化数字图书馆的个人来说,也是有帮助的。

2.1 功能

知识分类可提供以下功能:

·把特定学科或主题的概念和词语组织成能显示主题关系的逻辑结构;

·便于浏览主题词及其相互关系;

·存贮和保持有用的检索词和检索策略,以备将来使用;

·允许添加同义词以获取较好的查全率,允许添加限定词以解决同形异义词的模糊性或加以区分;

·使用所选搜索引擎中的预先存储的词语或策略,以此开始检索;

·存储特定站点的URL,以备将来使用。

换句话说,知识分类方便了对主题词及其检索结果的组织与使用。在联机检索中,较多地强调检索结果,这是正当的。但在检索之后,也有必要对有关信息加以组织,把它们“保存”起来,以备将来使用,通过提供重访站点的能力而重新使用。同样重要的是,回顾首次查找信息的步骤。

2.2 设计目标

知识分类的设计目标是:重新构建传统的知识组织方法并将其与现代技术相结合,改进现有的知识组织与管理的工具。这个目标主要是指:(1)以系统的逻辑的方式组织知识以提高检索和浏览的能力;(2)对象征受控词汇的同义词和同形异义词进行控制,提高查全率和查准率;(3)精心设计检索策略,以优化检索结果。

3 知识分类的设计

知识分类包含两个基本要素:组织框架和检索界面。为便于检索者与信息间交互,一个知识类把相关的信息纳入一个分类结构。当用户在某一知识类中选择一个词的时候,这个词的语境关系也就展示出来了。他们能通过这个等级发现一些语义相关的词,也能通过交叉参照检索其它相关词。因此,当用户查找一个感兴趣的知识类时,通过搜索引擎或存储在该知识类中的特定链接,他们不仅能直接检索到想要查找的特定信息,也能检索其它相关信息资源。简而言之,知识分类提供对网上信息的动态存取。下面详细描述知识分类的主要构成。

3.1 组织框架

组织框架起到知识分类的概念构建模块的作用。它基本上是一个分类式的小型叙词表,由某一特定主题或特定学科的等级结构的词集合组成,如,投资、太阳能系统、信息检索以及高中化学和物理等。这些词语是从现有叙词表或基于某个人知识的自然语言词语中收集的,或者是以前的检索储存的。等级结构可能是现有分类表的分支,或者是通过对词语集合进行分类自下而上创建的。分类的深度或等级的层数,可根据具体用户的需要进行调整。同样,引文顺序(即该等级结构中各个面的顺序或安排)在知识分类的每个实例中是灵活的。这个框架的重点是信息的结构与词语、主题、学科领域分支等之间的语义关系。

3.2 数据结构

如同创建叙词表一样,知识类的结构应当仔细地进行设计和创建,以便反映主题词之间的语义关系。此外,由于知识类是用于Web上的,某一知识分类的词语和结构也应便于Web搜索引擎的使用。

在最初的设计中,知识类是一个简单的小型叙词表加上Web搜索引擎。主题词按等级创建。当把等级词语纳入该框架时,点击任何一个词语将激活选定的搜索引擎去检索被点击词的信息。这就是所谓的“点击即得”。经过反复试验,很快就会明白,所谓“点击即得”并不总是称心如意的。为了便于理解,在等级结构中显示词语应该简洁、明了和易于理解。一旦脱离了该等级结构,某个词往往不能表达使用它时的语境关系,其结果,它可能不是一个非常有效的检索词。许多词需要用限定词来阐明它们所表达的语境关系或概念。另外一些词仅当与该等级的上级中的广义词结合的时候才有意义。还有一些词尽管作为“显示词”是有用的,但作为“检索词”却无效。注意到所有这些情况,考虑重新设计一个灵活的结构,该结构包括该知识类中每个款目的五个部分,如表1所示。

表1 一个知识类中每个款目的组成成分

数据成份 描述 缺省

缩格短杠“—”的个数,表示在该等级中就该款目以上的级数

显示词 在该等级中显示出来的词

检索词 仅为检索而使用的相应词

如果空缺,则以显示词作为检索词使用

URL 为该款目而收集的任何URL 如果空缺,则是没有提供直接的链接

检索策略的代码

指示如何构建检索词的数字(见下节)

下面是知识类“投资”中款目的例子:

—,收藏品,,,1

—,古董,,,1

——,汽车,古典小汽车自动车,,6

—,工艺品,,,1

—硬币,,,6

—珠宝,,,6

—,贵金属,,,4

——,… …

—,邮票,集邮,http://www.philatelists.com/,11

——,… …

在这个例子中,款目“收藏品[Collectible]”的级别比其他款目较高。当点击“收藏品”时,就通过检索策略1(代码1的含义见表2),即“收藏品投资”,对“收藏品”进行搜索。在这种情况下,“投资[Investment]”作为款目“收藏品”的范围词。(见下一节关于检索策略的讨论)。类似地,点击“古董”将启动一个检索,一个提问式将把显示词“古董”与语境词“投资”结合起来,而点击款目“自动车”将启动一个以“老爷车[Classic](小汽车[car]或自动车[Automobiles])(作为[as])古董(和[and])收藏品投资”的等级检索。同样,款目“邮票[Stamps]”存储了其同义词“集邮[philately]”,它的“软链接”是以“(邮票或集邮)和投资”为提问式的检索,它也有一个连接到http://www.philatelists.com的“硬链接”。

这种数据结构的第一个优点是区分了显示词和检索词。在缺省的情况下,显示词也可用作检索词。然而,当一个显示词无效或不足以作为检索词时,检索词可能完全不同于显示词,因而,设计者应当灵活地为显示词精确地定义一个检索策略。例如,让几个同义词一起作为检索词,就可以取得同义词控制的效果,如上例中的“邮票”和“集邮”。

此外,通过区分检索词和显示词,一个知识类能包容语言的变体,比如,不同语言或同一语言的不同方言。在用英语和威尔士语的双语种知识类的显示中,使用了两种语言,用户可以选择另一种语言中的检索词,例如,当选用“足球[Football]”这个词时,其检索结果相同。这表明,在某一特定知识类中,显示词在某种语言中可能不同于检索词。

第二个优点是它包括“硬链接”和“软链接”。通过搜索引擎链接到Web的检索词叫做软连接,因为它们是动态、灵活的。指定的URL叫做硬链接,因为它们是特定的、固定于一个静止的目标。借助于软链接,用户可以收集到特别有用的硬链接,并把它们用款目存储起来,以备将来使用。如果硬链接后来失效(这在Web环境中是经常发生的),则可重新激活软链接,以便获取新的硬链接。这是知识分类强于书签方法的一个优点。

第三个优点是允许为不同概念构建不同检索策略的灵活性。就每个显示词而言,知识分类自动生成一个包含一个或多个语境词的检索策略,如果用户愿意,它也允许用户构建定制的检索策略。

3.3 检索策略

知识分类的一个主要特征是它的动态性。由于Web瞬息万变,没有哪个用户会满足于静态而孤立的叙词表,主题词必须直接连接到Web资源。当用户选择一个显示词时,就表明了他对那个词的观点,这往往通过该等级上层的一个或多个语境词反映出来。当计算机试图检索有关选定词的信息时,就应该考虑到这个宽泛的语境。把这个语境建成具体提问结构。然而,如果某一知识类的结构没有超载,那么就必须简化提问的结构。通过反复试验,可以提出一个提问式编码系统,它把提问式分为三种检索类型,每种类型又有三种变体(见表2),尽管基于最新Web搜索引擎的性能,该编码系统显得简单了一些,但它提供了便于提问式创建所需的功能。

表2 检索策略的编码系统

编码检索类型用于检索的词

检索词知识分类范围词 分支范围词

0 关键词检索

* * * * * *

* * *

1

* * * * * *

2

* * *

3 短语检索 * * * * * *

* * *

4

* * * * * *

5

* * *

6 等级检索 * * * * * *

* * *

7

* * * * * *

8

* * *

9 不检索

不链接这个显示词,仅有标记

10 关键词检索

除了把显示词也加进提问式之外,与0相同

11 除了把显示词也加进提问式之外,与1相同

12

… … … …

三种检索类型是关键词检索、短语检索和等级检索。关键词检索是让提问式中的所有单词都以独立的形式出现;短语检索在检索过程中把提问式中的每个词当作一个短语;等级检索自动给提问式中选定词添加一个或多个上位等级词。

在每种检索类型中可以应用三个变体,这取决于是使用某一知识类的某一范围词,还是使用该知识类某一分支的某一范围词,或者根本就不使用它们。这些范围词类似于受控词表中的限定词,它帮助确定它们各自类目中的词的范围。在上述例子中,当用户选择“马”[Horses]这个词时,用户显然是对把马作为实物投资感兴趣,而不是马的其它方面,因为这是一个关于投资的知识类。提问式“马(作为[as])收藏品或实物投资”就反映了这个兴趣。相似地,当选择显示词“足球[football]”时,被执行的检索提问式是“威尔士足球”[Welsh football.],因为加入了范围词“威尔士”,检索结果更有可能是英式足球,而不是美式足球。这就顺带解决了有关多义词的某些问题。

4 界面设计

为了使这个框架能在Web环境下运用,还要研制了一个能够把该结构和成分词连接到Web资源的机制,这个机制在用户和该组织框架中的词与词之间充当相互作用的界面。它提供了一个相对稳定的环境,在此环境中,用户可以系统地浏览先前存储的词、链接及其明确的关系。该机制也是用户与Web资源之间的一个界面,用户启动检索可以通过选择预存的词、检索策略,或者通过点击特定图标链接到以前发现的特定站点。在授权模式下,此机制也提供如下功能:把受控词汇或自由文本词加进该等级框架;收集和存储在检索过程发现的新链接;扩大或修改等级结构,以便容纳附加的级别和分支。

已经为知识分类开发出了一个用Java/JavaScript编写的图形界面。该界面按照以下性能来设计:

·显示等级结构中的词,这些词代表了不同级别的概念。在显示中总能看到的两个级别是顶层和用户选择的分支;

·该等级的分支可扩展和可缩小,允许浏览不同深度级别的词;

·不同检索策略自动地连接到基于给定数据的每个词。检索策略可能是关键词、短语或等级检索及其不同变体;

·存储链接到远程资源的选定静态链接,存贮相关站点或页面,即为与特定词相关的特定站点作书签;

·动态链接到多元搜索引擎和目录,如AltaVista,Infoseek,Yahoo!和Lycos,允许选择特定的目标引擎,一个接一个地快速变换搜索引擎;

·某一知识类中词间的指示性链接以及有助于交叉参照的知识类之间的可能链接。

例如,在某一知识类的屏幕显示中,可以包含4个框架,每个框架代表一种信息:①右上框提供该知识类的所有6个分支;②左上框展示选定分支的细节,即该知识类的类型,某词被点击后可扩大或缩小,有无硬链接,以及交互参照;③最大的框用于显示检索结果;④下方的小框内展示当前选定的搜索引擎以及该知识类可获得的所有搜索引擎。(该例知识分类浏览器屏幕显示省略)

用户能以几种方式与这种显示相互影响。在词显示层次上,如果用户想转换到另一个分支,他可以简单地从右上框中选择那个分支,然后那个被选分支将展示在左上框中。用户也可以跟随交叉参照链接到其它分支。如果用户要看一个特定层次的更多细节,必要时可以扩展子分支或压缩其它分支。在这个检索模式中,用户可以选择不同的搜索引擎(位于左下框中)和使用相同的提问式获取由不同搜索引擎所包含的各种各样的资源。他也可选择其它相关词搜索相关信息。最后,通过将词表所显示的词与检索结果中所发现的词结合起来,用户能较容易地创建新提问式。如果某个特定站点被认为是特别有趣的,它可作为一个硬链接存储在所选词之下,以备将来使用。该词后面的圆形图标表明存在着硬链接。

5 结论

关于Web环境下个性化知识组织方法的研究试图设计出一种应用于分布式环境的知识组织的新方法。它探索如何把传统概念、方法和组织工具运用到数字环境,力图把图书馆员的技能与先进技术结合起来,帮助整顿Web信息资源的无序状态。把知识分类设计成既是信息组织的工具,也是信息检索的工具。个别地讲,每个知识类都是一个动态连接到Web信息资源的组织完备的实体。在整体上,通过分类等级把知识分类的例子汇集起来,形成一个组织和管理Web信息资源的概念基础框架。

知识分类的概念是在传统知识组织工具的基础上建立起来的,而不是取而代之。采用分类原理并以现行分类表作为建立知识分类的起点或基础。现行叙词表也提供显示词和检索词的丰富资源。检索策略的公式化是建立在联机检索的原理和实践基础之上的,代表着信息专业人员积累的智慧和经验。最后,该界面是采用最新Web技术并以人机交互原理为基础建立的。希望这项研究既有理论价值,又有实际价值。

需要进行更多的开发来全面认识把知识分类作为一个动态的Web信息组织和检索工具的可能性。也有必要开展用户研究,研究学科专家是如何使用和相互作用于本文所提供的知识分类的。希望这些“真正用户”提供与“知识分类”的概念有关的有价值的反馈。

总之,我们认为,“图书馆员的分类和选择技巧必须由计算机科学家的能力来补充,以便使标引和存储信息的工作实行自动化。只有把两个专业的不同观点结合起来,才可以保持这种新媒体可行”。[2]应当重新制作传统的知识组织工具,并将其与现代技术相结合,为更好地组织和管理Web资源并对这些资源的个性化检索提供便利的手段。

标签:;  ;  ;  ;  ;  ;  ;  

知识分类:Web环境下个性化知识组织的一种方法_检索策略论文
下载Doc文档

猜你喜欢