网络环境下个性化知识组织初探_检索策略论文

Web环境下个性化知识组织初探，本文主要内容关键词为：组织论文,环境论文,知识论文,Web论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 个性化知识组织的必要性

由于从万维网(Web)上可以获得丰富的信息资源，这就给信息专业人员提供了满足用户信息需求的大量机会，但同时，它们也向那些试图组织和便于检索大量信息的人提出了巨大的挑战。为了便于Web信息检索，在机制设计的许多前沿领域进行了一些努力，已经为信息资源的组织和检索开发出许多不同的工具，但这仍然跟不上Web信息的快速增长。具体地讲，近年来由信息专业人员开发的某些先进的信息检索理论和工具没有保留下来，或者，未完全整合到Web上知识发现和信息检索的机制中。

从Web的开始阶段，书签法(bookmarking)就成为跟踪感兴趣网站的大众工具。书签法的基本特征在于它是针对个人的，它集中在特定的主题，并能方便用户。随着Web的继续增长，与不可抗拒的Web巨量信息相比，这些特征越来越显得相形见绌。用户开始更多地依赖于搜索引擎和主题指南，或者，依赖于由搜索引擎和主题指南服务商为浏览和导航的需要而提供的主题目录或主题表。这些主题表试图对范围广泛的Web资源加以组织，但不是针对特定用户进行设计，应能用于各种各样的Web资源。

对于辨认一般领域中的“某些”信息来说，上述工具特别有用，但对于确定明确定义的有限领域中的特定信息却不怎么有效。就像世界地图一样，它们对于辨认大的地区极为有用，但对于想到具体地方（如北京、纽约、巴黎等）走走的人来说，就需要有更细致、更专门的较小地方的地图。

同样，几乎没有用户要从一个图书馆得到“全部”信息，更没有人需要巨量的电子信息。研究者和求精的检索者通常在定义明确的有限领域里工作。对于许多用户来说，为特定目的或学科领域而设计和定制的工具更为有效。由此看来，用于特定领域检索工具的有前途的设计模式才是灵活的、适应性强的机制。通过这种机制可以为单个用户创建和维护链接到有前途的资源的个性化地图，这些地图容易适应数字环境下发展着的信息需求和变化。在这种情况下，特别是对求精的检索者来说，为特定领域定制的精细工具可能更有价值。同时，对于经常甚至偶尔使用Web的用户来说，也要求改进检索、导航和跟踪远程电子资源的工具。

2 个性化知识组织研究的假设

个性化知识组织研究的目的是：创建和试验在Web上能为单个用户定制知识组织和信息检索的新方法，对现有的知识组织工具进行补充和完善。探索的一个方向是把现有信息组织方法同先进的Web技术结合起来，为单个Web用户创建一个易于使用的框架。

该项研究的一个基本假设是：在数字环境下，图书馆专业人员所使用的已逾百年的信息存储和检索方法仍将发挥很大的作用，这些方法包括分类、受控词汇标引和检索以及精细的检索策略。

第二个假设是：Web数据资源具有分散性的特点，它们采用自下而上的方式进行组织，而不是采用自上而下的方式，但印刷环境下的组织工具是自上而下的。Web资源组织不是从整个知识领域入手，而是从更为专门的知识领域开始的，创建一个个较小的块，最终形成一个更大的、更综合的结构。

第三，我们非常同意以下看法：“图书馆员的分类和选择技巧必须由计算机科学家的能力来补充，以便使标引和存储信息的工作实行自动化。只有把两个专业的不同观点结合起来，才可以保持这种新媒体可行”[1]。应当重新制作传统的知识组织工具，并将其与现代技术相结合，为更好地组织和管理Web资源并对这些资源的个性化检索提供便利的手段。

3 个性化知识组织研究的背景

分类是以知识为基础的。A.Maltby[2]认为，“分类”的“目的是定位或辨别，不仅是对事物进行一般分组，而且也是按某种合理顺序对它们进行排序，以便阐明事物之间的主要关系……。分类是知识的一把钥匙：因为如果我们按照一种确定的顺序排列事物并知道这是什么顺序的话，那么，我们就有很好的办法或钥匙来应付这些事物。”I.Dahlberg[3]也认为，“可把分类理解成知识组织的同义词”。

分类是为知识组织按一种系统的、逻辑的方式而设计的，这是因为知识是通过概念的结合来获得的。一个随机的或字顺的词表不能揭示相互关系；而一个分类表或一个按等级组织的词表，却能展示每个词是如何与一个较宽泛和较狭窄的概念相联系的。它展示了概念之间的关系，从而提供了一个学科的和主题的概念地图。它允许在概念关系的背景下浏览主题，同时也提供一个从宽泛主题到次级主题的系统的导航方法[4]。在Web检索的短暂历史中，越来越多地使用分类结构来强化巨量信息的存储顺序。现在比较流行的搜索引擎和目录服务越来越多地使用等级结构来组织Web资源。比如，Yahoo!、Akta Vista和Infoseek就使用多级主题类目。

第三十六届Allerton Institute分类会议后期讨论的一项建议就是：“为最终用户而不是为分类者组织不同的分类表，并在检索前后为用户的浏览和导航提供多个分类表”[5]。

传统上，受控词表通过同义词和同形异义词改进查全率和查准率。这在很大程度上取决于人工标引，也就是把来自叙词表的预先确定的首选词分配指定给被标引的文献。F.W.Lancaster和A.J.Wamer[6]把采用受控词表的优点归纳为：“叙词表能够防止由于同义词而产生的相关资料的分散，能够区别同形异义词并帮助检索者在特定学科领域内进行全面检索。

在Web环境下，通过使用受控词表为所有信息或者即使大部分信息进行人工标引是不可能的。然而，遗憾的是，现在越来越抛弃了受控词汇标引和检索的优点，尤其是在同义词和同音异义词的控制方面。换句话说，我们应当努力探索的是，如何立足于检索而非存储，通过检索策略来实现这种控制。这种方法与后组配相似。

如图所示，同义词和同形异义词控制有不同的侧重点。传统的方法是使用受控词汇标引“文献”；自由文本检索方法是让“用户”提供所有的同义词和同形异义词。我们要探讨的方法是在界面上提供同义词和同形异义词。区别在于，我们的想法是力图将控制同义词和同形异义词的任务从标引转移到检索，与此同时，减轻用户的负担。为此我们建议，通过格式化的特定检索策略，并将其在界面上存储起来，以备将来使用，也就是说，在最终用户和搜索引擎之间创建一个附加层次。检索策略可以由信息专业人员建立，也可以在以往检索的基础上建立，同时考虑同义同和同音异义词。然后，用户就会想起以前检索所存储的策略，因而，在某种意义上讲，起到了个性化或自动化SDI服务的作用。

图同义词和同形异义词控制的不同侧重点

虽然首选词和非首选词的区别在手工环境中很重要，但在电子环境中，检索算法包括同义词也是可能的。因此，把同义词控制从标引转移到检索。在联机检索中，如果我们在一个检索语句中包括了叙词表中定义的所有同义词，那么，我们就能获得受控词汇的优点，而不需要文献包含预先指定的叙词。在受控词表中，同义词控制通常是通过使用限定词实现的，为提问词提供上下词。典型地，一个限定词由一个上位词或几个等级较高的词构成，而在这个等级中该提问词是合适的。这种情况对Web检索也有帮助，查全率能通过在检索策略中包含限定词而得到提高。换句话说，我们所要探讨的事情是：通过检索策略而不是给单个文献指定受控词汇，利用检索策略来保留受控词汇标引的一些好处。

在一篇有关联机检索界面设计的被广泛引用的文章中，讨论了图书馆联机系统的上下文，M.Bates[7]描述了一个联机检索系统所期望具备的几个特征：

●浏览功能应当允许在大量文本之间随机移动；

●检索者可以在某一分类表的类目之间移动或追踪相关词的线索；

●检索者应当通过单个命令寻求一种检索模式和屏幕；

●界面设计应当容易强调或另外标记信息和参照；

●用户应能以自己感到舒服和熟悉的方式查询自动化的信息存储。

在讨论上面的描述时，Web甚至还没有出现。但是，Bates为联机书目系统所想象的期望特征，在Web环境下却很相关、很适用，甚至现在采用最新技术就可以实现。

我们应当设计和试验一种Web界面，它应当是受控词汇和自由文本检索机制的结合，该界面能够直接检索Web上的文献，并能创建和维护与远程资源的动态链接和静态链接。这个界面应该是足够灵活的，让用户能调整所存储的词汇和所创建的链接的广度和深度。换句话说，该等级的分支应当可以根据需要来缩小或扩大。对于那些集中在特定学科领域并为其顾客设计定制数字图书馆的信息专业人员来说，这样的界面是十分有用的。此外，对于立志开发个性化数字图书馆的人来说，也是有帮助的。

4 个性化知识组织中的几个关系

为了个人使用而对Web资源加以组织存在着许多挑战。在这方面的研究中，我们应当特别注意3个问题：(1)在组织过程中应该包括多少人工过程和多少自动过程？(2)Web信息组织应当采用自上而下方式，还是自下而上方式？(3)在动态的、混乱的和非结构化的Web环境中，应当怎样创建一个相对稳定的结构化的信息空间？下面我们将讨论与这3个问题有关的知识分类，并将它与其它现行的有关Web信息组织的方法进行比较。

X.Lin和L.M.Chan[8]已经开发出一个称之为“知识分类”(Knowledge Class)的工具，作为集成了信息组织方法和先进的Web技术的框架。他们描述了一种定制知识组织和检索的新方法，并就传统组织工具如何适应个性化的Web信息组织与检索，提出了许多想法、例子和实施步骤。据称，这种“知识分类”方便基于等级结构的信息组织，该结构类似叙词表和分类表的结构。此外，通过建立受控词汇和预存检索策略，使等级词表更有价值。它通过一个既包括动态链接也包括静态链接的交互式的图形界面，连接到搜索引擎及有关网站。设计“知识分类”是为了获得一种新的信息组织和检索工具。在http://lislin.gws.uky.edu/kc上提供了知识类的一些实例，它们基于一个用NetScap的javaScript开发的工作模型。目前，正在开发知识分类的Java版本。在本文中，用“知识分类”一词表示这个概念本身，而用“知识类”一词表示采用该方法的实例。

4.1 人工过程与自动过程

自万维网的很早阶段以来，书签法就成为用户跟踪感兴趣站点的普遍方法[9]。虽然有许多工作成果使书签法更加容易[10][11]，但它主要地还是一种人工过程，因为启动信息收集、组织和更新的每一个动作都是用户。在创建和维护书签页的过程中包含许多智力工作，既有针对个人使用的，也有针对收集选定主题资源的。这些工作使书签法成为Web信息组织的一种有用工具。然而，它的使用也受到一定的限制，因为它是劳动密集型的和实际静止的。因而，在动态的Web环境下，保持书签页的更新比较难。

在这方面的另一端是软件代理商，他们试图认识和代表用户从Web收集、检索、组织信息[12]。软件代理商建立用户档案，激活搜索和过滤Web信息的复杂的人工智能技术。他们试图“了解”用户的信息需求，以便当为用户提供自动化和个性化帮助时，显得称职和值得信赖[13]。当软件代理商方式在Web环境下表现出个性化电脑助手的理想应用时，它面临着技术上和哲学上的双重挑战[14]。图书馆学情报学界的一个众所周知的例子就是对用户信息需求的表述。用户的信息需求是知识的不规则状态，甚至连用户本人都难以描述[15]更不必说被软件代理商“了解”。当软件代理商不能充分地表述用户的信息需求时，他们就很难找到满足用户需求的全部信息。

通过知识分类，可以尝试打破手工过程和自动过程之间的平衡。通过让信息专业人员提供基于信息组织原理的知识结构，努力减轻用户信息组织的负担。此结构可以根据单个用户的兴趣和信息需求来修改。通过构建好的检索策略，信息检索过程对用户是透明的。在这一点上，该方法与Verity的TOPIC系统的原始想法类似[16]。某一知识类的用户通常不需要有专门的信息，如选定搜索引擎的URL或提问式构建的专门技巧。就建好的检索策略而言，需要用户做的就是点击词，让新信息显现在屏幕上。当然，当维护浏览和使用等级表中词语的能力时，精明的用户往往会有构建自己提问式的选项。

为了使手工作业最小化，知识分类促使无论何时获得的搜索引擎都能被利用。由于可以连接到搜索引擎，一个知识类所“包含”的资源不限于已经搜索到的。如果出现与某一词相关的新资源，只要简单地点击该词就能检索到它们。这种动态链接使知识分类中的链接比存储在书签中的链接更加稳定。如果一个硬链接断开了，还可以激活软链接，跟踪断开的链接的URL，或者寻找可替换的URL。这个特征会保证信息专业人员所作努力的有效性持续更长的时间。目前，知识分类的检索策略还不如软件代理商所使用的先进。随着代理技术的日益成熟，它可用来改进知识分类中提问式的创建，使这些知识类更加“智能化”。

4.2 自上而下方式与自下而上方式

知识分类代表了Web信息组织的一种自下而上的方法。为了取得成功，许多知识类需要在许多专业领域或成熟学科领域的底层开发。随着知识类数量的增加，才能在其它知识类的顶部构建知识类。然后，这些知识类可以成为一个反映知识和信息组织方法的概念基础框架的构建模块[17]。

这种方法不同于其它自上而下的方法，自上而下的方法反映在许多现行的分类法中，如CyberStacks[18]和CyberDewey[19]。在这种分类法中，采用或调整一个已建的分类表（如国会图书馆分类法或杜威十进分类法），以便浏览和识别各种科学技术学科领域的相关Web资源。这种分类系统不仅提供综合性的学科范围，而且还提供这些学科的概念关系，这就为用户浏览Web资源提供了一个新的维度。用户可从这个分类表的主要类目大纲开始，连续选择次级类目，直到抵达可心的资源。

然而，对这种自上而下方法的挑战是它的宽度和深度。当该分类表具有综合性时，需要把该分类表的每个分支链接到Web资源（主要通过人工），这种做法通常被认为是不实际的，而且维护这种Web空间中的动态链接更为困难。因此，这种方法通常只能完成一部分，而留下许多“空白”或未填充的分支或类目。另一方面，由于综合性分类系统的等级深度必须是多层的，用户往往需要经过多层分支才可抵达所找的特定概念。这种必须深层穿行到某一级别的做法，往往使许多用户失去找到可心资源的信心。如果努力层层深入却只找到“空白”分支，就常常会使用户产生和加重失望感。

自上而下分类法的另一个问题是：应用分类法的基本单元是什么。在图书馆，书而非书中文章是编目和分类的基本单元。在Web上，由于“Web书”的概念没有被广泛认同，致使把分类法运用到许多不同的单元：有些用在Web站点或主页上，有些用在收集到的资源上，还有的用在每个单独的Web页上。我们现在需要的是有效基本单元的一些标准。基本单元应该与反映某一主题或作者写作的单个Web网页“捆绑”在一起。它应该相对稳定并具有良好的质量。在这一点上，知识分类可以被看作是建立Web“基本单元”的一个步骤。在我们建立某些“基本单元”之前，自上而下的分类法可能是不现实和不太有效的。

4.3 结构化信息空间与非结构化信息空间

当维护动态链接以适应数字环境的快速变化时，知识分类提供了一个稳定的信息空间。某一知识类的用户每次与某一熟悉的结构相互作用，他们都使用这个知识类。这个结构反映了主题彼此之间是如何相关的，帮助用户认识他们以前用于检索感兴趣的Web资源的路径。如果他们想重新访问，他们可以“走”相同的路径抵达可心的站点，而无须记住精确的URL或他们以前用过的提问式和搜索引擎。用户也能定制反映其信息需求且熟悉的空间。它们可以存储有关当前词的新链接，通过拖放把新词加到知识类中，扩展该等级以适应附加的层次。随着他们的兴趣以及对主题理解的增长，他们将会发现自己的知识类也随之“增长”。

由于Web是一个巨大、复杂和无序的信息空间，把全球结构用于整个Web是一个巨大的挑战。相反，许多研究者尝试定义信息空间的局域语义单元的结构，如“信息岛”Waterworth[20]，站点地图[21]，以及“树木和森林”[22]。使用这些结构的一个目的是建立帮助浏览和导航的Web地点。建立地点、主题组织、结构化提示和明确的语义关系是必要的[23]。知识分类试图包含所有这3个方面。一个知识类组织某一特定主题的词语和概念，而不只是组织这个主题的链接或Web主页。这是因为概念及其关系比较稳定，而Web资源的链接是动态的、易变的。在一个知识类中，组织好的概念通过搜索引擎与Web资源紧密地联系在一起。此外，通过创建基于信息组织原理的结构，信息专业人员可以帮助为Web上的基本信息单元提供连贯的、逻辑的结构。

我们有理由期望，这样一种结构将比用户专门创建的书签结构更为有用。还可以期望，如果检索者找到了一个感兴趣主题的知识类，那么，他将在该类中开发，并事实上把这种知识类看成是该主题另外一个未经组织、非结构化的Web信息空间上的一个“界标”。

5 结论

关于Web环境下个性化知识组织的探讨，是试图设想出分布式环境中知识组织的一种新方法。它研究如何把传统概念、方法和组织工具运用到数字环境，力图把图书馆员的技能与先进的Web技术结合起来，帮助整顿Web信息资源的无序状态。

把知识分类设计成既是信息组织的工具，也是信息检索的工具。个体上，每个知识类都是一个动态链接到Web信息资源的组织完备的实体。整体上，通过分类等级把知识类的一些实例汇集起来，形成一个组织和管理Web信息资源的概念基础框架。知识分类的概念是在传统知识组织工具的基础上建立起来的，而不是取而代之。采用分类原理，并以现行分类表作为建立知识类的起点或基础。现行叙词表也提供显示词和检索词的丰富资源。检索策略的公式化是建立在联机检索的原理和实践基础之上的，代表着信息专业人员积累的智慧和经验。最后，Web环境下个性化知识组织界面应当是采用最新的Web技术并以人机交互原理为基础建立的。希望这项研究既有理论价值，又有实际价值。

今后，需要进行更多的开发来全面认识把知识分类作为一个动态的Web信息组织和检索工具的可能性。同时，也有必要进行用户研究，研究学科专家如何使用和相互作用于这里所提出来的知识分类。此外，期待这些“真正用户”提供与发展中的“知识分类”的概念有关的有价值的反馈。

收稿日期：2004-07-19

标签：检索策略论文; 同义词论文; 用户研究论文; web技术论文; 搜索引擎技巧论文; web开发论文; 搜索引擎原理论文; 受控论文;

网络环境下个性化知识组织初探_检索策略论文

猜你喜欢