试论情报检索中的模糊性原理,本文主要内容关键词为:试论论文,情报论文,模糊论文,原理论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
“所谓‘模糊性’就是指认识中关于对象性态及其类属边界的不确定性。这种不确定性在 自然界和人类社会中都是大量存在的”[1]。在情报检索思维发展过程中,模糊性也起着 重要作用。
在情报检索发展过程中先后有两个提问,第一个提问是用户用原始情报语言表述的概念提 问,第二个是用情报检索语言或索引语言表述第一个提问,即“提问标引”,用语言表述情 报需求的过程中存在模糊现象。著名的哲学家和数学家B·Russell在1923年写的有关“含糊 性”的论文中指出:含糊和精确都是语言的属性。他认为“所有的语言都是模糊的”[2] 。故用语言表达的用户提问与科研课题中的对应概念之间存在模糊性或不确定性。情报检索 是一种试探性的过程,其检索策略也就是一个未确证的检索方案。
情报用户所需要的是针对性很强的知识单元情报,而提供服务手段的情报检索系统,一般 只提供题录或文摘情报即文献单元信息。有的虽然也提供主题情报,但其隐含的正文即原始 情报却仍然是一个不确定项。某些全文数据库虽然能提供知识单元情报,但它通常是存贮某 些核心期刊的文章或某些学科的经典著作或某些使用频率很高的文件资料(如法律、法令等) ,数量也不多,在国外,它所占的比例还不到全部数据的1/5,知识单元情报覆盖面非常有 限 [3]。而且现有这些全文数据库中的知识单元情报与查询问题之间的关系也具有模糊性或 不确定性。“在情报检索系统中,存贮的值(例如,正文)是不确定项,询问中出现的查找词 是不能预料的,而且存贮的信息和处理的问题之间的关系是含糊的”[4]。
由于用语言表达的用户提问与科研课题产生的概念提问在表达上不一致,有内容的同异问 题,也有语言的差异问题,因而造成存贮的信息和处理的问题之间关系的含糊性,这种含糊 性也是一种模糊关系,它是制订或修订情报检索提问标引的依据,是构造检索策略的基础。
2 模糊性原理的基本特征
模糊思维方式是运用模糊论的观点,用模糊的方式对模糊信息进行加工来揭露事物的本质 ,从而达到对模糊事物的理性认识。模糊性是与事物性态和类属的不精确性、不确定性连在 一起的。它呈现出以下一些基本特征:
2.1 科学性和普遍性
模糊性是事物自身性态和类属的不确定性,这种不确定性在自然界和人类社会中大量存在 ,当认识条件不具备或认识过程没展开,或者是因客观对象本身的性态不确定时,就存在模 糊性。模糊性是绝对的,普遍存在的,它是对现实世界的真实反映。因此它具有科学性和普 遍性。模糊认识已成为现代科学所不可缺少的认识方法。情报检索过程中用户的概念提问和 用检索语言表述的提问标引都是用语言表达的,语言的含糊性决定了检索过程中贯穿着模糊 性。尤其在计算机情报检索日益广泛应用的今天,自然语言正在我国流行起来。“自然语 言的突出特点在于它具有模糊性”[5]。
2.2 精确性与模糊性的辩证统一
模糊性和精确性的区分是相对的,精确之中有模糊,模糊之中也有精确。在现代科技革命 中,人类的视野正在迅速地向微观和宏观拓展,它越来越多地碰到复杂系统,越来越多地要 解决多因子交叉的、非线性和随机的问题。系统科学的发展表明,构成系统的要素越多,越 复杂,系统的边界就越不明晰(模糊),任何事物的系统愈是向过去或未来延伸,明晰度就越 大(精确),也即“轮廓一致”。模糊理论中的模糊控制算法就是通过模糊语言描述的,但它 所完成的却是一项完全确定的工作。“看起来似乎不确切的模糊手段常可以达到精确的目的 ”[6]。
在情报检索过程中也存在模糊与精确的统一。广义上讲“检索策略是对整个检索的规则” [7],但是“如果索引语言所提供的叙词不能充分表达需求,检索人员就必须发挥灵活性 ,千方百计地追踪相关实体”[8]。这里所讲的灵活性,指的就是根据检索人员大脑中积 累、存贮的信息,即经验,通过加入模糊条件句形式,对检索过程和结果进行控制,从而找 到准确的文献情报。
2.3 近似性
模糊控制不是指被控对象是模糊的,而是指在表示知识、概念上的模糊性,即用模糊语言 进行描述,建立一种语言分析的数学模式,“而语言方法却是一种很方便的近拟”[9]。 模糊理论运用模糊逻辑和近似推理的理论和方法,使自然语言能够转化成机器可以理解和接 受的东西,使机器更“聪明”,智能化程度更高。这一点在运用自然语言的计算机情报检索 系统中非常突出。机器将自然语言(关键词)和人工语言(情报检索语言,包括控制词和分类 号)进行互相转换,如等义转换、广义转换和狭义的转换,近义和意义密切相关的转换。这 种转换的目的在于提高检索效果,一方面,利用关键词提高检准率,方便新学科、新概念的 检索;另一方面,利用控制词和分类号有助于提高检全率。
3 模糊性原理在情报检索中的应用
情报检索过程离不开一定的思维形式,“模糊思维是思维发生的基本规律”[10]。人们 观察、认识和判别客观事物,不仅表现为“非此即彼”(精确性),也表现为“亦此亦彼”( 模糊性)。模糊认识论已成为现代科学所不可缺少的认识方法。模糊理论中的模糊逻辑和近 似推理理论和方法在情报检索过程中起着非常重要的作用。
3.1 检索策略的构造
“所谓检索策略就是在检出某一文献之前,对该文献应属什么类目的说明”[11],也就 是用情报检索语言表述的概念提问表达式,亦即提问标引。由于检索词表本身存在缺陷和局 限性:如“词表专指度不够,词与词之间关系含糊或者荒谬,词表的结构不能使检索者查遍 所有进行全面检索所需要的词,或者有关某一特定需求的最合适的词”[12]。在使用分类 索引语言时,由于文献主题概念之间的聚类依据不十分明确或所显示出的关系不十分恰当导 致聚类的模糊性,如“经济作物包括纤维作物、油料作物、糖料作物等,它们的共同点是什 么”[13]。由此我们说索引语言本身存在不确定性,它所提供的词不能充分表达需求,所 标识的概念与词表之间不能总是存在着直接的一一对应关系。“有时检索人员不得不迁就” [14],根据概念提问和大脑中积累存贮的信息,调整和修改检索策略。例如要查找有关超 缩微平片的情报,而系统语言只有较一般性的词“缩微平片”。此时,就应考虑用“缩微平 片”作为检索入口词。因此,由于索引语言本身的模糊性,在检索策略的构造和实施过程中 存在着不确定性,也即模糊性问题。
3.2 用户提问的模糊性
在提问阶段,往往不是所有的用户都能容易地把其情报需求向别人叙述得全面准确,用户 提问存在模糊性。影响用户与情报检索系统交互的因素包括:“(1)用户自己头脑中确定其 需求的能力;(2)用户自身的表达能力;(3)用户对系统能力的估计——用户往往有一种强烈 的倾向,他提问的并不是他真正想要的情报,而是他认为系统能提供给他的情报;(4)系统 所提供的帮助的数量与类型”[15]。这些因素将导致用户不适当地表达其真正情报需求的 口头提问。“用户往往存在这种倾向:想要他们认为系统能够提供的情报,而不是找他们实 际需求的情报,这意味着,查问往往比隐藏其后的情报需求更为一般”[16]。假定系统词 表可以理想而充分地表达提问中的概念,检索策略可以全面而准确地表达提问,数据库的标 引可以全面、准确且一致,但是如果用户的提问(表达的需求)未能适当地表达其真正需求的 话,为匹配其提问的一切检索将没有多大的实际价值。因此,充分认识用户提问中存在的模 糊性,引导用户充分表达其真正的需求,对于提高检索的实际效益非常重要。
3.3 模糊性原理在计算机情报检索中的应用
模糊理论给出了一套表现自然语义的理论和方法,使自然语言能够转化成机器可以“理解 ”和接受的东西,提高了机器的灵活性。在计算机情报检索实践中使用的人—机结合的题内 关键词索引就是一例,人—机结合的题内关键词索引采用的是一种“含糊抽词”的办法,它 不需把关键词完整地从题名中分离出来。“所谓‘含糊抽词’是指只要能分辨出题名中哪个 词或词素具有检索意义,也就是可以作为检索入口和能字面成族的,就把它作为关键词排到 检索入口位置,而不需再考虑一个词抽到何处结束的问题”[17]。具体做法是:在题名中 插入一个表示该处要轮排的符号,计算机就复制一个条目并按符号排入相应位置。插入多少 个轮排符号,就复制多少个条目,轮排多少次。如:胡小梅著的《熹平石经在中国书史上的 地位》,可轮排如下[18]:
(检索入口 按音序排)
↓
上的地位
=胡小梅=熹平石经在中国书史 15EC58
=胡小梅=熹平
石经在中国书史上的地位15EC58
小梅=熹平石经在中国
书史上的地位 二胡 15EC58
=胡小梅=
熹平石经在中国书史上的地位15EC58
=胡小梅=熹平石经在
中国书史上的地位 15EC58
上例抽词不需考虑:“熹平石经”和“中国书史”是作两个词抽合适还是作四个词抽合适 , 不仅回避了分词疑难,而且轮排非常充分,虽然是“含糊抽词”,但由于保留了上下文,关 键词的明确性是很好的。
模糊控制具有许多传统控制无法与之比拟的优点,如使用很方便近似的语言方法,易于掌 握:对过程参数的变化具有较强的适应性,操作人员易于通过人的自然语言进行人机界面联 系,这些模糊条件语句很容易加入到过程的控制环节上等。由于模糊控制的这些独特优点, 模糊逻辑可使电子计算机模拟人的直觉,并依据不确切信息做出决定。因此,模糊理论在计 算机情报检索系统中有着非常广阔的应用前景。