试论情报检索中的相似匹配原理,本文主要内容关键词为:试论论文,情报论文,原理论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 相似匹配的含义钱学森说:“张光鉴同志有个理论,叫相似论。他说是探讨相似在科学技术思维发展过程中的作用和规律。”[1]在情报检索思维发展过程中,相似也起着重要作用。就科学情报检索而言,检索出的文献情报与科研课题之间只能要求接近或相似,因为科研本身是一种创造性活动,它不仅要继承一切已有的类似研究成果,而且必须有所突破,如果科研课题与现有的文献情报所反映的研究成果完全相同,那就意味着在从事重复劳动。从这个意义上讲,课题与文献情报之间的关系既要求相同,更要求相异,这正是相似的二重含义。正如张光鉴先生所说:“客观事物发展过程中存在着同和变异,因为只有同才能有所继承,只有变异,事物才能往前发展。所以相似不等于相同,相似就是客观事物存在的同与变异矛盾的统一。”[2]
在情报检索发展过程中先后有两个提问,第一个是用户用原始情报语言表述的概念提问,第二个是用情报检索语言或索引语言表述第一个提问,即“提问标引”[3]。国外经常借电工学中的“匹配”(Matching)一词来说明情报检索的实质。它是指提问标引与文献标引的一致性。然而,由于科研常常需要多方面的资料,需要一切有利于启迪科研思维的资料,故一个科研课题往往不止一个提问,并且每个提问与科研课题中的对应概念不一定完全相同,或许只是近义或转义及引申意义上的相通,科学论文中的近义引用、转义引用、引申引用等引文现象已充分证明了这一点。因此,按某个提问检索出的文献情报与科研课题之间的关系只能是接近或相似,也可以说这是一种相似匹配。它对提问标引与文献标引的匹配具有指导或意向控制作用,即不能偏离原始情报内容的本意。科研课题与相关文献都是原始情报。提问标引与文献标引都是二次情报,二次情报必须准确反映原始情报,否则情报检索结果就不理想。须知,原始文献情报与科研课题的相似匹配还是评价情报检索结果的依据。
由于由科研课题产生的概念提问往往与已形成的文献标引在表述上不一致,有内容的同异问题,也有语言的差异问题,因而造成情报检索系统“存贮的信息和处理的问题(概念提问——引者注)之间的关系是含糊的”。[4]这种含糊关系也是一种相似关系,它是制订或修订提问标引的依据,是提问标引与文献标引在词语上进行相同匹配的基础。
2 相似标志
美国著名数学家G.波利亚在谈到数学概念之间的类比时说:“假如你想把它们的相似之处化为明确的概念,……那么你就阐明了类比关系”[5]。不仅数学概念之间的类比如此,一切事物或概念之间的类比皆如此。堪称这种“明确的概念”的也就是相似标志。各种事物之间的关系是复杂的,每一组相关事物之间的相似之处也并不都一样,不仅不同组相关事物之间的相似之处不一样,就是同一组相关事物之间也可能有几种不同的相似之处。相似之处不同,相似标志也就不一样,但从本质上讲,大体有如下三种基本类型的相似标志。
2.1 属性相似标志
从事物的属性上讲,不同事物之间相似的标志是:
第一,各方面有相同的属性[6]。表现在科研课题与文献情报之间的关系方面,就意味着只有继承,没有创造,甚至是重复。这不符合相似的二重含义的要求。
第二,相同的属性多于相异的属性[7]。表现在科研课题与文献情报之间的关系方面,就意味着既有较多的继承,也有一定的创造,符合相似二重含义的要求。
第三,一事物与另一事物,大多数属性或其中较重要的属性为两相共通者[8]。也就是说,两种事物的属性虽有差异甚至对立,但在一定条件下能互相转化。表现在科研课题与文献情报之间的关系方面,两者之间没有直接的联系或联系不明显,必须通过一定的中介这种联系才能显示出来。例如“秦汉江南风俗”这个课题与“掌故”类文献情报,从各自的总和上看,两者之间的相似点不明显,但从各自的具体内容来看,就不难发现某些相似之处。“文身”始于春秋时期的吴王太伯与越王勾践,是人物事迹,属于掌故,但后来又发展成为一种风尚和习惯,因而成为风俗。我们根据这种相似,在《掌故大辞典》的有关词条中查到了所引用的《庄子·逍遥游》和《仪礼·王制》关于江南人文身的风俗资料。
2.2 结构相似标志
从事物的结构上讲,不同事物之间相似的标志是:
第一,相似的单元、层次、排列组合[9]。就概念提问与文献标引之间的关系而言,组成概念提问的单元概念、组合顺序与文献标引的单元词、组配顺序相似。
第二,相似的基因、条件和环境产生相似的结果[10]。就概念提问与文献情报之间的关系而言,概念提问所反映的事物与文献情报所反映的事物之间在基因、条件、环境及其所产生的结果方面相似。
第三,功能的相似[11]。就概念提问与文献情报之间的关系而言,概念提问所反映的事物或科学内容与文献情报所反映的事物或科学内容在作用上相似。
2.3 规律相似标志
麦克斯韦在谈到类比的作用时说:“一门科学的规律与另一门科学的规律之间的部分类似将使我们能以这二门学科中的一门学科来说明另一门学科”[12]。事物或学科的规律之间相似的主要标志有:
第一,概念组合表述形式相似。在情报检索中,就是概念提问所反映的事物或学科的规律与文献情报所反映的事物或学科的规律之间在概念组合表述形式上相似。
第二,图论描述上相似。在情报检索中,就是概念提问所反映的事物或学科的规律与文献情报所反映的事物或学科的规律之间在图论描述上相似。
第三,数学公式或方程式、矩阵相似。在情报检索中,就是概念提问所反映的事物或学科的规律与文献情报所反映的事物或学科的规律之间在用数学公式或方程式、矩阵描述上相似。
不同事物或学科之间的相似点是概念提问与文献情报相似匹配的客观基础,相似标志是人们对它的认识和概括。正是这种相似标志使概念提问与文献情报的相似匹配具有可操作性。凡是符合上述三种基本类型相似标志中任一具体标志的文献均是与概念提问相关的文献。
3 检索策略的含义与相似匹配存在的范围
3.1 检索策略的含义
从狭义上讲,检索策略“就是在检出某一文献之前对该文献应属什么类目的说明[13],也就是用情报检索语言表述的概念提问表达式,亦即提问标引。从广义上讲,“检索策略是对整个检索的规则”[14],它包括三个部分:(1)构造提问表达式;(2)“选择情报源并将它们按检索顺序排列”;(3)“将概念提问翻译成每种情报源的语言”[15]。这是指以检索工具为中介的情报检索规划。但是,“如果索引语言所提供的叙词不能充分表达需求,检索人员就必须发挥灵活性,千方百计地追踪相关实体”[16];或者当概念提问对知识单元情报的需求超过了情报检索系统的提供能力时,要去追踪相关情报实体即原始情报,在这种情况下,根据概念提问和大脑中积累、存贮的信息,确定情报范式即典型情报,然后查找与情报范式相似的其他文献情报。实践证明,这不失为情报检索中一个很重要的补充方法。因此,广义的情报检索策略,除了指以检索工具为中介的检索规划外,还应该包括以情报范式为中介的检索规划。两种检索过程都存在相似匹配的问题。
3.2 以检索工具为中介的情报检索相似匹配
以检索工具为中介的情报检索过程可以划分为两个基本的阶段,第一阶段包括构造提问表达式、选择检索工具两个步骤;第二阶段包括将概念提问转换成情报检索语言、提问标引与文献标引进行词语上的相同匹配两个步骤。如果说第一阶段是分析阶段,那么第二阶段就是操作阶段。兰卡斯特认为,“把任何类型的索引就看成文献/词语矩阵的形式,是很有用的”[17],也就是把任何类型的索引都看成若干文献/词语矩阵的集合,然后“把检索策略同文献/词语矩阵进行匹配,就是检索操作,以便找出标引词档中的那些满足逻辑要求的文献”[18],这也就是提问标引与文献标引之间在词语上的相同匹配。这里要特别指出的是,虽然人们看到的主要是提问标引与文献标引在词语上的相同匹配,但从本质上讲,仍然是课题或概念提问与文献情报之间的相似匹配。达格伯特·索尔格尔指出:“有时,以情报源语言所表达的提问的意义可能是近似的。在做必要调整时参考提问表达式和提问表述是有帮助的”[19]。这里所讲的“以情报源语言所表达的提问”是指概念提问由自然语言表述转换成情报检索语言表述:“概念提问表达式”是指构成概念提问的各单元概念之间的逻辑关系;“提问表述”是指概念提问的自然语言表述。其实,不仅概念提问转换成情报检索语言是近似的,当提问标引与文献标引在词语上出现不一致的情况下,有时也存在近似问题,必须对提问标引进行调整,而文献与课题或概念提问之间的相似关系则是其中最根本的因素。因此,在情报检索过程中,不是从“等号”的意义上而是从“相似”的意义上查找符合概念提问要求的文献情报。
3.3 以情报范式为中介的情报检索相似匹配
科学家常常发现“自然界的普遍规律在特殊的承担者中典型地表现出来的情况”,他们称之为“典型物质”[20]。美国科学家托马斯·库恩“建议科学家可以直接向范式或公认的模型学习,而不必经过抽象化过程”,“范式是指某些具体的科学成就的事例”[21]。“典型物质”与科学成就“范式”的关系非常密切,可以说典型物质是科学成就范式的现实基础,而科学成就范式则是对典型物质的认识和提高。我们所讲的情报范式又是以科学成就范式为基础的。所谓情报范式,就是发现概念提问所要求的东西在特殊的文献中典型地表现出来的情况,例如《百越民族史论集》就是“秦汉江南风俗”这一课题的情报范式,我们从中发现了所引用的古代这类资料89条。科学家们可以通过科学成就范式去认识、研究类似的其他事物,我们也可以通过情报范式去查找类似的其他文献情报,其具体步骤如下:
第一,将课题或概念提问划分为若干组面。例如“秦汉江南风俗”这个课题可以划分为主体面(知识内容)、时间面、空间面等。
第二,按照划分出的组面猜测可能涉及的文献类别。例如按“秦汉江南风俗”这个课题的组面划分,我们猜测在中国古代文化史、地方史等类文献中可能有所需要的情报,为选择情报范式确定一个大概的文献范围。
第三,按与课题有关的关键词浏览有关文献的书名或篇名及其有关章节的小标题和正文,确定文献情报范式。例如我们猜测在研究百越民族史的文献中可能引用了谈秦汉江南风俗的古代资料,首先选择了《百越民族史论集》,根据从已知的文献情报中抽出的与课题相关的关键词依次浏览篇名,在选定的论文中再浏览章节小标题,在选定的章节进一步浏览引文,这样层层猜测,层层验证,证明是所需要的典型文献情报。
第四,想象与文献情报范式相似的文献有哪些,猜测相似点,确定具体的相似标志。如有关中国古代文化史、中国古代风俗的文献与《百越民族史论集》在内容属性上有部分相似,有关地方志与《百越民族史论集》在内容结构上相似等。
第五,在查找与文献情报范式相似的其他文献情报的过程中,又可能发现新的情报范式,继续查找与此类似的另一些文献情报。例如我们从施宣圆等主编的《千古之谜——中国文化500疑案》中查到所引用的汉代文献有关江南风俗的资料12条,就想到与此类似的冯天瑜等著的《中华文化史》也可能有这类资料,结果从中查到所引用春秋战国时代江南风俗资料8条。
上述五个步骤可以划分为两个基本的阶段,第一阶段是概念提问与文献的相似匹配,选择情报范式;第二阶段是情报范式与其他有关文献的相似匹配。