论信息检索策略的假设_检索策略论文

论信息检索策略的假设_检索策略论文

试论情报检索策略假设,本文主要内容关键词为:试论论文,情报论文,策略论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 问题的提出

“一个新的事实被观察到了,它使得过去用来说明和它同类的事实的方式不中用了。从这一瞬间起,就需要新的说明方式了。”[1]这个新的说明方式就是假说或假设,它是科学发展的未确证形式。世界上的许多著名科学家也都有这方面的体验。爱因斯坦1952年5月7日给索洛文的信中,将科学发现的思维过程表述为:“(1)ε(直接经验)是已知的。(2)A是假设或者公理。……(3)由A通过逻辑推导出各个个别的结论S。……(4)S然后可同ε联系起来(用实验验证),进一步实际上也属于超逻辑的(直觉的),因为S中出现的概念同直接经验ε之间不存在必然的逻辑联系。”[2]这就是著名的假说思维公式。假说思维的根本特点是它的突破性。正如卡尔·波普尔所说:“……任何特殊假设在它前面都将有一些观察……如果这些观察需要加以解释,因而导致人们提出一种假设,那是因为这些观察不可能在旧的理论框架、旧的期望水平上加以说明。”[3]约翰·洛西也指出:“假说是科学家在归纳各个定律行不通时可以接受的关于原因的推测。”[4]总之,假设是人们在社会实践或科学研究活动中遇到了一些用已知的科学原理无法解释的新事实或者用已有的科学方法无法解决的新问题而采用的一种思维方式。化学家门捷列夫说得好:“抱定这样一种哪怕随时间的推移可能是不正确的假设,也要比什么都没有好些。”[5]当我们单凭现有检索工具和检索方法无法查到所需要的文献情报时,采用假设在文献情报检索中开道,总要比无所作为好些。

“情报检索的中心问题是由系统中作好记录存贮的信息的性质以及这些信息与对系统查询的关系决定的,”[6]也就是查询问题属性或特征在多大程度上能与有关文献情报的属性或特征相符合,这就是所谓的“匹配原理”。“在情报检索系统中,存贮的‘值’(例如正文)是不确定项,询问中出现的查找词是不能预料的,而且存贮的信息和处理的问题之间的关系是含糊的”。[7]这就意味着情报检索往往带有试探性,其检索策略也就是一个未确证的检索方案。从这一点上讲,它与科学假设类似,从查询问题的性质看,一般针对性都很强,要求查找知识单元情报。而提供服务手段的情报检索系统,一般只提供题录或文摘情报,即文献单元信息。有的虽然也提供主题情报,但其隐含的正文即原始情报却仍然是一个不确定项。某些全文数据库虽然能提供知识单元情报,但它通常是存贮某些核心期刊的文章或某些学科的经典著作或某些使用频率很高的文件资料(如法律、法令等),数量也不多,在国外,它所占的比例还不到全部数据库的1/5,知识单元情报覆盖面非常有限。而且现有这些全文数据库中的知识单元情报与查询问题之间的关系也具有模糊性或不确定性,存在一个试探性的“匹配”过程。在中国,还有一个特殊的情报检索系统,那就是古代的类书和80年代末90年代初出现的现代类书,它们也能提供知识单元情报,但同样非常有限。因此,假设思维不仅在情报检索实践中早已普遍存在,而且有时还是突破现有情报检索工具和检索方法的局限查找用户所需要的知识单元情报的重要方式之一。

2 假设思维在情报检索中的应用

任何情报检索策略的确定和实施过程都离不开一定的思维形式。兰开斯特(亦译兰卡斯特)先生指出:“检索策略是可接受文献的类目说明,用逻辑和(sums)、逻辑积(products)及逻辑补(complements)表示。……利用类目的相交、相加、相补,可以改变检索式的‘穷举度’(exhaustivity)与‘专指度’(specificity)”[8]。一般的检索过程都贯穿着这样的逻辑思维形式。假设是一种创造性思维形式,它是逻辑思维因素和非逻辑思维因素相互交融、辩证统一的过程[9]。它在科学发现中起着开拓新领域的作用,在情报检索中也具有发现隐藏的(即无检索标识的)知识单元情报的特殊功能。我们几年来的亲身实践充分证明了这一点,现分几种类型介绍如下:

2.1 推测所需情报与某一事件有关

根据用户所需情报可能与某一事件有关,可在此事件的有关信息中去查找。例如1992年江西省台办介绍一位先生来查毛主席与蒋介石碰杯的照片。这种情报与重庆谈判有关,在重庆谈判摄影集中可能有这种照片。结果在童小鹏主编的《第二次国共合作(照片集)》中查到了此照片。同年又有人查李井泉的肖像。登肖像与逝世有关,可在有关他逝世的消息报道中去查找。李井泉是哪一年去世的,查最近出版的当代人物辞典或最近几年的人物年鉴便可得知,然后查他逝世时《人民日报》的有关消息报道。任何情报总是一定事物的反映,在有关事物的信息中查所需情报正是以认识论为基础的,因此这是一个普遍适用的方法。

2.2 所需情报可能在同类性质的文献中有陈述

这是在已掌握的部分情报的基础上对查询课题进行类属分析后提出的假设。例如历史系一位教授要查秦汉江南风俗资料,我们通过《风俗通义通检》从《风俗通义》中查到我国南方风俗资料4条。又从唐人封演所撰的《封氏闻风记·卷六》“拨河”、“饮茶”两节中查到有关秦汉江南拨河和饮茶习俗的资料。

2.3 所需情报可能出现在同类性质的资料汇编中

这是按照上例同样的方法提出的假设。上例秦汉江南风俗资料还可在徐荣升编的《五千年野史·十六·乡土风情》中收集到16条资料。

2.4 所需情报可能在同类性质的文献中引用过

这种方法仍然是前两种方法的延伸。前面提到的秦汉江南风俗资料还可能在后来人或现代人研究前代或古代文化的文献中引用过。例如唐人封演的《封氏闻见记·卷六》“饮食”一节中就引用了汉代《神农本草》中有关江南饮茶的习俗资料。今人施宣圆等主编的《千古之谜——中国文化500疑案·六·风俗传说》中引用了汉代文献中有关江南风俗的资料12条。冯天瑜等著的《中华文化史·春秋战国·区域文化格局的形成·吴越文化》中引用春秋战国时代江南风俗资料8条。一种文献引用一个知识单元情报也许是偶然发现,但按照这个方法积若干个同类性质的偶然发现就形成了一个有较大开发价值的知识单元情报集合。

2.5 评论一种文献的知识单元情报可能在这种文献的提要中涉及

这是根据古代书目提要的体例特点提出的假设。例如在“中国古代文学理论学会第九次年会暨国际学术研讨会”上,部分与会者对《二十四诗品》的作者提出质疑时涉及苏东坡评论的司空图诗论时讲的“二十四韵”[10]究竟是指司空氏的哪一种文献。自宋代私人藏书家晁公武撰《郡斋读书志》首创提要体例以后,屡有仿效。提要往往涉及一书的评论,因此可以推测在古代书目提要中可能有关于司空图诗论的评论。依次查阅历代有提要的书目,则可从元人马端临所撰《文献通考·经籍考》“司空图一鸣集”条提要中得知宋人洪迈在其《容斋 随笔》一著作中讲明了这个问题。这类事例表明,中国古代书目提要在开发知识单元情报方面具有重要作用。

2.6 所需情报可能出现在有关辞典的有关词条的引文中

这类情报可根据提问的性质,从已掌握的部分文献情报中提取关键词,再依该词查有关辞典中的相应词条,从中获取所需要的引文资料即原始知识单元情报。例如秦汉江南风俗,从已掌握的部分文献情报中提取“文身”、“鼻饮”、“桃树神”(或“桃神”)、“鸡卜”等关键词,查《掌故大辞典》、《中华文化辞典》和《辞源》等辞典中的相应词条,共获得所引用的20多条古代资料。这类事例告诉我们,辞典是提供知识单元情报的重要来源。

总之,所谓“情报检索策略假设”,就是以已掌握的部分文献情报为基础,以情报检索原理为指导,根据课题与文献情报的同类、隶属、相关等关系,确定文献情报检索的初步方案。

3 情报检索策略假设的基本特征和基本原则

3.1 情报检索策略假设的基本特征

情报检索策略假设与科学假设一样,也具有自己的基本特征。

3.1.1 科学性和针对性。它是以现有的情报检索原理和已掌握的部分文献情报为依据,针对未掌握的文献情报提出来的。也就是说它具有一定科学性和针对性,它既不是凭空产生的幻想,也不是没有目标的乱撞。

3.1.2 有限性和连续性。它只为检索文献情报提供有限的可能性的形式,在情报检索过程中,相继更换检索方案是常有的事。它是使我们逐渐接近目标中的文献情报的思维方式。

3.1.3 猜测性。它不是确证有效的情报检索方案,它具有猜测的性质,因此为查找所需要的文献情报,常常需要修正情报检索方案。

3.1.4 突破性。它不受现有情报检索理论、检索工具和检索方法的局限,创造性地设计情报检索方案。

3.2 情报检索策略假设的基本原则

根据文献情报检索策略假设的基本特征,为了有效地使用假设,必须遵循下列基本原则:

3.2.1 科学性和突破性原则。情报检索策略假设应以比较可靠的已掌握的文献情报和已经检验被高度确证的情报检索理论为基础,但不受其局限,遇到新情况要敢于大胆突破原有思维框架,确立新思维。

3.2.2 有效性原则。为了使假设尽可能有效,提出假设必须具有一定针对性,即依课题性质确定文献检索的大概范围或类属,要有明确完善的实施步骤,便于操作。

3.2.3 逻辑上的简单性原则。这一原则要求提问(即检索策略)使用“在逻辑上不能再简化的基本概念”的“数目减少到最低限度”,[11]“提问越简单(即它包含很少几个组面),其结果可能越好”。[12]

3.2.4 必要性和“最省力”原则。这是指用它能检索到单凭现有情报检索方法无法查到的文献情报,或者能比现有情报检索方法更快地找到所需要的文献情报,否则采用假设就没有必要。如前面提到的毛主席与蒋介石碰杯的照片,仅通过现有检索工具是无法查到的,而必须首先采用假设进行分析,直接在有关类的原始文献中去查找。再如前面提到的秦汉江南风俗资料,采用假设进行分析,从施宣圆等主编的《千古之谜——中国文化500疑案·六·风俗传说》和徐荣升编的《五千年野史·十六·乡土风情》等类文献中收集情报就比查古代类书或其他工具书快。

3.2.5 完备性原则。为了适应具体文献情报检索过程中出现的多种可能性情况并使操作过程连续进行,必须提出几个假设或辅助假设。例如通过《佩文韵府四角号码索引》,从《佩文韵府》中查“水至清则无鱼,人至察则无徒”一语及其出处,有四个词都可能作为检索词,而实际上只有一个词作为检索词,因此必须准备四个检索方案进行试检,如果只准备一个检索方案,所需文献情报就很可能查不到。再如秦汉江南风俗资料,先按分类法从《中国丛书综录》“杂说之属”找到《风俗通义》题录,再按关键词法选择关键词,通过《风俗通义通检》查《风俗通义》中的江南风俗资料。前一个是主要假设,后一个是辅助假设,两者相辅相成,缺一不可:没有前一个假设就无法接触到有关文献,后一个假设就无从谈起;没有第二个假设只有第一个假设,要查有关文献中的知识单元情报虽然也能达到目标,但费时费力,事倍功半。

4 情报检索策略假设是从偶然到必然的思维过程

情报检索策略假设和科学假设一样,也可以划分为四个阶段或步骤:首先是按照课题性质分析已掌握的部分文献情报;第二步是在此基础上提出情报检索策略假设;第三步是试检个别文献情报;第四步是将检出的文献情报交用户使用验证,看是否符合要求和有效。第三步和第四步都可能修改或变更检索策略,所不同的是,第三步是为能检索到文献情报而修改或变更检索策略,第四步是在检索到文献情报交用户使用并获得反馈信息后决定修改或变更检索策略。

情报检索策略假设实际上是偶然性与必然性相互转化的过程。假设突破原有必然性而从偶然性中产生,即通过现有检索工具没有找到所需要的文献情报而从偶然发现中萌发了新的情报检索策略。“偶然性本来也具有必然性”。[13]所需文献情报出现在某种文献中必有某种原因或内在联系,即必然性。建立在这种必然性基础上的检索策略假设,无疑具有一定的科学性。按假设检索出的文献情报则进一步证明了最初发现文献情报的必然性,因为具有同样的原因或内在联系。例如一个偶然的机会,从丁守和主编的《中华文化辞典》中得知近代学者闻一多先生认为“端午节”起源于古代吴越的龙图腾祭。由此可推测,在其考证“端午节”起源的文献中可能有关于吴越这方面的风俗资料。按照这一假设,我们从《闻一多全集》第一卷中《神与诗·端午考》中果然查到所引用的关于吴越此类风俗的古代资料4条。必然性以偶然性为表现形式,必然性“透过偶然性来为自己开辟道路”。[14]情报存在的必然性通过个别情报表现出来,人们在偶然中发现这种情报时就能意识到其存在的必然性,沿着这种必然性也就能找到同类性质的情报。例如一个偶然的机会发现洪业先生等编纂的《食货志十五种综合引得》(以下简称《引得》)中以“江西”一词领头的经济史资料有几十条,于是就萌发了按江西古代地名从中收集江西古代经济史资料的设想。经调查,原来《引得》是关键词轮排索引,证明设想是完全可行的。结果我们按照这个设想从《引得》中收集到江西古代经济史资料600多条。

“在历史的发展中,偶然性起着自己的作用,而它在辩证法的思维中就象在胚胎的发展中一样包括在必然性之中”[15]。偶然发现在认识领域称为直接经验,属于超逻辑思维[16]。它给人以启迪,产生灵感。美国著名舞蹈家邓肯说:“我的灵感可以从树林、云彩、海浪,以及介于热情与山岚之间,或恬静与微风之间的共感得到[17]。一个人有追求,遇到某种事物就产生“顿悟”,即所谓灵感。显然,灵感产生于偶然,而若干个同类性质的偶然就显示出了必然,即规律。情报工作人员的灵感产生于情报的偶然发现,然后追踪由灵感意识到的这种情报存在的规律并进而依照这条规律获得同类性质的一系列情报。

总之,情报检索策略假设与科学假设在定义的方法上有些类似,基本特征在本质上基本一致,基本原则大体上差不多,思维过程也基本相同。但情报检索策略假设与科学假设毕竟是有区别的,有许多不同的地方,如验证手段和方法等方面都有很大差别。两者最突出的区别是,科学假设演变的目的是达到自身的确证和完善,而情报检索策略假设演变实现自身的确证和完善只是手段,目的是通过它找到所需要的文献情报。情报检索策略假设虽然也强调突破性,但这种突破性与科学假设的突破性有很大的不同。科学假设的突破性是指冲破原有规律和理论的局限性而提出“新的说明方式”。情报检索策略假设的突破性则主要指冲破现有检索工具的局限性,在情报检索实践中提出更加灵活、适应性更强的检索策略,至于理论上的突破则不是情报检索策略假设本身追求的目标。几年来的亲身实践证明,假设思维在情报检索中具有奇效。像“秦汉江南风俗”这样的课题,在研究人员感到资料“分散”、“简缺”而暂停研究的情况下,我们采用假设思维,从古今有关文献中收集到有关秦汉江南风俗的古代资料达189条(篇),为该课题的研究提供了足够的文献情报保障。情报检索策略假设不仅在文献资源开发中起着重要作用,而且也由此为情报检索理论研究提供了丰富的经验资料。因此,作为情报检索的重要思维方法之一的假设思维,应在情报检索策略研究中引起足够的重视。

标签:;  ;  ;  ;  

论信息检索策略的假设_检索策略论文
下载Doc文档

猜你喜欢