主题检索点新探,本文主要内容关键词为:主题论文,点新探论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
信息检索(IR)是一种由用户向信息系统提问,并最终得到一些答案的交互过程。在最初级水平上,这种交互包括:①一个提问:②一些文本表示;③一些匹配技巧。IR的科学的和经验的调查始于1950年,这些工作包括计算机和用户两个过程,即涉及到物理范式和认知范式。进入21世纪后,这项研究应当朝什么方向发展并使之更加精深呢?
对IR及情报科学(IS)形成的不同观点只是反映了人们对认知、概念及含义的不同看法。分别描述物理范式和认知范式的认知的或语义的假设是困难的。但所有的技术及理论都是建立在某些数学的认知论的假设上的。在信息科学领域,研究假设及暗示理论显得越来越重要,研究者借助于这些假设和理论,来看待计算机、文本、用户、提问及交互。“非理性的”或“非实证的”跨学科观点的形成是个突破。从那以后,IS开发了许多新的、重要的和相关的元理论观点。例如,解释学、现象学、社会结构学、符合语言学及活动理论等。
有关用户和系统的含义新焦点和社会环境新焦点在对IS进行重新定位的问题上是很集中的。事实上,在以往的研究中,含义的概念在IS中被忽视了,这是整个领域处于危险状态的原因。以往的研究工作的根本基础可能是错误的,因为它们是以假设为基础的,这个假没就是:对于解决IR问题,不需要含义的形式概念。这段话仅仅证明了在语义学领域进行了IS与多学科研究之间的较为密切的合作。最重要的信息学家们很早就讨论过语义问题。例如,D.C.Blaix[1],I.Dahlberg[2][3],A.C.Foskett[4],B.C.Vickery和A.Vickery[5],但是他们很少把自己的研究与语义学中发展的理论联系起来。
2 主题检索点
在信息系统中,司空见惯的说法是,IR机制必须对提问与文献/文本或其表示中的特定元素进行匹配。然而,几乎没有做过这样的研究:阐明生产哪些类型的文献,以及对IR系统为不同类型的文献编制哪些特定提问。IS的明确目标是,创造出一种综合性的文献理论,包括它们的功能,类型,结构等。为使问题简化,我们把文本限定一种文献类型;典型的科学研究论文(见表1)。
表1 典型科学论文的结构及要素
科学方法的标准和本文所含元素 增值信息(主题检索点、路径及信息评
本文以外科学的哲学价)
书目描述
与其它版本的关系
书目标识(刊名、卷、页)
标识符
题名 书目信息
作者、所属单位及地址 机构信息
调查及描述 作者文摘 标引员文摘
标引员描述
问题阐述作者关键词分类代码
引言、设备及材料 语言代码
假设 文献类型代码
试验方法 连接引文、述评和批评的编辑评论
建立理论结果
讨论 “补充关键词”
“超前研究”
结论
(致谢)
文献可获得性信息
参考文献
评价
目标
【注】多媒体数据库中的“句法检索”(如化学检索)的检索是不适于现有体系的主题检索点的例子。然而,反馈检索(如G.Salton的“Smart”)的确采用这样的检索点。但是,的确没有任何有关它们相对作用的理论基础。
可以设想,互联网上的数据库包含所有科学杂志的全文,它们被标引在诸如《化学文摘》、MEDLINE,PsyCINFO及SciSeaneh等数据库中。除科学杂志外,网上还有由信息专业人员、出版商及其他专业人员生产的增值信息。当然,未来的在线文献出版业要比印刷型文献在写作过程(“学术性空中文字”)及写作文本自身的特征两个方面正在发生更多更大的变化。然而,作为起点,我们今天看到的是书写文本。所有这些信息的概要在表1中给出。
给定联机系统中所有这些信息,我们现在可以从查询者的观点来看这个系统:记录中的所有元素都是潜在的“主题检索点”。如果某个用户对“饮食紊乱”这方面的文章感兴趣,他可以选一个数据库或其它数据库,例如,他可以查找PsycINFO或MEDLINE题名字段中的词、文摘中的词、叙词或分类代码,查找Scisearch中引文、“补充关键词”或“以前的研究”,查找全文数据库中的所有元素,等等。IR主要是一种有关设计检索需求档(或“检索交互”)的最理性和最有效的理论,因而也是为使其可检性最大化而提供有关如何组织知识的理论。
真正的IR通常使用词的组合,例如:将“用认知疗法治疗年轻厌食女性”组合成“厌食”*“女人”*(“认知疗法”+“行为疗法”)。然而,一个组合式检索不见得比用词的单个集合检索效果好。对每个集合明确定义非常重要。因此,IR中的最基本问题是有关检索过程中不同检索点的信息价值。我们可以简化并限制自己只注重不同检索点的一个检索词。表2是检索1997年的PsycINFO所得结果的一个例子。
表2 在不同主题检索点用同一个词描述的文献分布
S1 2271
厌食/TI[文献题名中的词]
S2 2639
厌食/ID[标识词中的词]
S3 2963
厌食/DE[叙词中的词]
S4 3386
厌食/AB[文摘中的词]
S5 4177
S1+S2+S3+S4 [集合的并]
S6 4177
厌食[默认检索=S5]
S0 1508
S1*S2*S3*S4 [集合的交]
IS文献中有哪些理论是关于不同领域或检索点的不同含义的?我们认为,没有这样的理论。许多信息学家习惯上更像工程师那样,寻求解决“技术定位”的办法,而不像哲学家寻求对潜在现象的理论解释。然而,有经验的检索者的确具备了一些内在的知识,他们通常被限定在特定的数据库。进而,可以假设,主流IR受到与逻辑实证主义紧密相关的隐含假设的影响。因此,我们应当继续D.C.Blair[1]及其他人的工作,并且试图将IR问题与语义学理论联系起来。
3 作为检索点的文献组成部分与增值元素
文献的各个部分及其增值信息(见表1)几乎都是情报科学及语言学研究的客体。然而,这些研究却非常零散和分散,缺乏很好的理论指导。
①题名。它是重要的检索点,在这方面已经进行了相当多的研究。M.Yitzhaiki[6]指出,“重要性”这个词的频率随学科和时间而变化。在1990-1994年间,在所查看的科学杂志上,它的平均使用率从62.7%到70.2%;在社会科学杂志上,它从62.5%到68.9%;在人文科学杂志上,则从64.1%到66.1%。他所讨论的一个有趣的假设是:使用题名的KWIC索引以及类似的检索工具的可得性,往往增加了作者知识题名作为检索工具的重要性。然而,他没有试图说明题名中的语义学问题,例如,词汇的隐喻用法。也没有试图说明题名要指出什么,倾向什么,或者它们在交流过程中的作用是什么。G.Myers[7]简要地阐明了这个问题,他比较了生物学的学术杂志和大众杂志的题名。然而,根据B.HJφrland[7]的观点,通过主题检索点识别的是文献的“信息可能性”。如果这是正确的,那么需要研究题名分析的更为定性的方法。
②摘要。它像题名一样,通常由作者自己完成。在IS领域,对计算机编制文摘也做了研究。然而,经验证据和理论分析表明,像《化学文摘》这样的文摘最好由知识目标人群的需求的人来编[8]。关于文摘、文摘法和文摘杂志,可参阅文献[9]。
③标引员叙词和分类代码。还有另一类语义学问题,而不是所有自然语言领域。分类系统和叙词表是封闭的语义学系统,而自然语言是开放的系统。“厌食症/叙词”的含义是由不同于“厌食症/题名”的含义的其它规则确定的。分类系统中一个类的含义或叙词表中的一个叙词的含义原则上是由与其它类/叙词正式关系以及应用的一致性与内部标准来决定的。但是,实际上,如果出现同一个词的话,一个系统往往使用给定的叙词,如被标引文献的题名。然而,在这方面,来自另一个领域的信息复制的某一领域的价值必须受到质疑。主题词的分类如表3所示。
表3 电子学叙词表中某一主题词的分类
PsycINFO(Dialog:Knight Ridder信息,文档11)
e(神经性食欲缺乏)
参考条数 类型
相关词数 索引词
R1
2963 5*ANOREXIA NERVOSA
R2
239B 14EATING DISORDERS
R3
195B 7UNDERWEIGHT
R4
3164
R 4BULMIA
R5
794R 15NUTRITIONAL DFFICIENCIES
R6
3853
R 32PSYCHOSOMATIC DISORERS
? e(饮食不正常)
参考 条数 类型相关词数
索引词
R1
239 14 EATING DISORDERS
R2 16989
B 91 MENTAL DISORDERS
R3 1332F 1 APPETETE DISORDERS
R4 2963N 5 ANOREXIA NERVOSA
R5 3164N 4 BULIMIA
R6
547N 5 HYPERPHAGIA
R7 3683N 8 OBESTTY
R8
155R 3 APHAGIA
R9 2845R 9 APPETITE
R10 262R 4 BINGE EATING
R11 798R 5 NAUSEA
R12 794R 15 UNTRRRIONL DEFICIENCIES
R13 111R 60 PHYSICAL
R1439495R 73 SYMPTONS
R15 195R 7 UNERWEIGHT
封闭系统面临这样一种困境:它试图在自身内部建立一致性。然而,当该系统外的一个词的含义改变时,那么该系统内该词的含义也就作废了。可供择的是,它可试图使用与常规(子-)语言相一致的叙词,但该系统就失去了它的一致性,并且拥有一个受控词表的整个想法也就是丢失了。开放系统与封闭系统各有利弊,它们可在IR中相互补充。某一分类系统(或称受控词表)可以做到的是在一个馆藏或数据库内建立一致性,并且为术语学的某种标准化作出贡献。有关分类和叙词表的文献数量庞大,本文不想过多涉及。许多研究者在过去几十年内就该问题发表了大量文章,但能否把过程搞清楚,仍是一个疑问。由人工智能研究中发展的并应用于IR系统的“语义网”技术提供了语义学理论的联系。
④引言。它是文献本身的中心部分。J.Swales[10]是这个领域中颇具影响的人物之一。他的开创性研究是在取自48篇文章的引言的基础上进行的,其中16篇源于纯科学、应用科学和社会科学。在受到了其他研究者的批评以后,他提出了科学论文中引言的写作模式:
科技论文中引言的写作
第一步:处理前期研究
A:评价论题的重要性,或者
B:阐述该论题的当前的知识
第二步:准备当前研究,通过
A:指出差距,或者
B:提问,或者
C:扩展发现
第三步:介绍当前研究,通过
A:给出目标,或者
B:描述当前研究
该模式只是类型分析研究的一个例子。显然,这类研究与发展全文IR理论有关。
⑤其它元素。在IR中,即使像文章结束的“致谢”这样的特定元素也是要研究的。对其它特定元素,如“补充关键词”和“研究前沿”(两个科学引文索引)也进行了研究,但仅仅是初步的[11][12]。
本节的一般结论是:文献(及其增值补充)由许多部分组成,它们是文献规范化的反映,是适应给定可能性和作者、出版者及中间媒介交流需要的反映。社会构成主义观点试图解释这些元素的历史特征,以及隐含的假设、规范及其价值。这样的研究对IR和IS是有益的,因为它揭示了信息专业人员必须进行工作的结构。这种方法的必要性非常明显,但它与当今IR主流相对立。
4 参考文献与引文
本节包括超文本形式的知识组织的思想。
科学论文中的参考文献是根据现有的标准列出的。E.Garfield和H.Small[13]提出,有限的引文在自然科学杂志中非常普遍,而社会科学家更喜欢“作者+年代”系统。数字系统最具引文索引法的功能。自E.Garfield创造了引文索引(第一种是1963年创刊的《科学引文索引》)以后,参考文献已经成为极为重要的主题检索点。引文行为、引文索引法以及基于引文数据库基础的IR研究已经成为IS中最热门的研究领域之一。虽然这方面的文章较多,但M.H.MacRobents和B.R.MarRoberts[14]的文章值得一读。
从语义学观点看,引文的基本问题是,一篇被引文与引文之间的语义关系是什么[15]。然而,一些研究者主张,被引参考文献间的关系不是语义学问题,其本质是实用主义的。我们认为,这是一个由错误的语义学观点引起的虚假问题。如果我们抛弃诸如“描述理论”之类的理论,并且转向语义学的社会理论,那么词语的含义就会在“思想与话语群体”中产生,并且这些群体与引文网相关联。
对IR而言,引文索引的相对贡献(与词语检索相比)取决于引文实践,取决于文献子语言的明确性,取决于标引系统的质量。经验调查的一般结果是,词语检索和引文检索应当互相补充。但是,更专门的IR的指导方针很难建立在至今为止所进行的研究基础上。从社会构成主义的观点看,引文行为受到文化规范的支配,这种规范也是可以讨论和评价的。
引文行为非常重要,因为IR的目的就是提供参考文献,而该文献对于解决某一特定问题有用。一篇科学文章就是解决特定研究问题的文献资料。这个问题在本文中详细阐述了,实际上使用的这些文献都是被引用的。每天生产出来的上千篇文章中的每一篇都是某一IR案例研究使用的一种方法。每篇文章不仅引起一个明确的IR问题,而且作者提供的参考文献表列就是特定人如何解决问题的钥匙。因此,用这把钥匙检验IR理论就是可能的。大多数关于“相关性”及IR的研究似乎都忽略了这个事实。据我们所知,一个算法不可能从电子数据库中选择参考文献,并且结束给定文章所提供的参考文献集合。从这一观点看,IR理论似乎非常幼稚和不现实。更为细致的引文行为研究能够阐明IR的现实问题:所选文献不是拥有一组固定特性的文献集合,这些文献没有在非所选文献中表示出来。
今天我们的确知道了科学家的引文行为,L.Smith[16]提出了15条作者引文的理由:
1.表达对先行者的敬重
2.表达对相关工作的信任(对同事的敬重)
3.搞清方法、设备等
4.提供背景资料
5.纠正自己的工作
6.纠正别人的工作
7.评价以前的工作
8.证实一些观点
9.提示未来的工作
10.提供对不常传播、不常标引或未被引用的文章引导
11.鉴别数据或事实,如物理常数等
12.搞清讨论某一思想或概念的最初出版物
13.搞清描述某一命名的概念或词语的最初出版物或其它著作
14.拒绝别人的工作或思想(否定的观点)
15.反驳别人先前的观点(否定的意思)
引文者的引用动机列表给出了现实IR必须满足的目标。显然,这不只是个机械的问题,而在很大程度上,是个暗示规范和价值的问题。如果你在考虑一些问题,而这些问题的研究在人们的引文行为中被发现,那么选择参考文献的特性就开始变得不太机械了。因此,P.O.Seglen[7]列举了一系列有关选择参考文献的问题:
1.参考文献被选用是因为它们对该作者有用,有用性不同于这些参考文献的品性。
2.所用的全部资料只有少数被引用。
3.不引用一般知识。
4.知道通常从二次文献引用。
5.支持作者论点的文献比其它文献被引用的多。
6.称赞(引文编者、潜在调解者及其它权威人士)
7.炫耀(引用文章中的热点、新点)
8.参考文献复制(由其他作者提供的参考文献)
9.传统。如在生化领域,经常被引用的是方法,不是试剂。
10.自引
11.引用同事的观点(通常反映非正式的信息转换)
关于引用者动机的研究提出了这样一个问题:IR不应当只预测参考文献的用户真正要选择的是什么文献,而且也应当在下面的问题中涉及,即被看成道德引用行为的是关于什么的,以及被看作好科学的是关于什么的。IR研究不能回避哲学和科学方法论问题。
然而,这个研究也谈到有关信息查寻中参考文献和叙词的有用性这个更加技术性的东西:从描述惯例的程度上说,惯例可以有直接关系。就上面给出的第9条而言,我们可以说,引文索引法在检索生物化学方法方面运行的很好,而在检索试剂方面就不好。但是,这样的惯例必须一条一条地揭示出来。
“科学地图集”是一较早的概念,它以引文方法、引文关联和引文频率为基础。它们把研究领域中的关联展示,例如,它们可以通过同引分析绘出图。E.Garfield[17]首先把这种思想融入具体的、商业的产品中。作为IR工具,它们都把同类语义学问题看作书目参考文献。