语义学理论与信息检索,本文主要内容关键词为:语义论文,信息检索论文,学理论论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】G250
1 引 言
信息检索(IR)是一种由用户向信息系统提问并最终得到一些答案的交互过程。这种交互的基本要素是提问、文本表示和匹配技巧。自1950年起,人们一直对IR进行科学的和实验的调查研究,这种研究大体上包括计算机和用户两个过程,即“物理范式”和“认知范式”。50年过去了,今后信息检索研究应当朝什么方向发展才能使之更加精深呢?
对于IR和情报科学(IS)持有不同观点,意味着对认知、概念及含义的看法不同。分别描述物理范式和认知范式背后的认知或语义假设是困难的。但是,所有的技术及理论都是建立在某些数学假设和认知假设上。在情报科学领域,研究假设及暗示理论变得很重要,研究者借助于这些假设和理论,来看待计算机、文本、用户、提问及交互。一种重要的“非理性主义”的或“非实证主义’的跨学科观点的突破是由T.Wingrad和F.Flores[1]实现的。此后,IS发展了许多新的、重要的和相关的元理论观点。例如:解释学、现象学、社会构成学、符号语言学及活动理论。
有关用户和系统的含义(Meaning)新焦点和社会环境新焦点集中在IS的重新定位上。Van Rijsbergen[2]指出,含义的概念在IS中被忽略了,这是使该领域处于危险状态的原因。所有先前工作的根本基础(包括他自己)都是错误的,因为它是以假设为基础的,这个假设是:对于解决IR问题,不需要含义的正式概念。这段话仅仅证明了在语义学领域进行的IS与多学科研究之间的较为密切的合作。最重要的情报学家们很早就讨论过语义学问题。如D.C.Blair[3],I.Dahlberg[4][5],A.C.Foskett[6],B.C.Vickery和A.Vickery[7],但是他们很少把他们的研究与语义学理论联系起来。
如果借助于对比理论来阐明问题,即使问题不那么简单,问题也往往是非常清楚和容易理解的。这些对比理论可以在同一个人的著作中找到,如哲学家L.Witgenstein(1889—1951)。他对坚持逻辑实证主义的Vienna学派有重要影响,但他不是Vienna流派的成员,也不是对逻辑实证主义的语义学理论最有影响的人物。(本文只考虑他的工作,而不是讨论逻辑实证主义理论)。他于1921年发表了逻辑哲学论,其中包括名为“描述理论”的语义学理论。1929—1932年间,他的思想发生了戏剧性变化,使他的地位在其后的15年里得到了巩固和加强。这些思想在他逝世两年后发表的“哲学调查”中作了权威性的解释。新的语义学理论(即“后期的Wittgenstein理论”)被称为“语言游戏理论”。早期的Wittgenstein理论是关于哲学领域的经验主义/实证主义的。后期的Witigenstein理论则是关于普通语言哲学/实用主义的。
2 描述理论与IR理论假设
下面列举含义的描述理论(Picture theory)的一般原则,并揭示其本质。描述理论的基本特征如下:
·语言的最基本要素是指示简单客体的名称。
·词汇的含义是它所代表的事物。
·世界的本质是由全体永恒的简单客体组成,如时空万物的点、不可分的性质及关系。
·公共语言中单词的含义来自思想或精神图像。这些思想或精神图像就是用这些单词表达的。含义中的关键事物是句子要表达信仰或思想的建议内容,它主要不是来自交流目的或社会实践。
一个句子或一个命题是某一事件的(可能)描述;与非语言学元素对应的词语以及这些词语在句子中的排列具有相同的形式,如同该句所代表的事物状态的排列。
·描述性语言是语言的特有的模型。
·单词需要或必须被明确定义,可以通过必要而充分的应用条件的详细说明加以分析,含糊就是缺点,准确性也有绝对标准。
·可以表达的一切都应当说清楚,并且必须定义一种且仅一种含义。含义不能是不明确的、模棱两可的、多义的、含蓄的或心照不宣的。
·一切有意义的句子都具有事实功能并且可以扩展。基本命题是唯一的句子,这些句子不具有其它句子的事实功能,这些基本句子是原子事实的描述。
运用事实功能操作符(逻辑连接词),可以把基本命题结合起来形成分子命题。
·简单与复杂之间的区别是绝对的。
·唯一有意义的句子是自然科学句子。
·所有形而上学的论述都是没有意义的。
“描述理论”及其相关理论对IR有一定的启发性和实用性,但仍然需要进行进一步的认识论研究。一股地说,IR运用描述理论可以遵循以下原则:
·某一检索词的含义与表示该词的字段无关。(语义学原子论原则#1)
·某一检索词的含义与它在文献或文献表示中的位置以及上下文无关。(语义学原子论原则#2)
·某一检索词的含义与它的科学领域/话语,被表示的特定主题数据库及其它上下文无关。(语义学原子论原则#3)
·主题分析基本上是一个描述过程。(与选择、决定或评价相对)
·对一个字段限制越多,检索词在那个字段的信息价值就越大。(语义浓缩原则)
·出现某一检索词的字段越多,该文献就越相关。(附加原则#1)
·在给定字段(如全文字段)中,某一检索词被表示的次数越多,该文献是相关的可能性就越大(附加原则#2)
·IR问题实际上是词集合之间的数量/统计关系,这个问题可以通过计算机使用算法原则予以解决。
·IR是一种中性的、免费的行为,它有客观的、可测量的效率/成功的标准,如查全率、查准率。
·把尽可能多的不同主题描述放入文献表示,可以改善查全。(无限同义词策略[8][3])
·使用狭义词,把检索限制在压缩字段或用逻辑算符“与”和“非”连接集合,可以改善查准。
1997年的PsyclNFO数据库,用ANOREXIA(厌食)检索的结果如表1所示。
表1 在不同主题检索点用同一个词描述的文献分布
表1给我们的启示是:以上述原则为基础,通过S0—S6之间的下移可以提高查全率;通过S0—S6之间的上移可以提高查准率。
然而,上述启示不是没有问题。用其它词检索可能得出不同结果,并且包含不同的启发规则。其它词有不同含义,还有不同的分布。例如,如果我们用FEMALE(女性)这个词检索,区别就更加重要和明显了:
S7128336FEMALE?
S810800 FEMALE?/TI
S923483 FEMALE?/DE
S10
73029 FEMALE?/ID
S11
87693 FEMALE?/AB
“女性”有自己的分布,因为性别是文摘和标识符中经常提到的形式变量,即使性别不是中心问题。了解各个字段的设置习惯是非常重要的。例如:ID字段往往提到方法及各种实验变量,但却不经常出现在题名字段。再如,词BURNOUT(燃尽)不是官方用语,而是俚语,它通常用于题名字段,但从不出现在叙词字段。该数据库的叙词使用PCCUPATIONAL STRESS(职业压力):
S121148BURNOUT/TI
S131261BURNOUT/ID
S140
BURNOUT/DE
S15996 BURNOUT/AB
训练有素的检索人员可以对检索词的含义进行解释,并在IR中以算法所不及的方式使用它们。信息检索必须发展一种理论,把内容、含义及语义学都考虑进去。该例表明,各种词语或代码之间缺乏普遍的定量联系。联系的多与少不是问题,关键是选择什么样的研究。
不能否定上面提到的取自实证主义语义学的原则。恰恰相反,所有有经验的检索者一直都在使用它们其中的大部分原则。然而,正如上例所示,这一理论不能说明其它例子。因此,如果IS考虑到“描述理论”这种语义学理论的局限性,将使我们能够建立更先进的信息系统(或在现有系统中进行更好的检索)。我们需要语义学理论,它可以指导为IR制定更有效的启发法则。
3 语义学理论概述
如表2所示,语义学理论可以是:
表2 语义学理论的简单分类
①客观的(即面向客体,词的参照);
②主观的(面向个体的精神、思想或概念);
③面向人的社会活动。面向社会的语义学理论也是比较主观的(如社会构成主义)或比较客观/现实的(如科学现实主义和行为理论)。
当定义“一个词的含义是它所代表的事物时”,描述理论是非常客观的。然而,它可以与这种观点结合起来,即每个人形成他个人的反映这个世界事物的概念,这个概念包含非常主观的含义。这种主观主义(以及逻辑实证主义和主观主义的混合)在许多科学领域(包括IS)都产生很强烈的影响。认知科学领域中的许多理论家假设:各个主体形成事物的固定概念。他们把类目的概念当作存贮在长期存贮器中的信息的一个文件或组件。概念的这一观点与普通观点有族性类同之处,但有效性方面则不同。按照该主体的概念中哪一个是事物的短暂的、相对的观点,下面概括另一个建议,把实证主义和主观主义结合起来的数据库语义学。
用ANSI—SPARC方式处理语义学有两个错误。第一个是基本的,也就是说,通过使用“概念的”这个词祈祷天真的形而上学。这属于心理主义姿态,它把语义学作为语言表达与人们心里的概念之间的参考关系的调查来处理,这些概念就是它们的含义。确定含义的更加令人迷惑和不满意的方法不能用于该主题的科学研究。第二个错误是,当你研究它们时,尽管概念有其完全主观的特性,但相同的为数据库群假设,单一的概念体系有能力整合各种用户群不同的外部体系。用户可以通过对一篇文献采用该概念体系中的同义词来使用自己的局部语言,而且他们可以把论文的范围限制在某一概念的子集,但是他们必须接受它的拱形结构。因此,尽管都是主观主义的“概念”语言,我们看到,他们也采用这个世界单纯有效观点的天真假设,即逻辑实证主义者的现实描述的一种间接观点。这两个错误反映了广泛分布于自然科学、工程和数学会议上树立的科学团体中间的形而上学假设,在这些会议上,把简单的客观现实当作像相信数学概念现实那样认可和现实。
D.Ellis[9]编写的一本IR方面的导论性的书描述了IR中的两种主要方法:原型的(或物理的)和认知的。原型方法趋向于客观主义,而认知方法趋向于主观主义。他指出:
“原型方法集中于记录在物理媒介上的知识人工制品或外表描述上,而认知方法正好相反,它主要集中于人以及模拟个人知识结构上。因此,在原型方法中,理解的框架是定量的。排除个人认识的主观性,这种方法可以使其能够利用相关概念的同质性比较彻底地处理人工制品或外表表述,但却以不能应付由人的认识和知识表述引起的问题为代价,而人的认识和知识表述恰恰是检索交互的基础。”
总之,IR(也包括作为一个整体的IS以及许多其它领域)的基本问题是它已经在个人主观主义与客观主义之间被捕获了。主观主义对应于B.Frohmann[10]评价的IR中的“心灵主义”。第三种方法似乎是强制性的。这样的理论就是前面提到的后期Wittgenstein理论。
4 语言游戏理论与IR理论假设
语言游戏理论(Theory of Language Game)的基本特征如下:
·语言不是严格地受到逻辑结构的控制,但它由多个比较简单的子结构或语言游戏组成。
·句子不能作为事实的逻辑描述,句子的简单成分不都是单一客体的名称。
·“简单”和“复杂”这两个词没有绝对的含义:在一种语言游戏中是简单的,而在另一种语言游戏中则是复杂的。
·有大量具有许多不同结构的不同语言,它们可以满足不同的特定需求。
·我们称为“符号”、“单词”及“句子”的东西有无数种不同用法。这些不同的功能应当用哲学来揭示,以便消除形而上学的迷惑。
·有关含义、逻辑原子论、概念、规则的普通哲学观点都是语言的一种错误观点的产物。
·单词不表示被限定的概念,但却意味着指出被概念标识的客体之间的族性类同性。
·语言中的单词仅有作为其应用的公共标准的含义。因此,没有内部的或个人语言。
·语言是学习的事情,在学习语言的过程中,人开始进入一种生活形式。
·世界最终决定可以采用什么样的语言游戏。(自然主义的,而不是相对主义的观点)
·含义在词语的运用中发展。(语义学的面向应用的理论)
·类目的通用体系没有被揭示,让它只由某一理论建立。类目没有绝对的通用性,这种通用性是逻辑类型理论所主张的。
·哲学的透明度只能一个一个的、上下文上下文的获得,没有捷径可走,通过一种思想语言、归类或类目。(暗含面向领域的方法)
·仅当单词在语言中的全部作用非常清楚时,表面的定义才能解释单词的用法(即含义)。这样,如果我们知道某人想要解释一种颜色的词,表面的定义“这是褐色”将帮助我们理解这个词。如果我们只想知道这是什么颜色,那么我们已经完全知道了“褐色”这个词的含义。再者,知道某一颜色是什么,意味着能够做些事情,知道如何使用颜色方面的词。
Wittgenstein的影响很大,而且在IS领域对他的重要性的认识似乎也有上升趋势。由《社会科学引文索引》(1998年1月)标引的图书馆学情报学杂志中,他已经被引用了67次。在讨论这个理论的含义之前,我们把它放在更加广泛的观点中考察。
语言心理学有两种基本方法:认知支配观点和主流认知心理学。依据这种观点,概念及含义在个人思想(即“大脑”)中产生。这种从感觉中产生的信息是根据我们大脑中的认识器官构造形成的,并且这种形成为词的含义提供了基础。语言支配观点仿效社会构成主义观点(如行为理论),根据这种观点,概念及含义是通过我们的社会实践产生的。社会实践的结果是交流、语言及非语言行为、概念的发展。含义最早产生在“脑外”,然后通过语言转换成个人思想。从这个观点出发,语义学的中心问题不是首先关于个人客体或个人思想的,而是关于文化、子文化、社会劳动部门、话语交流、科学训练等。因此,最充分的语义学理论似乎是社会认知的和社会语言的,而不仅仅是认知的和语言的。
在这个比较广泛的背景下,语义学的实用传统已经预示了语言游戏理论。实用的含义理论是“未来主义的”,它从含义的确定如何能有助于达到所有目标的观点来解释含义。这就是说,每一命题的理性含义在于未来,为什么呢?因为命题的含义(即它的逻辑解释)本身就是一个命题。的确,它正是真实命题,而它是这个命题的含义:它是它的一种翻译。但是,一个命题可能会被翻译成无数形式,那么哪一个是它的确切含义呢?根据实用主义的观点,它是一种命题开始适合于人类处理的形式,…即在每种状态下和为了每一目的,最直接适合于自控制的形式。这就是把含义设定在未来时间的原因,因为未来处理是唯一一种受到自控制的处理。
当然,也可以把语义学理论与古典认识论联系起来。应当指出,传统经验主义也误解了概念或一般思想的重要性。它坚决反对优先特征学说,并把它们与现实世界的经验联系起来。尽管比反对的理性主义更明显,经验主义还是与起源、内容及有效性测量联系起来。据此,人们认识到,通过把一个客体与另一个客体相对比才形成概念,然后消除它们不一致的因素,而保留共有的。因此,概念是已经感觉到的客体中同一特征的简单备忘录,它们是便利的工具,把分散在具体经验中的各类事物汇合在一起。但是,他们必须通过协议才能得到证实,这个协议是与先辈的资料之间的协议;事实上,它们的价值和功能是可以追溯的。这样的思想不够灵活,不适合新形势下执行一种调整的职责。从该词违背科学的意义上说,它们是“经验”的,也就是说,它们只是在或多或少偶然的环境下所获得结果的总结。
如此说来,语言仅仅是含义交流的媒介。非语言交流、艺术以及客体都是富有表现力的;它们传送含义,被看作一种语言。每一种艺术都有自己的媒介,这种媒介尤其要适合一种交流方式。人们日常生活的需要给予一种交流模式(交谈)以高级而实际的重要性。不同的人类文化及需要为交流含义发展了特定的媒介,这种观点似乎与语言游戏理论联系紧密。
除了提出语言游戏理论外,还应当理解含义如何在使用中发展以及这种发展的历史特征。关于“使用”的用法。首先要清楚地明白,某个词的含义是它“在语言中的用法”。“USE”暗示着行为。因此,我们说,语言是一种行为。在这样做的时候,我们要把关于语言是一种行为的观点和语言的实用概念进行比较。例如,我们发现:语言用手势固定,含义出自社会行为。也可把语言看成一种设备,而单词和概念是工具;语言的重要性在于我们能对它作些什么。此外,必须指出,小心设计出来的语言实用概念强调了上面忽略了的一点,也就是说,含义的定义依据行为引导出一种观点:单词的含义不等同于它在特定状态下的用法“NOT”。某一单词的用法忽略了一个很大的事实:该词有其含义的历史。因此,某个词的含义等同于它的用法可能说得过早。
含义的实用主义理论也得到了发展,在“心理学文化历史学派”看来,它也叫“行为理论”和“社会认知观点”。实用主义和行为理论都面向未来,面向人的目标的实现,但是行为理论在如下事实上往往比较明确:不同人群的目标是不融合的。它也强调这样一个事实:含义的发展往往与生产工具的发展、与社会劳动部门、与经济影响相联系。社会由许多“话语交流”组成,这些交流发展了它们自己的特定语言、文献类型、信息系统、机构以及它们为保持其功能的职业角色。
知识的生产、文献的设计、子语言、数据库。使用、知识的收集与传播总是通过专业人员来完成的,他们持有某一观点和知识理论。这种知识的基本观点或多或少是有意识的或无意识的。大部分情况下他们是无意识的。他们历史性地发展并且常常是跨学科的。对知识理论的明确分析是在哲学、科学研究以及科学自身中更加理论化的领域中完成的。我们认为,在IS中也应该做这样的分析,因为知识理论影响到信息系统设计与使用的各个方面。这类知识只是IS中的一种,它可以从各个主题领域中概括出来。
行为理论与社会构成主义密切相关,因为这两者的兴趣都在于解析含义是怎样历史的发展的。然而,实用主义和行为理论却更加“现实”,因为它们发现,为了给定的目的,一些解释和分类比其它解释和分类更加理想。知识的客观性部分地是这样一个问题:代理试图达到什么样的目标。(明确的或含蓄的,有意识的或无意识的)。
从行为理论的观点看,在不同人群和理论影响方面赋予一个概念许多含义,如“厌食症”。一个人同时从不同上下文获得不同含义,如从精神病学、心理分析、大众传播以及人际关系等。这些含义或多或少是一致的或冲突的。要了解某一客体原则上不是在性质与概念之间做出专断的联系,而是理解客体和人类实践的人文历史发展。这样,概念就有了“历史深度”。
应当指出,关于科学范式的理论也暗含着语义学理论。科学范式理论反对如下思想:概念的描述是从分散的、不明确的形式历史地转移到严密组织的、理论驱动的形式,也就是说,概念的描述本质没有发生转移,而理论系统包含相同的或大致相同的现象的等级发生了转移。……因此,这只能通过分析与理论(把概念嵌入这个理论中)有关的概念,才能决定如何把构成成分结合起来。
重要的是,如果我们正在分析概念的含义以及概念之间的关系,我们就必须分析嵌入概念的理论。根据颇有影响的现代认识论,观察是充满理论的。在观察、概念及理论之间没有明显的界限。它们互相影响,而且是在历史过程中完成的。因此,我们必须历史地面向认识论,以便搞清楚所有这种“社会构成”,在实用主义的认识论中,这种分析把明确的和含蓄的目标与价值的分析联系起来。概念和含义是我们为实现某一目标而生产的精神工具,即达到目标的工具。
5 从社会构成主义观点看文献和检索点
文献的形式(如科学论文的形式)可能被看成微不足道的东西,并且通常被看成是有某一理想的形式,历史发展的最终形式,可以实现标准化,独立于内容和认识论问题。大多数学科都有“出版手册”(如《美国心理学协会出版手册》,第4版,1994年)。他们非常详细地描写了论文的设计方法。这类手册具有高技术和高标准的特性,但是,从它们不把出版形式当作认识论问题来讨论的意义上说,他们在其建议方面不是反身的。
近期的研究正在开始改变这种出版形式的观点。新的研究把社会构成主义及其相关理论当作离开的认识论观点来使用。语义学的社会构成主义理论暗示,客体是“社会构成物”,含义被构成在社会话语中(通常的方式是:对所涉及的代理是无意识的)。研究论文及其它文献被看作是社会构成物和论证方式,(但决不是唯一的方法)
这个论题是在科学论文中追求修辞技术。牛顿不仅发现了宏观物理学的基本定律,而且300年来还影响了科学论证和出版。然而,没有什么事情是一成不变的,通过对20世纪科学论文形式、长度与结构中变化的分析,可以看出,这些变化之一是参考文献数量的增加,被引著作的性质以及参考文献在论文中的分配。这些研究工作对文献计量研究和IR,或更进一步的扩展对这些领域的观点,都有直接兴趣。这也说明了心理学出版手册是如何反映行为主义观点的,这个观点暗示,手册不是中性形式,但却的确反映了认识论规范,这些规范可以被分析、讨论和提问。因此,在1995—1996年,《美国心理学家》杂志的更加透彻的争论是有关该领域的出版手册问题。许多研究者在“写作研究”和“类型分析”领域中的工作,对于IS不仅在具体水平上,而且作为对方法论水平的一种鼓舞都是卓有成效的。
这种研究提出的一般结论是,文献的结构正从经验上和理论上被分析。这种了解与IR和IS应当有直接的联系。写作文献反映了认识论规范,而这些规范对于研究群体来说通常是无意识的。但对这些规范可能要进行认识论研究,隐含的规范是可以讨论或评论的。