近年分类和索引的理论进展,本文主要内容关键词为:索引论文,进展论文,近年论文,理论论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、简介
这篇文章回顾和收集了分类和索引理论近年来的一些广泛研究的问题,如:主观性和客观性的比较、索引理论、自动化理论的作用以及国际分类法的理论趋势等,其目的只是唤起人们对该领域近年来研究问题的注意。
这些工作的大部分并不是在美国进行的。从过去到现在,美国曾涌现了一批杰出的图书情报理论专家,如历史上的杜威、克特、布立斯,现在的Lubetzky、Dunkin、Immroth、Richmood等。 什么原因使美国人的思想,特别是美国的分类法变得如此实际,如此讲究实用性呢?通过对近年来分类法一些理论进展的研究,可以有些初步了解。这其中包括了一些可能性的推测。
二、主观性和客观性的比较研究
在近年一些有趣的研究工作中,书目工作者正试图解决分类法中主观性与客观性相比较的程度问题。研究者在研究查询者或索引者的观点是否影响其要检索的分类情报。一些极端主观主义者趋向于唯心论,坚持认为索引是一个在情报领域中不能解决的问题。他们相信对概念的定义实际上是目击者眼里的东西,而不是实际存在的东西。
例如:单个索引者的工作就是高度主观的,是一种个人思想的反映。因为他作出的决定包含了对价值的判断。他的理解可能会也可能不会与检索者的过程一样。因此,在分类的过程中就产生了主观偏移。
主观性也是索引者面临的问题。怎样在一个有效的情报检索系统中统一用户的知识是非常重要的。于是,情报检索系统被设计成一个忽略单个用户认知特点的统一的传播体系。该领域的这些工作要求有一个能适应不同读者需求的更复杂的体系,目标就是建立一个检索系统,使其能满足不同读者群的各种检索要求。
另一群持有反对意见的研究者则提出了一种更为客观的观点,并已把这种观点应用于索引实践。他们把注意力集中在他们提出的客观性规则上,而不是去试图发现人们从原文中查检索引词的无意识的心理活动。他们认为这些规则不是主观的、秘密的,而实际上是以实践、习惯或技术形式出现的社会规则。正是通过这些规则,人们从原文中得到索引词。
因此,索引理论的目标并不是发现潜意识的过程,而是建立精确的、组织良好的规则,并利用这些规划从原文中查找索引词。索引者的认识不能保持一致性这个问题,是不可通过发现认识的作用或通过改造索引者无意识应用的一些默认的已知规则来解决。解决的办法只能是将模糊规划转变成索引者的解释,然后再用精确的规则来建立清晰正确的标准。索引者应遵守哪些规则?怎样评价其工作?专家们必须达成一致意见。正是原文本身的结构性的特点,而不是原文拥有的心理规则,构成了评价索引词好坏的评价体系。
客观主义者提出,人们仅只能真正懂得充满社会内容的规则,包括历史的、经济的、政治的和文化领域的。规则并不是反历史的、无阶级或无性别的。它将随着社会的变化而变化,这种发展趋势使检索实践的社会作用非常显眼。通过de Grolier的文章,将会对主观性和客观性在分类理论中的相互关系有一个详细的了解。Grolier 坚持客观主义的观点,主张通过研究自然语言的语义结构,来建立一种中间语言,用以连接各种自然语言和情报检索语言。这就要求知识组织必须有客观性基础。他认为1929年布立斯提出的“科学性和教育性一致的原则”为较好地建立系统性知识的客观性基础提供了条件。通过强调各种分类法的社会特点,Grolier为相对主义的形成开辟了道路。
最近,Grolier 考证了科学引文索引提出的科学和技术领域的关系这个问题。在众多主题目录下列出的期刊都显示了农业和植物学,或心理学、神经病学、精神病学有密切联系。Grolier 认为这种联系显示了“直观的理由”顺序实际上是有客观特点的。
三、索引理论的发展
分类法研究的另一个重要、有趣的领域就是索引理论。缺少索引理论解释索引过程是分类领域的一个重要盲点。根据研究,索引理论应包括五个层次。首先是一致性,由按字母顺序排列的、所有在原文中有关联的词组成;第二,情报理论水平,即通过计算某词在原文中出现的频率,判断该词作为索引词的可能性。如:某词出现得越频繁,选作为索引词的可能性就越小,因为检索者会认为该文献是“全部关于它”的内容。
第三,语言水平。在此,索引理论就是试图解释怎样从大量的文章中选取有检索意义的词。按常规,公开的段落、章节或部分及段落句子都是索引词的最重要的来源。
第四,词、句子及原文的结构。当作者创造一篇作品时,在组织上,他很注重文章的结构。一个成功的索引者应善于从文章的表面现象中发现其结构,并做出一定的标识,使文章能组织起来,从而找出其关键词。
第五,推理水平。索引者应能通过观察段落及分析句子结构,推理出词与句子的关系。Robert Fugmann(罗伯特)认为第五点在索引理论中起关键作用。他的理论是建立在五条原则之上的,他声称这五条原则有明显的有效性,不需要任何证实。他相信它们解释了现代情报检索中的所有已知现象。
第一个原则是可定义原则。编辑与某主题有关的情报仅仅只能根据主题的定义程度来完成。第二个原则是排序原则。第三个原则是排序完整程度原则,它是随着文献数量的增多而提出来的。其后是可预测性原则。任何相关情报的直接检索都是以查检档中表达概念或句子的模型的可预测性或可建筑性为依据。第五个原则为精确性原则。任何相关情报的直接检索的精确性都与检索档中描述的概念和句子有密切联系。
罗伯特还提到了索引一致性这个棘手的问题。许多该领域的研究都认为索引的一致性一定程度上与索引质量和检索的有效性相关。
尽管一致性可以比较容易地通过摘录原文中的语言(词汇)而获得,但它对索引者却没起作用。无论是查询者还是检索系统都不可能预见哪些词、句子或表达方式作者或索引人员会采用,从而就选择那些词。不改变抽取原文词相对有效检索而言,实际上可能更缺乏传导性。因此,对索引质量的要求就显得更为重要,而一致性也仅只在关键词的最初选词中显得必要。
罗伯特认为词汇控制和分类法的真正目的,总体上说就是提高描述的可预测性。这就是他设立第四条原则的原因。可预测性因素很大程度上是从自然语言的表达中失去的。由于在原文中可能会出现无限多的段落形式,所以,叙词的一致性可能接近于零。从索引质量的全面建设来看,可预测性比一致性更为重要。
罗伯特提到的另一个人们普遍关心的问题就是在索引中自动化的价值问题。众多的现代情报科学研究者都在集中研究改进自然语言演算过程的方法(即采用自动化过程),许多人都认为该过程比人工索引方法好。罗伯特则指出这种观点忽略了一个事实,即人工索引也能得到改进,其潜在性正在逐步为人们所认识。人类认知的最大优点就是能够区别同一词汇在不同原文中的特定含义。如对化学师而言,“Benszene”是“苯”的意思,但对消防人员而言,它则意味着是另一个意思。因此,罗伯特暗示自动化检索系统的最大潜力就是在人工索引中充当助手。
四、自动化在分类法中的理论作用
必须注意,这种相当矛盾的计算机观点几乎并不是有代表性的分类理论学家才具有,许多分类学家都非常迷恋计算机的潜在功能,认为他能建立一个彻底的、全新的分类体系。计算机能够在强调不同领域知识系统相互联系的情况下,使情报的获取和排列采用另一种方式。例如:在计算机得到利用以前,如某图书馆采用DDC来类列图书, 则它就不能再使用LC;但是,计算机是多线的,因此,它不受任何关系的限制。它在图书馆采用DDC类列图书的同时,还允许其采用其它分类体系。 这样,使布拉斯或阮冈纳赞的运用不同概念定义特定主题的交替系统的比较成为可能。
计算机能够在其它方面改变分类体系。在大型图书馆,计算机能够将所有的个人档案及相互关系组织在一起,并通过单个的情报源获取它们。这比在手工目录下搜寻众多的目录记录要快得多。联机全文贮藏能减少特定主题被机械分开的可能。计算机通过建立不同领域和其子领域的新关系,帮助用户综合前面的零散结构;通过提供大图像,计算机扩大了我们的知识视野。
计算机帮助综合零散结构的原理之一就是通过后组式索引。当与分面分类法连用时,它能创造出一种新的、含蓄的知识结构。这种知识结构是通过概念的重新组合形成的。
早在阮冈纳赞时期,分类理论家就提出利用空类号来增加新知识。阮冈纳赞及Jolley都希望一种自我永存的分类体系,能分配暂时不存在的逻辑主题的位置,并能揭示出现有类表的缺陷。zwicky发现了一种新的分类技术方法,称为形态分析。它利用组合方法,将所有可能给予特定过程的方法都聚积起来,然后决定哪种方法最有效。形态分析要求贮藏、操作各种数据,能使人们的创造力得到大大提高。
分类法在寻找未知文献的联系中也起了很大作用。Farradane 建议在索引的形式上发展技术,使其能适应标引。一种能识别逻辑关系的索引系统要求有创造新知识的巨大潜力。Swanson 提出了系统试验和错误搜寻战略。它包括检索某主题的一系列材料,浏览与其可能有联系的所有词和句子。这些词和句子被用作是搜索词,用以检索文献。通过仔细寻找,决定哪些概念与原文有逻辑关系,如未找到,逻辑联系就被看成是原始的。
系统支持创造力的主要要求是显示“隐藏”的关系、格式及推理。完成这一任务的方法之一就是发展相关索引。另一种方法就是利用专家系统的知识描述技术。这其中包括提供未发现的公共知识,并创造一种系统,它能显示协作体的相互关系,提供用户各种新的联系(方式),从而最终发现新主题领域。
五、国际分类法的理论发展趋势
随着自动化在分类法中的应用,理论学家在某些领域进行了广泛研究。其中一个最为重要的研究就是努力发展一个彻底的、总体的、全球的、有效的分类法体系。
该领域的研究者一致认为,要达到这一目标,有很多困难,如改变大类结构;同时,知识本身也在不断更新,知识边缘在扩展,不同领域的知识也在相互融合。根据原分类体系,这些新增加的知识在类表中难以描述出来。
多种社会力量也给发展国际分类体系带来了困难。随着社会、历史的改革,一致认同发生了变化,因此,要产生一种摆脱民族及观念意识的国际分类法就有一定的困难。通常,在分类体系中,社会可接受的概念在等级体系中给予了重要地位,而社会没有接受的主题概念则排在次要位置。国际分类法将彻底改变这种做法,使分类法真正成为反映时代、地区和社会的镜子。
设想如果DDC的改造由第三世界的妇女来完成, 那它将与现在的结构产生很大的差异。在现行版本中,它强烈地反映了美国及欧洲中产白领阶级的思想和愿望。这不仅体现在概念的等级结构上,而且词的选择都深受影响。《概略分类体系》(BSO )是以概念为基础的情报代码型分类法,由于使用了计算机改变语言结构等新技术,可尝试让其朝“国际性”的体系方向发展。
六、国际分类法的概念理论趋势
为解决国际分类法中的综合结构问题,Dahlberg在概念和定义的基础上提出了新的分类理论。它没有分类性的框架及结构来限制分类法的不断修改和更新。他认为知识是社会性的,可检验的,因此需要不断更新。
该理论认为分类法并不是与主题或叙词有关,而是与知识有关。这些知识包括有关叙词的知识及那些知识的组织。
知识是通过对某些事物进行陈述而产生的。 此“某些事物”, Dahlberg称其为“被谈到的事物”。当一个术语或词汇用来表达已陈述的事物时,它被称为“标识”。一个概念被定义为“知识的集合”,这些集合是由必要的、可检验的陈述构成,由“标识”表达出来。
概念之间有四种关系,Dahlberg称其为一致性关系、包含关系、交叉关系和排斥关系。除这四种正式关系外,还有内容相关或材料相关关系。它包括一般关系、部分关系、相反关系和作用关系。
Dahlberg认为知识元素来源于对“被谈到事物”的陈述,并成为特征概念的组成要素。特征有各种不同类型,最广义的特征称之为部类及其子部类,它们也被称为形式部类。
相对而言,亚里士多德的“本质部类”也就是形式部类。如:无生命的、有生命的、精神的和神赐的。Dahlberg利用综合理论将其扩展为九个方面,如:结构和形式、物质和能量等等。这九个方面与形式部类(物体、特征、活动)的任何结合就产生出主题部类,该主题部类被视为构成主题集合和领域的起点。
七、作为概念体系的定义体系
概念体系被用作为定义体系,分类法中的定义能解释某个概念的内容。尽可能广泛地定义一个概念就产生了全称定义。通过定义一个事物的组成部分,就得到了部分定义,其结构为部分关系。同样,定义某事物的相反部分,则得到相反定义。功能定义提供了一种概念结构,它不仅由所有的特征和元素组成,而且能描述其句法上的关系。功能定义也被用作定义规则及主题领域。
Dahlberg认为其概念和定义理论适用了分类领域,因为其展示了概念和知识的关系,能够用于建设和重建概念,能够根据特征、比较利用等来分析概念、解释概念关系、明确概念及概念的特点,帮助澄清概念的结构。
另一研究者P.Rolland—Thomas(托马斯)指出,直到最近,通用 分类表才试图最大限度地以各种知识模型的科学为基础。全球范围地强调科学搜集,使人们对获取科学文献产生了强烈要求。托马斯指出,最近,试图发明国际百科全书式分类体系的研究者发现,没有艺术和人类学的基础研究,任何努力都是无效的。他们认为应为人文科学的分类总结出一套理论。于是,近年来的许多工作都集中在此。
八、人文科学分类理论
具有讽刺意味的是,尽管托马斯在其文中未提到《艺术和建筑叙词表》(AAT)的发展,但早在其文章之前,AAT就出现了,并且正在得以发展。到1990年止,AAT收集了近4000个叙词用以表达艺术和建筑领域 。该词表试图在物体、物质图像和相关书目材料之间达成一个联系的纽带。它将目光集中在西方建筑和艺术上,一些词汇在该领域已得到了应用。
开始,AAT被设计成了一个简单的、 按字母顺序排列的等级体系类表。后来,改造成为全面分类表。类表的开始是一些最抽象的概念,接着是艺术、力量、活动、材料阶段等物质因素,最后是事物类型。
AAT试图将该领域学者用语与最普及的书本用语结合起来。于是, 尽管该词表拥有较为综合的、标准的词汇,但这些词并不显得呆滞、独断。学者们设想该词表是“活工具,能根据用户的需求进行增补及修改”。
进行该项工作的一个具体困难就是人们对人文科学的组成有不同的看法。另一个障碍就是一些主要作品,如绘画、音乐、小说等采用的各种表现方式。而在这其中,小说的分类又特别突出。
九、小说分类趋势
Beghtol 认为没有适合的分类体系能够让读者了解小说作品的主要内容特征。现存的小说分类法多以作者立类,而不以内容立类。由于内容的获取显得更为重要,于是,人们在这方面进行了广泛的研究。
对分类人员而言,从小说中获取数据非常难。小说类型多,也通常含有真实或不真实因素,它可以毫无理由地从一种形式转换成另一种形式。人物可随其数量等的变化而改变其性格、职业及地点。
小说通常包含多种意义不明确的解释,人物的动作、行为及有时一个场景与另一个场景之间的关系通常都不是清晰的。问题是这些数据是否可以用来分类?如果可以,不同的目录工作者是否会采用一致的主题标引呢?
在分类理论中,把握这些不明确解释的办法就是模糊定义。模糊定义理论认为世界上没有真正严格的范畴,简单地配置类号,还不如模糊定义理论中提到的,采用通过认识一定类目中的相邻关系,来识别其模糊性的办法。
另一种把握小说中不定性因素的方法就是采用一种标记元素来表示它。这种标记元素能在任何情况下展示其模糊性。值得提到的是,无论理论怎样发展,数据对于类分各种文献都是非常有用的。
从上可以看出,分类理论是有生命力的,值得广泛研究。目前,一系列的理论问题仍未解决,其中许多问题都非常重要。当然,这也正是分类理论具有较强吸引力和非常重要的原因之一。
译文来源:《知识组织》VOL.21(1994)NO.3 P140—147
收稿日期:1995.8.13
黄筱玲 译 武汉大学图书情报学院 邮编:430072