60年来情报检索语言及其互操作进展(1949-2009),本文主要内容关键词为:情报论文,进展论文,年来论文,语言论文,操作论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
情报检索语言这个术语在国外早在20世纪60、70年代已经出现,在中国则流行于80年代张琪玉教授《情报检索语言》一书出版之后,但是作为检索语言主体的图书分类法和主题词表此前早就应用于图书馆和情报工作。本文拟对20世纪50年代以来的中文图书分类法和主题词表的研制和修订,以及检索语言互操作,进行全面的回顾、梳理和审视,以期我国的检索语言、乃至其升级换代的新名——知识组织系统(KOS)在数字时代有更大的发展。
1 图书分类法研制进展
据俞君立主编的《中国文献分类法百年发展与展望》等书[1,2]统计,20世纪我国总共编制了近200部分类法,提出了70余种著者号码表,发表有关文献分类的论文(含译文)6200余篇,出版专著(含译著)110余部。其中20世纪下半叶编制了百余部分类法,提出了50余种著者号码表,出版专著(含译著)80余部。这些都反映出100年来我国对分类法理论与实践已经取得了重大进展。现分为四个时期,对近60年分类法的编制修订情况和特点进行总结和概述。
1.1 建国后分类法新发展时期(1949-1965年)
如上所述,上个世纪以来,一批图书馆专家和学者积极引进与研究国外文献分类法及其理论,并编制了一批颇有特色的图书分类法,为建国后分类法的发展打下了一个坚实的基础。1949年后,旧的图书分类法因历史的局限性已不能适应新的要求,改造旧分类法、创制新分类法成为当时图书馆界的迫切任务,于是出现了建国后编制和修订分类法的热潮。这个时期又分为以下两个阶段:
1.1.1 1949-1956年过渡阶段
这一阶段分类法的主要特征是摸索前进,包括修订、改编旧分类法,寻求编制适合中国国情的图书分类法的新方法。该阶段编制的分类法有13部,其中12部为综合性分类法,有一部为专业分类法。多为省级图书馆组织力量编制,但是仍有6部分类法系个人编制。这一时期有影响的代表性分类法的概况见表1。
除了编制上述分类法外,这一时期有下列重大事件[3]:
●1950年6月至9月,文化部多次召开图书分类法问题座谈会,并成立一个由于光远、王重民等专家参加的分类法工作小组,郑振铎副部长还在会上发表了重要讲话,提出要改变过去那种“一口吸尽西江水”的个人编制分类法的情况,呼吁组织全国的力量,尽快地编制一部新的分类法。
●1950年8月文化部文物局专门编辑、出版了一期《文物参考资料》,即《图书分类法问题研究资料》专辑。它内容全面,材料丰富,成为当时指导新分类法编制工作的手册,也是现代分类法史的重要史料。
●1950年苏北图书馆(现扬州市图书馆)编制《苏北法》,突破十进制,全表分为11个大类,首次把马列著作集中到分类法之首(总类),专门设置科学总论和方法科学大类,并把自然科学大类排列在社会科学大类之前,是一部难得的、敢于打破旧框框、创立新体系的分类法。
●1953年中国人民大学图书馆出版《人大法》,这是我国高等学校首次编制出版的第一部大型分类法。它把马列主义、毛泽东思想列为第一大类,首次以毛泽东关于知识划分的论述作为分类法编制的指导思想,并提出分类法编制的“三性原则”(思想性、科学性和实用性)。此时形成的这种“体制”对以后分类法的编制和评价影响甚大。
●从1951年起我国图书馆界在学习苏联思潮的影响下,专门聘请了苏联分类法专家来华,引进了6种苏联分类法和近20种分类论著,苏联分类法及其理论对这一时期我国分类法的编制产生了极大的影响。
1.1.2 1957-1965年分类法大发展阶段
该阶段为我国自编分类法的高潮时期,主流是创制新型的综合性的图书分类法,并广泛开展图书分类法基本理论的研究。经过广泛深入的研讨,图书馆和情报界对编制图书分类法的原则、方法,包括基本部类的设置、基本大类的序列以及标记制度等问题取得了基本一致的意见。
该阶段编制的分类法有10余部,全部为综合性分类法,均由各系统图书馆组织集体力量编制,已经没有个人出资出力编制分类法的情况。这一时期有影响的代表性分类法的概况见表2。
除了编制上述分类法外,这一时期有下列重大事件[1]:
●1956年在文化部社文局召开的中小型图书馆统一分类法座谈会上,对《中小型表》的基本部类的讨论,导致了基本部类“五分法”(马列主义、哲学、社会科学、自然科学、综合性图书)与“四分法”(哲学、社会科学、自然科学、综合性图书)之争。
●1956-1957年还发生了是否要将马列主义列为一个基本部类,并列在分类表诸大类之首的争论。
●1959年围绕《大型法》的编制展开了基本大类序列中社会科学和自然科学孰先孰后的争论。
●1957-1959年围绕《中小型表》和《大型法》的编制,发生了关于分类法标记符号的争论,包括是采用混合号码还是单纯数字号码,以及是否要严格采用层累制等问题。这些讨论为新分类法的诞生做好了技术准备。
●1961年后科技情报界出现了研究、应用《国际十进分类法》的热潮,翻译出版了《国际十进分类法》科学技术部分10个专类的详表。
●1963年12月国家科委下文批准全国科技情报资料检索采用《国际十进分类法》。
1.2 文革停滞瘫痪时期(1966-1976年)
1966年开始的文革使我国文化、教育、科学事业受到极大的摧残和破坏,各类型图书馆全都关门停业,我国图书分类法的研究、编制和修订处于停滞、瘫痪状态。这一时期有下列重大事件:
●在极“左”思潮的影响下,1964年11月国家科委发出停止使用和销毁《国际十进分类法》的通知,在全国图书馆和情报界出现了批判《国际十进分类法》的风暴。在随后到来的“文革”中,著名的图书馆学家刘国钧受到了批斗,情报学家丁柯被迫害致死。
●“城门失火,殃及池鱼”,《国际十进分类法》、《杜威十进分类法》等国外分类法的被批判,很快就殃及国内《大型法》、《中小型表》、《人大法》等分类法,中外分类法都难逃被批判、禁用的厄运。
●“文革”后期,随着图书馆业务工作的恢复,分类法的编制又被提到议事日程之上,1971年由政府部门领导,集中全国力量,成立了中图法编委会,于1973年出版了《中国图书馆图书分类法》(试行本)。
1.3 改革开放后分类法繁荣时期(1977-1998年)
改革开放以来,科学技术飞速发展,文献出版物急剧增长,图书分类法的理论和实践都出现了重大变革。这一时期的主要特点是学术研究活跃,学术气氛浓厚,视野开阔,重视对图书分类法的创新以及对国外分类法的引进和借鉴。
这一时期有影响的代表性分类法的概况见表3。
除了编制上述分类法外,这一时期有下列重大事件:
●1980年学者发表文章重新评价《国际十进分类法》,由此引发了对《国际十进分类法》、《杜威十进分类法》、《冒号分类法》等外国分类法进行系统研究的热潮[1],对新时期分类法理论和技术的发展都产生重要的推动作用。
●从1979年开始,刘国钧、关懿娴、张琪玉等教授开始在北京大学、武汉大学等高校招收检索语言方向的硕士研究生,国内检索语言的教学和科研走上正规,并出版了一大批研究专著和论文。刘国钧、张琪玉教授的专著《现代西方主要图书分类法评述》[4]、《情报检索语言》[5]先后问世,标志着我国检索语言研究的新水平。
●上世纪80年代以来,围绕《中图法》的修订,国内图书馆界进行了多场学术讨论,包括对分类法编制“三性原则”和按照思想观点列类等问题的争论,综合性学科在中图法中列类的争论,体系分类法分面改造的讨论等。这些讨论无疑活跃了学术气氛,推动我国分类法的理论和实践向着更高的水平和层次发展。
●《中图法》的编制出版带动了国内其他几部大型分类法的陆续修订再版,如《人大法》分别于1982年出版修订第五版,《科图法》于1974、1979、1994年多次修订出版。
●1992年出版由全国文标会五分会和中国图书馆学会组织编制的《通用汉语著者号码表》[6],促进了中文图书书次号编制的规范化和标准化。
●20世纪80年代初,国内学者开始了文献分类的自动化研究,此后20年间我国图书情报界掀起了一场关于分类法计算机化的研究热潮,研究内容涉及自动分类理论、自动分类标引、分类法数据MARC格式、计算机分类检索等方面。
1.4 网络时代分类法变革时期(1999-2008年)[7]
20世纪90年代后期因特网的迅速发展,使分类法的编制和应用进入了网络时代,其标志性事件是:
●杨致远创办雅虎门户网站,自编了网络搜索引擎的分类体系,其后各国网站相继自编网络分类法(即网络分类目录或主题指南),建立网络检索工具,提供网络资源的分类浏览和导航。
●随着文献分类法的数字化和网络化,传统的图书分类法被移植、应用于网络信息资源的分类组织。形成了一批著名的网络资源组织的检索系统和主题网关,如美国OCLC的Netfirst,英国的SOSIG、BUBL等。
●2005年网络用户参与因特网资源的组织,自发为网络信息添加标注或标签(Tag),在此基础上产生了新型的分类组织工具——大众分类法或称大众标注网站(Folksonomy),如美国的Del.icio.us、我国的豆瓣网等,具有传统分类法所不具有的自由、共享和动态更新等特点。
这一时期,出现了图书分类法纷纷升级换代以及投入大量人力物力研制大型分类法的新局面,这一时期有影响的代表性分类法的概况见表5。
2 主题词表的统计分析
自20世纪70年代以来,在重大国家项目748工程的推动下,作为当代情报检索语言的主流,主题词表在信息组织和检索中发挥着重要作用。以下从出版年代、词表规模、词汇性能、编制单位、学科分布、词汇显示和修订状况等方面,对近30年来的主题词表的研制和修订进行总结和统计分析,以便了解我国主题词表发展的状况、水平和存在的问题。
通过对国家图书馆馆藏目录,方正电子图书平台,清华学术期刊、学位论文和会议数据库,重庆维普和网络搜索引擎(谷歌和百度)等检索工具,检索到主题词表总共198部,其中含公文主题词表54部。现在主要采用定量统计的方法分析如下。
2.1 出版年代
在144部非公文类主题词表中,有编制年代信息的共计132部,其中2部为标题表,其余为叙词表。各年编制或出版的主题词表数量变化如图1和表6所示。
图1 编制或出版主题词表的年代分布
从图1中的变化可以看出,1977前30年编制的主题词表数量非常少,一共只有6部,处于初步探索或停滞时期。该时期的主题词表大部分都是标题表,只有1部叙词表。1978年后,标题法被淘汰,编制的词表均为叙词表。1978-1998年间,各年编制的主题词表数量急速增加,1988年达到词表编制的高峰,为19部。该阶段平均每年编制的主题词表数量是前30年的30倍,可见1978-1998年为我国主题词表的繁荣发展时期。该时期形成了覆盖各个学科和各种文献类型的主题词表体系。1999年之后,非公文词表的编制数量开始大幅回落,年平均编表数量为0.6部。
但是,公文主题词表80年代后期以来的发展[15],弥补了非公文词表在本世纪以来发展的不足,呈现了一种异军突起的喜人状况。在54部公文主题词表中,编制年代信息的有40部,各年编制或出版的词表数量变化如图2和表7所示。
从图2可以看出,1993年以前编制的公文主题词表很少,只有7部,每年平均1-2部,1994年后各年编制的公文词表数量增加较快,平均每年编制的词表是1993年前的2.2倍。可见1993年前是公文主题词表编制的起步和探索阶段,1994-2008年编制的公文主题词表的数量33部,较之前一时期以120%的速度增加,是公文主题词表编制的发展时期,如表7所示。
2.2 词表规模
前述132部有词量信息的词表中,词表规模的情况如表8所示。从表8中可以看出,中型主题词表所占比例最大,为大型词表的一倍,小型词表所占的比例最小,仅为中型词表的三分之一。
图2 公文主题词表年编制量变化情况
从大中型词表的年代分布来看,1981年之前1999年之后中大型词表编制数量都很少。现对1982-1998年间这两类词表进行统计分析,如表9所示。在1982-1988和1989-1998年间,我国中型词表的编制或出版总量和年平均数,都大于大型词表。
在各个阶段中,中型词表的数量和增长速度都排在各类型词表的最前面,可见中型词表占据着主流地位。
和国外的词表规模分布相比①[16],我国不同规模词表所占的比例顺序与其大致相同,但比例差别较大。国内中型词表所占比例(54.55%)略少于国外(65.45%),但大型词表所占比例(27.27%)却大于国外(20.45%),34部大型词表收词量在20000以上的词表有14部,可见我国重视大型词表的研制,词量大,选词详尽。国外小型词表占所有词表的14%,略低于我国。
2.3 词汇性能
(1)等同率
在主题词表众多的交互参照中,最基本的、不可或缺的是用代参照。测试等同率,也就是正式叙词提供同义词、准同义词的多少,就可以判断一部主题词表的词汇性能,即词表入口的丰富程度,因而又被称为入口率。
表10表明,1989-1998年间编制词表的平均等同率比1978-1988年间增加4.28%,从表9还能看出我国大型词表各个阶段的平均等同率都高于中型词表。和同时期的国外词表(70年代为33%,80年代为56%)相比,我国词表的平均等同率是偏低,不到国外的一半,可见我国的主题词表与自然语言的结合要差于国外。
(2)专有名词索引
主题词表往往设置专有名词索引或附表,以改善词汇性能,提高词表的标引能力。专名索引的多少在一定程度上反映出词表收词的专指度和新颖度。在79部包含结构信息的词表中,29部包含了专名索引,比例为36.71%,高于国外18.6%。29部包含专名索引的词表中,中型词表占62.07%,且各阶段数量都大于大型词表,可见中型词表较之大型词表收词更加丰富、详细、实用。各阶段大中型词表包含专名索引的情况如表11所示。
2.4 编制单位
表12表明,我国编制主题词表的主力为情报机构、科研机构、军事机构和政府部门,它们编制的词表数量占所有词表的89.74%,其他单位如高校、学术团体、公司和个人编制的数量只占10.26%。国外排在前4位的编制单位为情报机构、政府部门、科研机构和学术团体②[17]。二者相比,可见我国军事机构十分重视词表的编制,贡献也较大。至于我国学术团体和高等学校编制的词表数量和所占份额很少,大大低于国外(二者约占25%)。
从国外编制机构的分布变化能看出,近10多年来国外编制词表的公司大幅度增加,2006年统计的数量是1989年的10.72倍,正朝着商业化的方向发展,从表11中能够看出我国公司编制的词表数量很少,表明我国的企业家尚未意识到包括分类法和主题词表在内的知识组织系统潜在的经济效益和社会效益。
2.5 学科分布
从图3的前2个饼状图能看到,我国主题词表基本覆盖了各个学科领域,但不同学科之间是很不均衡的。在140部词表中,军事词表占社会科学词表的43.14%,而经济词表只有1.96%,工业技术词表在自然科学中达到27%,生物、医药和农林三个领域的词表加起来只占11.32%。可见我国专业词表的发展很不平衡,词表的编制和使用大多集中在自然科学和社会科学的一些领域当中,其他领域有待进一步开发。
和国外词表的学科领域分布比较,在社科领域中,我国军事词表的数量是国外的7倍,经济和科教文词表却分别是国外的1/19和13/26;在自然科学中,我国工业技术词表和国外基本持平,在环境科学、地球天文和农林领域比国外的比例要低,但交通运输、航空航天要比国外高。从国内外词表的学科分布比例,可以反映出我国各学科的发展情况和国家重点扶持的领域。
在图3的三个饼状图中,社科综合性词表占社科词表总数的21.57%,自科综合性词表占自科词表总数的8.86%,社科综合性词表、自科综合性词表和跨社科和自科的大综合词表,三者之和为28部,占所有词表的20%,这表明我国主题词表朝着综合性的方向发展。
图3 词表学科分布
2.6 词汇显示
从词汇显示模式的分时期统计可以看出(见表12),“字顺表+索引”模式所占的比例最大,为54.32%,“字顺表+索引+附表”次之,占43.21%,“字顺表+附表”所占的比例最小,只占2.47%。可见前2种模式是我国编制主题词表常用的方式。字顺表和索引几乎都成为中文主题词表不可缺少的组成部分,至于附表,则可有可无,或将专有名词并入字顺表,或采用表外控制法代替附表。
由于1949-1977年间和1999-2008年间编制的词表数量太少,现在只对中间2个时期各种索引和附表的数量和年代进行了统计。从表13可以看出,范畴索引在这两个阶段中编制最多(可见分类显示的重要性),英汉索引的数量仅次于范畴索引,词族索引编制的数量则最少,而且越来越少。实际上词族索引作为一种等级显示,也可视为一种分类显示,应当予以重视。目前词族索引编制的技术障碍已经消失,完全可以用计算机自动生成。
2.7 词表修订
据统计,在132部非公文词表中,有18部进行过修订,修订率为13.64%,比公文主题词表低14.12%。主题词表的平均修订周期为9.52年,而公文主题词表为5.47年。可见非公文主题词表的修订率是比较低的,说明当前不少词表编制单位对词表的维护和修订缺乏重视、缺乏投入,不少词表因此“濒于死亡”。
我们对修订后的词表规模、等同率、词汇显示等方面进行统计分析,发现所有词表在修订后,词量都在不断增加,近半数的词表经修订从中型词表变为大型词表。另外,除1部词表外,17部词表的等同率提高了,可见入口词的概念开始深入人心,编表人员开始更多地考虑用户的方便和需求。统计还发现,25%的词表在修订时增设了专名索引;75%的词表词汇显示方式发生了变化,其中有50%的词表去除了词族索引。
3 情报检索语言互操作进展
随着计算机和网络技术的普及,联机数据库和网络成为人们获取信息的主要渠道,国内现有种类繁多的分类法、主题词表就成了跨库、跨语种、跨领域检索的障碍。为了使用户更方便地获取信息资源,实现不同信息系统的资源共享,除了标准化外,对检索语言互操作的研究已成为情报检索语言研究中亟待解决的问题之一。
实现情报检索语言之间的互操作,就是要找到一种方法,使具有不同标识、结构、载体的分类表或主题词表的成分互相联系起来,用户只用一种检索语言或者不用任何检索语言(即直接使用自然语言)就可以实现联网环境下的跨数据库检索。
情报检索语言互操作,即兼容互换的问题,是伴随着检索语言的发展而提出的,早期的方法过多地依赖智力劳动,随着计算机技术的发展,改进了兼容互换的方法。综合国内外的研究和试验,实现互操作的几种主要模式包括下列几种[18]:
(1)中介词典法
(2)宏词表法/微词表法
(3)集成词表法
(4)派生法
(5)翻译法
(6)自动匹配转换
(7)直接映射
(8)间接映射
我国检索语言互操作的研究起步较晚,距今仅40多年。现分为四个时期对我国情报检索语言互操作的项目及特点予以介绍和分析。
3.1 早期检索语言兼容性理论研究时期
我国最早研究情报检索语言兼容是在20世纪60到70年代,主要针对分类法与主题法。图书馆和情报界的学者刘国钧[19]、杜定友[20]等学者对分类法和主题法两大检索语言的优缺点进行比较,提出了二者相结合的必要性。这一阶段主要是理论探索阶段,从理论上认识到了分类语言与主题语言的兼容性。
3.2 分类主题一体化词表研制时期
20世纪80到90年代,在英国分面叙词表(Thesaurofacet)的影响下,我国分类主题一体化研究从理论探讨进入了词表编制的新阶段。一体化词表有多种编制模式,如改造分类表、改造叙词表、编制双向对照索引、编制分面叙词表等,我国一体化词表编制模式主要是后两种。这期间研究和正式出版了一批分类主题一体化词表[2],如表15所示。
3.3 基于计算机的检索语言互操作时期
20世纪90年代时期,随着计算机技术的发展,情报检索语言的兼容互换研究又有了新的进展。在传统手工编制词表的基础上,开始研究不同分类法、主题法之间的兼容互换,利用计算机技术、自然语言处理技术、数学方法等来解决同义词识别、映射关系发现等问题。但这一阶段仅限于理论探索或小规模实验,尚无显著进展。主要研究情况如表16所示。
3.4 知识组织系统互操作研究时期
进入21世纪,随着网络信息的急剧增长,为了实现不同情报系统的资源共享,知识组织系统(KOS)应运而生,此时对检索语言互操作的研究变得更为迫切。KOS是传统检索语言的发展,具有机器可读、可理解、可处理等特点,这为互操作的自动化实现提供了前提条件。国外成功研制了很多项目和系统,为我国的研究提供了宝贵的经验和方法。我国借鉴国外的先进经验进行了一系列研究,其中包括一批成功的项目和小规模的试验研究,如表17所示。
3.5 总结
综上所述,国内学者对情报检索语言的互操作问题进行了大量的研究,实现了不同类型、不同语言之间的兼容,如表18所示,对上述一些成功项目进行了分析总结,希望为我们提供更多可借鉴的方法和成功的经验。
但总的来说,国内的研究起步较晚,还存在很多问题需要解决。
(1)实践成果不多,对检索语言兼容转换系统的研究较少,成型的可以使用的系统更少,而且目前研究的角度也主要集中在医学、农业、军事等部分领域,缺乏综合性系统的构建研究。
(2)缺乏适合中文情报检索语言互操作的理论、方法的深入探讨,目前实现互操作的方法基本限于标准化、系列化、翻译、映射等,对一些较为先进的互操作技术,如词汇的自动转换、中介词典的编制、集成词表技术等还没有进行系统的研究与应用。
(3)自动化水平低,不同词表之间的映射仍然更多地依赖人工努力,计算机自动映射或辅助映射的程度不高;另外,同义词匹配、映射,相似度、相关度计算等方法也缺乏创新。
(4)资源共享性差,各个单位、机构之间缺乏交流,独立操作,导致很多资源重复建设;同时,很多投入使用的系统也只是在内部使用,不对外公开,利用率差,资源得不到共享。
分类法、主题法作为我国传统信息组织方式,不论对传统文献资源,还是现代的网络信息资源,都是主要的信息组织方式,所以实现各种知识组织系统之间的互操作,使不同分类法和主题法相互结合,取长补短,相辅相成,使其更好地发挥功能,这仍然是未来信息检索领域的研究热点。
注释:
① 以下和国外主题词表的比较数据(未加说明者)都来自于侯汉清、徐佳《国外叙词表的概况及发展趋势》一文。
② 国外机构分布数据来自于侯汉清2007年10月在北京大学信息管理系60年系庆的报告:《网络时代的情报检索语言——进展及热点》。