西文文献分类标引若干问题刍议,本文主要内容关键词为:西文论文,刍议论文,若干问题论文,文献论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
西文文献历来是科学研究、技术开发的重要信息资源。随着科技和经济的迅速发展,西文文献的参考利用价值受到越来越多的重视和体现。近年来,由于经费等方面的原因,我国西文文献资源建设(尤其是数据库建设)虽然在数量上没有达到相应的规模,但通过系统整合、统一规划和相互协调,在质量上有了一定的发展和提高,西文文献资源严重匮乏的现象得到了改善。目前,中国科学院文献情报中心馆藏西文文献数据库达100万条,年数据量为25万条[1];中国高等教育文献保障体系(CALIS)的联合目录数据库西文书刊数据超过50万条[2];上海市文献联合编目中心西文书目数据库现有数据近60万条,年增长量约3万条。西文文献资源基础建设的加强和改善为我们开发利用国外文献信息提供了必要的物质保障。而要充分发挥它们的作用,发现和解决西文文献分类标引中的问题,加强并合理掌握分类标引深度,改进标引技术,最大程度地提高西文文献的数据质量和检索效率以方便读者用户则是一个不可忽视的问题。
1 关于标引深度
1.1 强调标引深度的现实意义
据日本科技信息中心统计,目前世界上每年出版图书约80万种、科技文献450万篇。而有学术价值的图书为25万种、期刊20万种[3]。其中西文文献占据了绝大部分。当前,虽然我国西文文献资源建设得到了一定的加强和改善,但仍然存在一方面价格上涨、经费不足,西文文献资源不能满足需求:另一方面现有西文文献资源利用率不高,不能充分发挥作用的问题。为提高利用率,充分发挥现有西文文献资源的作用,客观上对我们提高标引质量提出了更高的要求。
其次,从西文文献本身的特点来看,涉及各种跨学科、边缘学科、交叉学科的复合主题和多主题的文献所占比重很大。其中各种会议录、研究报告、学术论文等文献通常题名看似简单,但文献的主题涉及领域广泛、学术内容专深,往往反映科学研究和学科专业的新成果、新进展,具有信息量大、参考性强、出版迅速等特色。由于西文文献标引的成本较高及受传统标引方法的影响,目前较为普遍的做法都只是从文献的整体考虑,缺乏对文献信息的深层次发掘和对整体分类的必要补充,造成许多有价值的文献信息无法得到揭示,影响了分类检索效果和文献利用率。
再者,随着国内文献信息资源共享的协调发展和计算机及网络技术的广泛应用,西文文献的用户量激增。尽管用户从主题途径,以叙词、关键词、自由词或以著者、题名进行检索的较多,从分类途径检索的相对较少,但分类检索语言提供从既定的科学(知识)体系检索文献情报的途径,系统性、网络性较强,对于检索者检全某一学科、某一宽泛课题的文献,系统地掌握和利用某一专业范围的知识和情报来说,仍然是很方便和有效的[4]。加强标引深度,可以使一种文献从不同的学科属性或以不同的研究对象在分类检索系统中重复反映,从而增加检索途径,适应读者和用户的不同检索需要。将分类检索语言与主题检索语言或自然语言结合使用,会取得更好的检索效果。因此,加强西文文献的标引深度,对提高检索效率十分有利。
1.2 正确认识、合理掌握标引深度
标引深度是指一种(篇)文献所论述的各个主题概念被揭示并转换成检索标识的完备程度。通常指一种(篇)文献被赋予检索标识的平均数量。标引深度是对文献内容特征进行全面概括和准确指引的评价。标引的深浅,反映了对文献主题内容的准确提炼和全面揭示所达到的程度。因此我们应当从全面性与准确性两个方面来理解和衡量这一指标。对于分类标引来说,标引深度是通过所用分类号数量和所用分类号专指度来加以体现的,而不能仅看分类号的数量多少[5]。由此可以认为,在西文文献分类标引中,不但要重视对文献主题的深入挖掘,加强标引深度,避免表面化、简单化的过粗标引:而且要注意对文献主题的准确提炼,提高分类的专指度,防止过度或错误标引。
合理的标引深度对于降低标引成本提高检索效率至关重要。标引深度不足或过粗标引,一些有用的、有检索意义的主题要素或事物的某种属性被淹没和隐蔽起来,影响检全率;而过度标引既增加工作量又可能使价值不大甚至无用的文献被检出,影响检准率[6]。计算机存储容量的不断增大、存储费用的不断降低、检索功能的不断完善、检索速度的不断加快,都为加强标引深度和全面准确揭示文献内容提供了更好的条件。同时也对合理掌握标引深度提出了更高的要求。
提高文献分类标引深度的主要手段是增加互见(附加)分类和分析分类标引[7]。互见分类标引和分析分类标引的完整性、准确度越高,文献检准和检全效果就越好。而掌握合理的标引深度问题,实际上就是如何根据文献的具体内容和收藏单位的学科专业需要就是否增加互见(附加)分类和分析分类标引做出判断和抉择的问题。就机读数据库而言,即是否重复059字段(USMARC现为MARC21)/690字段(CNMARC)进行多元(多维)或多属性标引的问题。通过从不同侧面或角度的多元标引,有利于处理含有复合主题或内容复杂的文献。使不同事物属性或主题因素的文献相对集中。对于使用者来说,则可产生从不同角度检索同一文献的效果,满足检索者的不同需求。可供参考的方法和建议一是从西文文献主题内容上判断:凡具有多学科属性即涉及多个类目或多主题的文献应当进行多元标引。二是从西文文献专业性及类型体裁上判断:凡专业性很强、涉及面很广的会议录、学术论文、研究报告等应当进行多元标引。三是根据文献主题内容与各单位的学科专业相关程度判断:凡是与本单位学科专业关联度较强的文献应当做多元标引。四是根据文献涉及内容所占比例大小判断:凡是文献涉及内容所占比例超过10%--20%建议做多元标引。五是对于有价值的隐含主题以及因分类法规定按某种形式集中文献,而不能揭示其学科属性的也应当做多元标引[8]。因此,应当本着提高效率、降低成本、方便使用、规范标准的原则,灵活掌握、区别对待,并在制定分类法使用本中做出相应的具体规定,以期达到标引的一致性和相对合理的标引深度。
2 关于标引难度
2.1 标引难度的主要表现及其分析
相对于中文文献而言,西文文献的分类标引遇到的问题和困难更多些,主要表现在以下几个方面:
2.1.1 文字语言障碍
语言文字随科学和社会的发展而发展。新学科、新事物的不断出现使新名词应运而生,这无疑会给理解文献主题内容带来困难。而任何一种语言文字都有一词多义现象:同样的词语在不同的上下文、不同的专业领域、不同的应用范围会有完全不同的含义。分类标引人员由于对语言文字不同或错误理解而造成标引不一致或标引误差是西文文献分类标引障碍和难点之一。
2.1.2 学科专业知识障碍
与中文文献相比较,除了使用的语言文字不同之外,从整体上看,西文文献具有学科专业水平高、文献内容新、新陈代谢快等特点。因此,西文文献的分类标引要求分类标引人员不但要有较好的外文水平,又要在掌握广博的学科专业知识、了解各个领域的最新动态和发展趋势方面具有较高的素质和技能。
2.1.3 所用分类法的局限性造成的障碍
国内西文文献分类标引使用最广泛的是《中国图书馆分类法》(以下简称《中图法》)。与国外普遍使用的DDC(杜威分类法)相比较,尽管在显示概念及其关系、聚类、分面划分范畴、提供辅助手段等方面采取的方法较一致,但其类目列举详略程度和体系结构均有诸多不同,因而《中图法》分类号与西文文献内容主题的匹配程度明显比DDC要差。此外,与传统的体系分类法一样,其基本先组定组式标识的特点,以及由于采用等级列举的方法建立类目体系,受分类标准引用次序和分类层次以及分类法编制原则的限制,不可能详尽无遗地列举一切事物概念,也不可能灵活修改和及时补充新的学科和事物概念,造成《中图法》在西文文献标引中灵活性、直观性、容纳性较差。再者,《中图法》缺少英文对照索引及相关索引,也在一定程度上给西文文献分类标引带来了不便。
2.2 对策和建议
2.2.1 进一步加强语言文字理解能力
从事西文文献分类标引工作的人员,通常都有教好的外语水平。然而,在分类标引实践中绝不能停留在对语言文字的一般理解上,而应当根据文献的内容认真分析、准确把握、正确翻译,才能避免异意误译归类。其一要注意区分语言泛指与专指的差别。例如COMPANY既可专指公司或股份公司,广义上又泛指任何形式的企业组织。因此不能千篇一律的都标引为F276.6,而要根据文献的具体内容加以区分和判断。其二要注意区分美语与英语的差别。例如INDUSTRIAL RELATIONS是LABOR RELATIONS(劳资关系)的英国用词,而不能简单理解为工业关系而标引为F403或F415。其三要注意词义相近、类目相仿、易于混淆语词的差别。例如orthop(a)edics(矫形外科学)标引为R687,而prosthetics(修复外科学)则标引为R62;social science methodology(社会科学方法论)标引为C03,而sociology methodology(社会学方法论)则标引为C91-03。
2.2.2 不断提高学科专业知识水准
现代社会科技的发展与知识的创新要求分类标引人员既要在横向具有广博的知识面又要在纵向某些学科达到一定的专业水准。因此,作为西文文献分类标引人员,要经常研究新兴学科的特点及其产生的理论基础,关注现代科技的最新动态和发展趋势,不断拓宽自己的学科领域和知识范围,不断调整和改善自己的知识结构。这样才能在分类标引中具有较好的专业分析和判断能力,避免或减少因缺乏专业知识而造成的错标误标。例如Microelectromechanical systems是微电子与机械技术相结合的结构系统,将其理解成微电机系统而标引为TM38显然是不贴切的。
2.2.3 改进标引技术和方法
受标引成本和传统标引方法的影响,目前西文文献整体标引多,多元(维)标引少;单一标引多,组配标引少;过粗标引多,深度标引少的现象较为普遍。机读目录数据是便于在计算机上运作的文献信息,要充分发挥其在分类检索中的特殊功能,就要尽可能采用分拆散组的标引方法。其基本原理是将凝固的先组类号加以分拆,在允许的范围内在059字段(MARC21)/690字段(CNMARC)对这些分拆游离出来的独立类号进行散组标引,为计算机的后组检索创造条件[10]。《中国图书资料分类法》(以下简称《资料法》)第四版率先完成了由列举式分类法向组配分类法脱胎换骨的转变,其最大的特点就是允许类目间灵活地进行自由组配并实行分段标记法。通过联合、关联、复分组配等方法以及解决对类号前置后移、分拆、插入和轮排问题,不仅可以表达主题概念之间的关联,而且可以反映类表中未列出的新概念和复合概念,从而大大提高了多元、多属性标引和多途径、多因素检索的功能[11]。与《中图法》相比较,《资料法》显然更适用于机读数据库的标引与检索。新版《资料法》类号及其标引组配技术和分段标记法的采用,可以有效地提高计算机分类检索的适应能力,满足联机联网编目和检索的需要,在一定程度上弥补《中图法》先组定组式标识灵活性差等方面的不足,为解决西文文献诸多交叉学科、边缘学科主题的分类标引难提供很大的方便。