“文献编目”不应只是“图书馆目录”——从“对《中国文献编目规则》(修订版)的修改意见”谈起,本文主要内容关键词为:编目论文,文献论文,不应论文,修订版论文,中国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 对《中国文献编目规则》(修订版)[1] 的修改意见
2004年11月8日,我对《中国文献编目规则》(修订版)的征求意见稿,就“总则”部分提出了一些想法。“总则”说清楚了,其他各章就好调整。我的修改意见未被采纳,自在意料之中,因为在整个学科的研究路向尚未转变的情况下,这个问题是解决不了的。为了便于所论主题的展开,先将所提意见抄录如下:
1.1 对“制定本规则的目的及其原则”的意见
为规范我国各类型文献著录,便于书目信息交流,有效实现信息资源共建共享……并结合中文文献编目工作实际制定。
现在已经没有人用手工编目了,编目工作实际就是计算机编目。书目记录的印刷格式大都用软件方法实现,编目员主要考虑的是如何正确识别与处理数据内容,属性数据的规范处理,数字与非数字的需求怎样融合为一体。
本规则几乎很少涉及计算机文献处理的要求,仍然是讨论目录卡片的各种细节。这样,机读数据的编制者必然要另行再编写其机读数据使用手册,这个规则只是作为一种显示形式的依据。
目前,编目人员基本不用“著录规则”,而是使用各种机读格式使用手册,国家图书馆的,CALIS的,等等,原因之一就是“著录规则”没有他们需要的内容。
为实现制定本规则的目的,需要统筹考虑手工编目与计算机编目两方面的需求。
1.2 对“适用范围”的意见
关于本规则的适用范围,应不以文献收藏机构(图书馆)为限,还要包括文献生产(出版社)、传递(书商)与网站等机构。因为这些机构都在做文献编目工作,也都要使用著录规则。如果本书不考虑他们的需求,他们就要另外编写适合本机构应用的规则。从更大范围的信息资源共享考虑,还是统一考虑为好。
1.3 对“题名与责任说明”的意见
题名与责任说明不宜在一个大项之中。
题名与责任说明放在一个大项,只是书目印刷形式的要求(ISBD)。这里的责任说明是描述性的,不作检索点。手工编目时另作检索标识,在MARC格式中就发生重复著录问题,使用DC元数据就更不好处理。现在计算机处理技术可以将题名与责任说明分别著录,用软件方法满足书目印刷形式的要求。
关于责任说明的讨论应该是在责任者数量上如何控制,而不是讨论文献上所有责任者如何分别著录,每一责任者的详细信息与规范数据如何处理,否则,内容与形式的关系便显得本末倒置。
1.4 对“标识符”的意见
标识符只是某一显示格式的规则,不应是著录规则,网络显示格式就不用这些符号。
1.5 对“著录用文字”的意见
是否规定以中文(汉字)为著录文字?新闻出版总署规定中国出版的图书的书目均用中文著录,少数民族图书也是以汉字著录,美国国会图书馆对各种文字的出版物均以英文著录。
1.6 对“同一责任方式的多个责任者,一般不超过三个”的意见
这是1.0.2节问题的具体表现,以显示格式限制信息采集完整性的典型例子。编目原则应有信息完整性要求,不论有多少个责任者均应全部著录,按不同显示格式的要求分别显示。
虽然在“1.7.1.4责任说明附注”中可以对“未在题名与责任说明项著录的责任说明”进行描述,但描述的内容就差多了。而且机读数据著录规则的编制者若对文献处理了解不深,附注项对应到300字段,这些责任说明就无从检索了。
1.7 对“载有三个及其以上出版者或发行者,……其余在附注项说明”的意见
附注项不是属性数据,不能作检索点。这是囿于传统束缚,不能适应数字化需求的又一例。
1.8 总的意见
规则的形式重于内容,而且是传统形式;传统限制了发展,显示格式也只说明印刷形式,应同时提出网络的规范显示格式,以改变目前五花八门的现象。
数据内容有两部分,一部分是取自文献,一部分是编目人员填写的。本“规则”只规定了文献自身部分的著录规则,未涉及另一部分。这样就要有其他规则来解决这个问题。当然以在一个规则里统一解决为好。
本书还是以见到文献进行著录,而未涉及在文献生产过程中著录。美国国会图书馆从1995年起开始ECIP计划(即自动编目),我在2000年也提出进行ECIP探索,2003年出版了《中文图书ECIP与自动编目手册》,并合作研制了“自动编目软件”,目前有些出版社已在运作,本书对此应有所反映,避免相互脱节。
2 我国学者对编目理论的研究情况
2.1 “文献编目”课程的改革
图书馆学课程中的编目部分,上世纪80年代以前叫“图书馆目录”,主要讲授中文图书的编目,另有“西文图书编目”、“俄文图书编目”、“期刊编目”等课程。随着全国文献工作标准化技术委员会的成立,计算机应用的影响,文献著录标准的制定与推行,图书馆学课程相应进行了改革,所有编目课程统一为“文献编目”。这个统一包含两重意义:一是所有文种统一,二是所有文献载体统一。这一改革对文献工作标准化和编目理论研究都有很大推动[2]。
但由于学术研究的路向没有根本转变,对文献工作标准化的涵盖范围理解狭窄。把文献工作标准化只局限于图书馆方面考虑,而未涉及整个文献交流系统,因而没有完全跳出“图书馆目录”的框框。《资源数字化标准问题研究》一书的叙述:“国际标准化组织第46技术委员会(ISO/TC—46)是专门从事文献工作标准化的机构。1978年中国恢复成员国资格,我国图书馆事业的标准化开始逐步与国际标准化接轨。”[3] 是一个很有代表性的认识,把整个社会的数字资源建设局限于图书馆范围内进行讨论。
明明是文献工作标准化,但只考虑图书馆事业标准化,偏离了这一研究的完整意义,必然陷入孤立主义困境,也就难以获得科学的结果。
随着数字技术的广泛应用,“文献编目”又改为“信息描述”,涵盖对网络资源的处理,虽然扩大了描述对象的范畴,但仍然以编制图书馆目录为主要出发点。
2.2 目录学横向性的研究
1980年代,我国图书馆学经历了百年来最大的理论变革,对图书馆本质的认识,“交流理论”逐步居于主导地位,重视文献交流社会功能与文献信息系统的研究[4]。在此影响下,人们对目录学的横向性进行探索,指出“目录学产生于存贮与检索文献内社会需要的知识信息的人类文明古代,它一直跟随着人类文明前进的步伐不断发展。由于目录学的横断性科学性质,使它必将随着现代科学的高度发展而逐步完善,必将随着人类文明第三次浪潮的到来而更加社会化,它也必将随着社会对目录事业实践需要程度的日益增高而走向成熟,走向更高的思维层次。”[5]
20多年来信息技术的发展,网络的普及,目录作为信息检索的工具,在全社会得到更加广泛的应用,目录编制方法也有了极大提高。业界的编目专家对此都有充分的了解,但技术方法与基础理论的脱节,使编目理论不能突破固有的围城。最新出版的《信息描述》一书中的一段话很有意思:“经过数千年的发展,作为人类管理事物的一项最基本的工具和技术,目录已经广泛地应用于社会的各个领域,而图书馆的文献目录无疑是其中最正规、最复杂的。”[6] 作者已充分说明了目录的横向性及其社会性功能,但笔锋一转,又使全书只是论述图书馆目录的编制而不及其余。
其实,1961年国际编目原则会议就认可了“对编目原则的任何基本评述必须把书目(参考工具形式)、书商目录(书商和国家书目的形式)和图书馆编目三方面的观点同时加以考虑。”[7] 而我国编目界似乎受《英美编目条例》影响较多,但《英美编目条例》在很多方面都太专门了。“如果广泛采用柳别茨基的‘编目条例’,将大大促进书目、书商目录和图书馆目录相互间的关系更加密切。因为柳别茨基草案中基于常识的、大体上非技术性的办法在相当程度上是和书目及书商目录乐于采用的描述形式接近的。”[8]
2.3 “编目前移”与ECIP
上世纪末,出现了由文献发行机构制作、供应书目数据的现象,这是1980年代尝试的“随书配片”[9] 工作在新形势下的延续,图书馆理论界称之为“原始编目前移”。它是在文献的生产、发行、流通、收藏、保存的各个工序上,上一个工序承担了本来由下一个工序所做的工作。这是系统工程思想的体现,有很大的合理性。近年来又出现了“编目再前移”,即由出版单位向发行商提供书目数据。人们意识到,由出版物生产的源头,提供标准化的书目数据,是实现信息资源共享的发展趋势和交流理论影响图书馆实际工作的必然结果,也是文献信息系统工程所追求的目标。
CIP(图书在版编目)是在图书编辑出版过程中,由经过授权的机构,依据出版单位提供的校样或填报的有关数据,进行编目,出版单位将编目结果印刷在图书的特定位置上。从而使图书本身和它的书目数据能同时为书店、图书馆、情报所、书目工作人员和读者利用。1995年,美国国会图书馆在应用数字技术进程中,实施ECIP计划,利用出版界图书印前电子文本加注结构标签的方法,进行电子编目试验,取得良好效果[10]。
国家图书馆研究发展院的专家很快认识到:“ECIP较之传统编目在程序上完全不同。传统编目是等待电子文本印刷成书,再从印刷文本中选取相关数据元素,制作书目数据,其间要经过数字形态到物理形态,再从物理形态到数字形态的两次转换;而ECIP则是从数字形态到数字形态的直接过程,无论在编目效率,还是它的数字化程度,都将出现大的飞跃。ECIP的问世对编目界将再一次产生革命性影响,是一个亟待开发的重要领域,国家图书馆有必要与出版界连手,积极推进ECIP的发展。”[11] 但这一认识未能引起内地编目理论界的应有重视与积极回应,倒是海峡对岸学者进行了相关课题研究[12]。
2.4 “自动编目”研究
在数字图书馆研究课题中列有“自动编目”一项[13,14],但现有数字图书馆项目并未进行这一课题的研究工作,编目界对此也讨论不多,因为图书馆界不在文献生产的源头,难以进行“自动编目”的研究,只有在出版过程中方可解决这一问题,从而再次说明了数字图书馆不是图书馆界一家的事情。2002年,北京书同文数字化技术有限公司曾推出“电子编目员”软件[15],采用OCR技术对版本记录页进行扫描,再作结构化处理。虽然这是对物理形态再次数字化操作,不是完整意义的“自动编目”。但对随后进行的工作有很多启迪,人们从出版环节对自动编目开始了实质性的探索[16]。业内专家展望21世纪文献编目学时满怀希望地指出:“也许人们梦寐以求的全自动化文献编目就在本世纪内实现。”[17]
鉴于我国实施图书在版编目的特殊情况(由版本图书馆而非国家图书馆承担这一工作,前者与美国国会图书馆无业务联系,后者认为此事与他们无关),笔者不自量力地进行ECIP的探索,在此过程中,分析了我国编目工作与图书出版的实际情况,提出了中文图书自动编目的解决方案,并与有关方面合作,开发成功“中文图书自动编目软件”,可在图书出版过程中实现这一功能[18]。随着使用这一软件的出版社逐渐增多,必将对书目事业建设与编目理论研究作出积极贡献。
3 编目理论需要与时俱进
文献编目是实现无序信息资源有序整合操作方法中的重要部分,“这方面的研究是图书馆学的中心。”[19] 现有《国际标准著录规则》(ISBD)是基于对已有信息资源进行描述,因而客观性原则是其第一准则,为信息收藏单位使用是其出发点,故称之为描述性编目。由于信息资源存在是第一性,描述规则是第二性。在信息资源生产无序状态下,描述规则的制定总是滞后,也很无力。对文献编目虽然投入很大,仍不能满足使用者的需求。尤其进入数字时代,网上大量信息资源难以手工处理,“自动编目”成为必然的选择。现有编目规则自然不能适应这一形势需求。
各种自动编目的处理方法,对于不规范的信息资源,编目数据的质量很差,这是目前因特网上查准率低的主要原因。虽然功能强大的检索系统对补偿低质量的个体记录有一定帮助,但很难从根本上解决问题,因而想到由作者加入某些结构标签的做法[20,21]。
虽然只有数字化的信息资源方可进行自动编目,考虑到新制作的非数字化信息资源都是使用数字技术生产的,利用其印前电子文本,同样也可以实现自动编目功能。包括索引、文摘与引文索引,都能够从其原始信息资源中自动产生。但若原始信息资源处于无序状态,则计算机处理起来就非常复杂。
为改变这一现象,一些编辑出版单位就要求作者提供符合一定规范要求的作品。各个编辑部的投稿指南,教育部门规定的学位论文撰写规则,各种会议的征文需知,都是便于信息处理的手段。2005年编制的“新闻信息标识数据”标准,要求记者需按标识要求提供稿件,也是为了应用数字技术,将新闻稿件迅速进行处理。出版界计划在2006年制定“出版物标识数据”标准,规定图书、报刊、音像、电子各种出版物的标识事项,为在出版物制作过程中自动产生书目记录、索引条目、文摘数据、引文数据提供基础条件。
上述各种做法说明,资源编目处理已从以客观存在的资源实体为描述对象,转变为在资源实体产生之前进行标识处理。这一转变不仅仅在技术处理上是“从数字形态到数字形态的直接过程”,而且在编目操作上也从客观描述变为事先标识,使“描述性编目”变为“标识性编目”。编目理论需要对这一转变做出理论上的回应,这是数字时代对《国际标准著录规则》的挑战。
“在相当长一段时间里,MARC和AACR(英美编目条例)一直是书目数据描述领域的主流工具。从世界范围来看,绝大部分的书目记录都是依据上述方式编制的。无论是从数据描述的丰富性,还是从数据检索的查准率来看,MARC/AACR都是名列前茅的,现在还没有哪一种元数据格式可以在这两个方面超过它们。如果说图书馆把信息资源的组织和整理仅仅局限于馆藏资源的话,那么现在MARC和AACR就足以应付了。但是进入数字时代,原有的数据描述手段就明显地跟不上形势发展的要求了。因此,图书馆需要思考的不仅仅是MARC对现代网络环境是否适应的技术问题了[22]。
MARC格式的研制成功是计算机在图书馆应用的里程碑,人们会永远铭记阿芙拉姆等先贤的功绩。但和任何一种社会现象一样,MARC格式也不可避免地有其历史的局限性。因此人们必然会从不同的方面不断对MARC格式提出改进的建议。但所有建议均未能在新版CNMARC中得到反映,甚至没有任何解释性说明,这在学术争论中是不正常的。
“技术本来只是图书馆通向最终价值的桥梁,是一种手段,而人最终是无法栖息在这一纯粹手段上的。然而,陷身于手段迷宫的现代图书馆人,常常是在手段上建筑新的手段,而最终价值目标却被忽视。这就是现代图书馆人的技术情结。”[23]
4 解铃还需系铃人
所有信息资源都是人创造的,即使自然信息与社会信息,也是由人攫取、加工后发布的。利用信息资源的也是人,各种信息服务机构与交流系统只是人们利用信息资源的工具。现有各种信息处理标准都是要求信息处理人员在进行“无序信息资源有序化整合”时遵循的规则。实实在在是面对“无序创造”而要求“有序管理”,近似无理。
人类社会的每一共同活动,都是在一定的秩序中进行的。信息交流也必须在一定的秩序中进行,对于信息资源的无序状态进行有序整合,是维持社会共同活动秩序的要求。
当然,在手工操作条件下,在文化很不普及的年代,创造信息资源的人与所创造的信息资源都很少,信息交流的需求也不像现在这样广泛,在文献产生以后进行有序处理也是很自然的做法,并且形成为普遍遵循的规则。数字技术出现以及所引发的信息交流方式的变化,使原先已形成的规则不适用了。现在创造信息资源的人与所创造的信息资源变得非常之多,继续“无序创造”而要求“有序管理”,就不能有效操作。
“如果没有有效的信息整序和信息检索手段,反而会提高人们获取有价值信息的难度。那么,数字信息的急剧增长对人类来说,简直是一场灾难。”[24] 解决这一难题的方案不能只从技术层面考虑,还要从制度层面考虑。即是要有一个不只是要求信息接收方,还要要求信息生产方共同遵循的信息交流规则,维护社会共同活动的秩序。所以需要所有信息资源创造者遵循一定的信息处理标准,实现信息资源生产的有序化。如此,信息交流将可无障碍。
也许有人会认为这是不科学也是做不到的幻想。怎么可能要求所有信息资源创造者去遵循信息处理规则呢?
实际上,许多地方已经在这样做:向学术期刊投稿,必须按编辑部要求提供文摘、主题词、英译题名、文摘、主题词等;学位论文必须按规定格式书写;公文更有严谨的格式;记者不按规定标识,稿件将不能迅速转发;还有许多类似的规定。都是对信息资源创造者提出的要求,并有所成效。
比较难以要求的是非正式出版物的自由撰稿人,尤其是网络写手。但只要加强宣传,进行引导,也是能够实现的。关键是所有信息处理规则需简单明了,便于掌握与应用。Dublin core就是一个用户不需要培训就能理解的元数据集。“它的产生和发展极大地推动了因特网上元数据运动,成为编目史和网络信息资源组织的一场革命。”[25] 我们要做的事情就是要把这场革命更加深入地向前推进。
对此,我们有理由充满信心。比如古代人写作是用文言文,且没有标点符号。新文化运动后,提倡白话文,并用标点符号。这个习惯的改变,并没有多长时间。以现代人的文化素质,推行信息交流规则,应当不是太难的事情。何况创造信息资源的人,也都是应用信息资源的人,利人利己,何乐而不为。
信息交流的主体永远是人,各种传播工具只是辅助手段,消除传递障碍,关键还是靠人。数字技术虽然很先进,但电脑终归不如人脑。我读过一些有关自然语言检索的论著,也思考过提高自然语言检索效率的解决方案,想来想去,感到还是规范人的行为是最好的办法。