古代计算机图书编目初探_文献论文

古代计算机图书编目初探_文献论文

计算机古籍编目初探,本文主要内容关键词为:编目论文,古籍论文,计算机论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

清华大学图书馆现藏有近3万种约30万册珍贵古籍, 从宋代到民国各个时期的刻本、抄本、稿本非常丰富,其中有近2 000 种善本书已被收入《全国善本书总目》,并由《全国善本书总目》编委会认定馆藏中2 093种为全国稀有本,444种为全国孤本。

从1912年以来,经过几代馆员的辛勤工作,大部分古籍已经分类编目,积累了两套公务目录和一套读者目录卡片。在现代文献已普遍进行计算机编目,并取得相当成果的今天,古籍手工编目所带来的种种问题与不便就日趋显著起来。特别是在目录品种方面,目前只有题名目录与分类目录两种,提供的检索途径很有限,像经常用到的著者、主题等基本的检索要求都无法满足,而且卡片式目录不便于交流,仅适于在馆内使用,无法实现资源共享。而机编目录恰能解决以上所提到的问题,可以提供多种检索途径,还可以从系统内部进行各种统计工作,并能产生卡片式、书本式、机读式不同载体形式的目录,以实现国内及国际化的资源共享,而机读目录的检索速度、检索深度更是卡片目录不可同日而语的。由于古籍文献的文字、体例、内容、载体形式和装帧方式与现代文献有着很大差别,其著录信息源、著录规则以及著录内容已形成了一整套完备的传统模式,因此将这种传统的模式与现代先进的计算机管理技术相融合,以科学合理的方式揭示出来,是目前急需解决的问题。

一、古籍文献计算机编目的著录标准、格式

关于古籍实现计算机编目,我馆早在几年前就开始酝酿,直到1996年INNOPAC系统上马、1997年底网线覆盖古籍书库, 这项工作才得以正式启动。我馆使用的INNOPAC系统是一个图书馆集成管理系统, 其数据库维护子系统可同时支持CNMARC和USMARC两种著录格式,适用于各文种各资料类型文献的编目,其中也包含了古籍文献,在系统运行前的参数设计时已考虑到古籍编目的问题而设置了相应的代码,用于各种统计和限定检索。INNOPAC系统中为编目工作提供了完善的建立及修改书目、 馆藏记录及各种自动查重、校验功能和标准MARC数据的套录等功能。

(一)古籍的分类

我馆古籍分类采用的标准是本馆自编的分类表《八大类分类法》、《地方志分类表》,著者号码采用《著者号码表》、《卡特表》。从建馆到50年代末启用《大型图书馆分类法》之前的几十年间,清华大学图书馆入藏的所有中文和日文图书都是使用这部分类表进行分类的,而古籍的分类则沿用至今。《八大类分类法》有八个一级类目:总类、哲学宗教、自然科学、应用科学、社会科学、史地、语文、艺术,分别用天干中的前八个:甲、乙、丙、丁、戊、己、庚、辛来表示,从二级类目起用阿拉伯数字取号,整数取三位十进制。地方志类的古籍专门用《地方志分类表》分类,此表系施凤笙编定缮写,按民国旧制分为35省12市。《著者号码表》1927年由夏美士订正,有中文著者号码表和日文著者号码表,著者号取3位,前面再冠以朝代号码,朝代从先秦至民国顺次取0—8号,9为机关、团体著者。西文著者号码依据《卡特表》。

(二)古籍的著录标准

文献著录的标准化是文献资源共享的基础,这在编目界已经形成共识,在古籍文献的著录标准上我馆采用《中华人民共和国国家标准古籍录著规则》(报批稿),此标准由全国情报文献工作标准化技术委员会提出,全国情报文献工作标准化技术委员会第六分委员会修订。这一标准的制定参考了《国际标准书目著录(古书)》,结合了我国古籍特点,同时考虑到计算机著录的要求。

(三)古籍的著录格式

古籍文献编目使用的机读目录格式是CNMARC,CNMARC格式是国内图书馆界中文图书计算机著录的通用格式。这一格式是在国际图联公布的UNIMARC格式基础上结合我国出版物特点制定的, 已在我国推广使用了十年,采用这一格式进行古籍文献的规范著录有利于书目数据标准化,也有利于各馆之间的书目数据的交换。

(四)字库问题

由于古籍文献年代久远,其著作用文字是与现代标准化汉字不同的繁体字,同时还有大量的异体字、罕用字。国内常用的国标代码(GB)仅有6 700余个汉字,处理现代文献尚可,而对古籍编目则较为欠缺。 我馆目前使用的INNOPAC系统中所采用的汉字内码为CCCII,包含了21000个常用字,20 000个罕用字,42 000个异体字,共84 000个汉字。 经过一段时间的编目实践,目前尚未发现缺字现象,可以说CCCII 为古籍文献的著录提供了良好的基础。

二、古籍手工编目与计算机编目著录格式之比较

手工编目与计算机编目格式及著录规则上有很大差别,手工处理时一种文献的所有款目在机编时由一条详尽的书目记录所代替(见例1、 例2),由各个可检索字段完成多种款目的功用。 现就手编目录卡片与机编工作单加以对照比较。

(一)手编格式

例1

┌─────────────────────┐

│甲950 春秋四家五传平文 四一卷

│ 6866

张歧然(明)辑

│ 明君山堂刊本 │

│16812三二册(五函)

附春秋提要二卷 虞宗瑶(清)辑 │

│ 春秋笔削发微图一卷

│ 春秋名号归一图二卷

│ 春秋二十国年表一卷

全国稀有本 │

└─────────────────────┘

(二)机编格式

在本馆古籍机编中使用频率较高的字段有:

001 记录标识号

090 索书号

100 通用处理数据

101 作品语种

102 出版或制作国别

105 编码数据字段:文字资料、专著

106 编码数据字段:文字资料——形态特征

200 题名与责任说明

205 版本说明

210 出版发行

215 载体形态

225 丛编

300 一般性附注

304 题名与责任说明附注

305 版本与书目史附注

306 出版发行等附注

307 载体形态附注

312 相关题名附注

327 内容附注

423 合订、合刊

499 丛编题名(本馆自定义)

517 其他题名

700 个人名称——主要知识责任

701 个人名称——等同知识责任

710 团体名称——主要知识责任

著录格式:

200 $a正题名$e其他题名信息$f第一责任说明$g 其余责任说明$c合订题名

205 $a版本说明$f与版本有关的责任说明

210 $a出版、发行地$c出版者、发行者名称$d出版、发行日期

215 $a册(函)

225 $a丛编题名$e其它题名信息$f责任说明

300 $a附注内容

304 $a附注内容

305 $a附注内容

306 $a附注内容

307 $a附注内容

312 $a附注内容

327 $a附注内容

304 $a附注内容

312 $a附注内容

423 $a合订题名$e其它题名信息$f第一责任说明

499 $a丛编题名

517 $a其它题名

700 $a个人第一责任者$4责任方式

701 $a个人其他责任者$4责任方式

710 $a团体责任者$4责任方式

例2

00171204v02

090甲950$b6866

10019971204f13681644km y0chiy0120 eanam0

101 0 chi

105a 000yy

106r

200 1 $a春秋四家五传平文$e四十一卷$f (明)张岐然辑$c春秋提要$e二卷$f(清)虞宗瑶辑$c春秋笔削发微图$e一卷$c 春秋名号归一图$e二卷$c春秋二十四年表$e一卷

205刻本

210$c君山堂$d明(1368 1644)

215$a32册(5函)

300$a全国稀有本

423$a春秋提要$e二卷$f(清)虞宗瑶辑

423$a春秋笔削发微图$e一卷

423$a春秋名号归一图$e二卷

423$a春秋二十国年表$e一卷

700 0$a张歧然$4辑

701 0$a虞宗瑶$4辑

在计算机编目后,编目内容大大扩充,其著录内容包含了手工编目的全部著录内容,同时还包含了手编款目所没有的更为丰富的内容,如提供书目记录编码信息用于限制性检索和数据管理的定长控制字段以及各种检索点,计算机编目避免了手工编目时考虑卡片的容量和目录体系的规模而无法完整全面地揭示文献书目信息的缺陷。

三、古籍文献计算机编目的主要内容

(一)代码化信息

代码化信息在CNMARC格式中,包括通用处理数据(100字段)、 作品语种(101字段)、出版国别(102字段)、编码数据字段(105、106等字段)。这些内容在手工编目时是没有的,可提供除著录正文和检索点以外的大量文献信息,主要是用于计算机管理,包括限制性检索和数据管理使用,是MARC格式的重要内容。

100字段包含记录编目时间、文献出版时间的类型、出版年、 文献阅读对象代码、字符集等十余项内容。

101字段包含图书正文及其题名的语种代码等, 对于中文古籍编目通常著录为“chi”(中文)。

102字段应著录文献出版国别代码及出版地区代码, 其中出版国别在古籍编目时通常为“CN”(中国),但对于出版地区代码由于古籍的特殊性可不做著录。

105字段为图书编码数据字段,图表代码、 内容特征代码等七项内容。

106字段为文字资料形态特征,如手写本(抄本、稿本、 手绘本)用代码h,普通印刷品用代码r。

(二)题名信息

在CNMARC格式中有关题名信息的字段很多,包括:正题名(200 字段)、丛编名(225字段)、相关题名(5××字段)等,这些可以区别不同的题名形式并提供检索点,如文献的正题名、丛编名、合订题名、并列题名、封面题名等等,甚至是文献上未出现,由编目员补充的题名也有相应字段著录,这些项目在古籍文献著录时都有着广泛的应用。

古籍题名著录信息源以正文卷端为首选,这区别于现代文献以书名页为准。古籍的书名比较复杂,往往在同一部书中,就有好几种不同的书名,通常在书签、封页、目端,卷端、版心等处有不同的写法,如光绪三年浙江书局刊行的《补注黄帝内经素问》,封页题《黄帝内经》、目端题《黄帝内经素问》、卷端题《补注黄帝内经素问》、版心题《内经》。名家著录通常都是以卷端为准,这是因为卷端题名在多数情况下内容比较全面,而我们编目人员在手工编目时规定统一采用卷端题名,一方面是承袭前人好的经验,另一方面则是考虑到规范化问题,现在在机编时正题名采用卷端题名,其他凡认为具有检索意义的题名都可以一一加以揭示,并提供检索点,既保留了古籍的传统著录风格,又尽可能全的提供了检索点。正题名在200题名与责任说明字段进行客观著录。

古籍题名中出现的冠词,在手工编目和检索时一直是一个很大的困扰,如新刊、绣像批点、御纂、钦定、笺注、国朝等,题名首字确定不统一,在排卡片式题名目录时就会有不同的位置,题名检索就有可能漏检。机编的处理方式是200字段客观著录卷端题名,同时在517字段用去掉冠词的题名形式提供检索点,完全避免了漏检。

如:200 补注黄帝内经素问

517 黄帝内经素问

对于古籍的其它题名、交替题名等(如“红楼梦”又名“石头记”、“金玉缘”等)著录时在一条书目记录中可以同时对不同的题名形式进行揭示,并分别提供检索点。

如:200 红楼梦

517 石头记

517 金玉缘

古籍的卷数十分重要,同一书卷数不同,说明版本不一。在传统的古籍著录中,卷数是题名的一部分,共同揭示题名信息,这在现代文献中几乎见不到,机编时卷数著录在其他题名信息里。

在古籍中,有时会出现几部各自独立的著作在刻印或抄写时被组合在一起的情况。在本馆现有的目录款目中,通常只确定一个书名作为总书名,而没有参见款目揭示合订题名,造成其它合订书漏检。机编的处理方式是200字段将所有合订题名都一一列出,并在423合订、合刊字段做连接,423字段可重复。同时, 对于合订形式的古籍还可以采取分别建立书目记录的方式处理,即以各个独立的题名、责任者等内容建立题名书目记录,在附注项内说明合订情况,并用4 ××字段中的相关字段为其它合订题名建立连接,由系统提供的一个馆藏记录具有同时连接多个书目记录的功能,解决一个物理载体上多个著作合订刊行的馆藏反映问题。

对古籍中特有的如:首一卷、校补×卷、续编×卷、别集×卷等不具有独立检索意义的部分,都采用合订方式处理,但不做423 字段的连接。

(三)丛编项

古籍文献在历朝历代的流传和整理过程中,有相当一部分辑为丛书流传,这是手工编目时的一个难点,即是采取分散著录还是采用整套著录、如何揭示丛书中的内容等等。在计算机编目时,笔者以为可采用整套与分散著录相结合的方式,即采用高层记录和分析记录的著录。高层记录是以丛编名为正题名的一条书目记录,是有关这套丛书总体的揭示,分析记录则以丛书中的每一种文献为单位进行著录。 丛编名著录于225字段,同时为有检索意义的丛编名称做499字段,提供检索点,这样通过丛编名可以有效地连接高层记录和分析记录。

(四)责任信息

机编著录将题名与责任者纳入同一项中,这一点与古籍的传统著录方式不同。

责任者在200字段第一责任说明(200$f)、其余责任说明(200$g)中进行客观著录,要具体著录责任者的朝代、名称、责任方式, 并在7××字段提供检索点。 合订著作的责任者反映在合订题名后的第一责任者(200$f)中。应当指出的是,通常200 字段中的责任者说明字段内的责任者应按文献上提供的信息进行客观著录,而7 ××字段中作为检索点的责任者的名称形式应为规范形式,对一位著者的不同名称形式(别名、斋名、字号等)应在确定其规范名并建立相应的规范记录的情况下进行著录,即建立名称规范档,其主要目的是为了统一各种人名、团体名称的标目形式而制作的,这样可以保证名称的唯一性,保证读者的查全与查准率。我馆使用的INNOPAC 系统能实现书目记录与规范记录的连接,通过建立包含规范名称及其相关未选做标目的名称形式等内容的规范记录,实现对书目记录中各种作为检索点的责任者的控制,使读者能全面、准确、迅速地检索。

(五)版本信息

版本项是古籍著录与现代文献著录差别最大的部分,由于现代出版事业日臻完善,规范化已达到了很高的程度,因此,现代文献版本著录相对简单统一,需要特别说明的情况比较少,古籍则有完全不同的背景。我国是最早发明造纸术和印刷术的国家,书籍的抄写和刻印有着悠久的历史,而各个时期的版本又具有各自不同的风格,仅就刻本来讲,官刻、私刻、坊刻三大系统各行其是,从校勘到刻印都各有千秋,所以正确揭示古籍的版本信息对研究和利用古籍有很大的作用。但由于古书年代久远,几经传刻,其出版地、出版者、出版年常常是错综复杂。在著录版本项时要仔细考证,尽量详细准确地揭示版本信息。

版本项主要著录古籍的版本类型、出版地、出版者、出版年。现代文献版本项的信息源以题名页和版权页为准,古籍则不同,封面、书名页、牌记、序、跋、目录、正文卷端、版心等处都要仔细查考。在手工编目中,版本项通常用一句自然语言描述,如:“清光绪十年上海还读楼校刊本”,这种方式可以回避一些尚未查考清楚的问题,直接从书中抄录下来,含糊而过。但机编就不可以回避,出版地、出版者、出版年必须对号入座,含糊不得,因此说机编反过来也可以促进编目质量。

版本类型在205版本说明字段中著录,主要指:稿本、抄本、 刻本、活字本、石印本、重刻本等古籍文献本身的版本特征,这些都是现代文献著录中没有的。

出版地(210$a)、出版者(210$c)、出版年(210$d )在210出版发行字段中著录。其中出版地要著录与出版年相对应的古代地名,出版年要著录朝代、年号以及相应的公元纪年,如果出版年在两年以上,著录起迄两个年号;如果出版年无法确定,可用朝代的起迄年限定。

(六)稽核项

在机编中,此项在215载体形态字段中著录, 主要著录古籍的形态特征,包括:册(函)数、图表、书型、附件等。

古籍最常见的装帧形式是线装,也有一些是卷子或摺装、蝴蝶装、包背装等。古籍装订成册后通常加用函套或夹板,起保护作用,这是由早期写本书时期用书帙包裹卷子的方法演变而来。一书重刻或经修补重新装订后,册数与函数可能会发生变化。因此,在著录时,册数、函数都要注明。

在传统古籍著录中,有关书的残缺情况和彩色套印本均在稽核项中说明。在机编中,书的残缺情况在附注项中说明,彩色套印本在版本项中说明。

(七)附注项

凡对于题名、责任者、版本、稽核项的补充说明以及书中的附录、丛书子目等,均在3××附注字段中著录,各项均有专门的字段。

由于古籍文献年代久远,且文献本身在文字上对于题名、责任者、版本等信息多不完整,许多信息是通过大量考证而获得的,另外一些有关古籍版本等方面的内容,如古籍的版式(即古籍每一印页的格式,包括对版框、行款、版心等的描述)、古籍的抄配本等在古籍著录中经常用到,而在CNMARC格式的基础字段中不易著录的信息,只能在附注项内反映,在机编时拟放在305、307字段。

对于由《全国善本书总目》编委会认定的全国稀有本、全国孤本以及古籍入藏时的赠书号暂放在300一般性附注字段中。

四、问题与思考

通过一段时间的古籍机编实践,感觉到目前尚存在一些问题需要进一步的论证和解决,这些问题既有MARC格式方面的又有古籍著录本身的。

在CNMARC格式中,有关古籍文献著录方面的内容相对欠缺,依据目前这种粗线条的规定, 即使几个不同的图书馆的古籍著录都使用CNMARC格式,仍然会在书目数据中出现一些不容忽视的差别,影响交流和共享。因此,应对CNMARC作相应的补充,制订更为明确、详细的规定和说明,这需要联合其他馆和有关部门共同商榷,以免各著录项使用的格式、标准不统一、不一致。如代码化信息项,许多代码的设置是以现代出版物的特征而规定的,在古籍著录时常使编目员无所适从,应增加一些针对古籍特征的代码。另外由于古籍文献的许多信息是后人多方考证得来的,且对古籍研究意义很大,需要在书目中记录,而这些信息应入哪些字段也应有一统一标准。

在古籍分类方面,由于《八大类分类法》、《地方志分类表》是我馆自编的,不具有通用性,机读目录所提供的分类检索途径,就仅限于本馆内熟悉此分类表的几个人使用,这显然不能充分发挥其作用,最好能相应增加传统的四部法的类号。但这就意味着将全部古籍重新分类,工程浩大,需在条件许可时进行。

总之,古籍文献的书目数据库建设不仅是一个图书馆实现书目检索计算机化的需要,按统一标准、规则及格式建立的古籍书目记录更是实现书目资源、文献资源共享的必备条件,同时,利用计算机对古籍文献进行编目处理也能够更完整全面地反映古籍文献的整理及研究成果。

标签:;  

古代计算机图书编目初探_文献论文
下载Doc文档

猜你喜欢