中文图书目次信息数据著录规范的研究,本文主要内容关键词为:目次论文,中文论文,数据论文,图书论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
近年来,随着计算机技术与网络技术的发展,信息资源的开发愈来愈成为图书情报单位的工作重点,许多单位相继开展了对馆藏文献资源进行深层次加工的工作。表现为:在制作新的图书书目数据的同时,开始对馆藏旧图书进行回溯编目;从重点制作图书书目数据延伸到制作连续出版物、缩微资料、声像资料、电子出版物等的书目数据;书目数据制作过程中,在注重传统的卡片著录项目的同时,注重主题和名称规范控制以及撰写提要和文摘等内容;在进行书目数据制作的同时,开始对全文数据的制作进行更大的投入。总之,传统纸制文献的电子化、数据化方兴未艾,图书馆界正在群策群力做好数字图书馆的基础工作。
今年年初,国家图书馆组建了“国家图书馆文献数字化中心”,进行馆藏文献数字化工作,目前已形成了日生产16—20万页图书影像数据的规模。但是上述工作生产的全文影像数据,未经OCR 识别和后续的人工干预,无法直接用于文献检索。尽管通过软件手段,已初步实现了全文影像数据库与OPAC书目数据库的挂接,网上读者可以通过检索书目数据,跳转到相应的图书影像数据(如图书的封面图像),进而逐页浏览整本图书。但在检索和浏览过程中,读者仍感到繁琐和不便。特别是无法一步到位准确地查找到所需的文献信息,给全文影像数据库的利用带来很大不便。
为解决这一现实问题,国家图书馆目前正在考虑在书目数据库与全文影像数据库之间建立中间层次的字符型全文检索数据库,这一数据库的主要内容是图书目次以及起目次作用的其他有关信息。相对于图书的题名、责任者信息而言,图书的目次具有更多、更重要的信息内容,如何科学合理地利用、储存和检索图书的目次信息,已经成为当前图书编目工作的一个重点。
基本设想是,读者通过键入一个主题词或自由词进行检索,可同时命中与检索词相关的书目信息和图书的目次信息,然后通过进入详细书目记录,跳转到与书目对应的目次页信息记录,再通过超文本链接,进一步跳转到与目次(章节)信息相对应的全文影像数据库。这样通过书目、目次、全文几个层次的渐进,完成用户查找文献线索与阅览文献全文整个过程。由此可见,建立图书目次信息数据库,是连接书目数据和全文影像数据的有效手段,不仅有利于读者进行信息查找,而且更加便于读者进行有针对性的全文阅读。
一、国外关于书目数据章节信息著录的有关做法
八十年代末期,西方图书馆学界开始研究如何在书目记录内增加目次信息;到九十年代初,Blackwell's 和Chadwyck-Healey 两个公司都开始发行附有目次信息的书目记录。 以Blackwell's 为例, 该公司到1999年已发行附有目次信息的书目记录25万条,并可按不同用户的要求,在以USMARC格式为基础的书目数据中提供三种不同的图书章节信息著录方法。
第一种做法是在书目记录中设立505字段,通过该字段的@a子字段集中描述图书的章节信息。章节信息的具体组织结构类似于我们所熟悉的CNMARC格式的327内容附注。即对章节号、章节名称、 章节责任者等内容不做子字段层次的区分,而是通过一些特定符号(如“-”、“/”等)做便于阅读的简单切分。(见例1)
例1:
245 04@a The Columbia University College of Physiciansand Surgeons complete home medical guide/@cDonald F.Tapley...al.
250 @aRev.ed.
260 0 @aNew York:@bCrown Publishers,@cc 1989.
505 0 @aPt.1.The Nature of Health and Medicine - 1: TheAmerican Health Care System and How to Use It/Robert J.Weiss -2.Medical Decision Making; Ethical Considerations /David J.Rothman,Donald F.Tapley-3.Meeting the Health-Care Needs of theAged/Barry J.Gurland,Esther E.Chachkes-4.Diagnostic Tests andProcedures/S.Raymond Gambino-Pt.2.What to Do Until the DoctorComes- 5.Overview of First-Aid and Safety/Kenneth C.Fine-6.Basics of CPR and Life Support/A.L.Loomis Bell,Jr.-7.Directoryof Common First-Aid Procedures/Kenneth C.Fine- 8.Poisoning/Kenneth C.Fine.
650 0@aMedicine,Popular.
700 10@aTapley,Donald F.
710 20@aColumbia
University@bConegeofPhysiciansaIld -Surgeons.
这种做法的优点是便于进行目次页的扫描处理和后续加工工作。因为这种数据组织方式最接近于图书目次信息的原始状态,在完成图像扫描和OCR识别后,只要稍加人工纠错,就可以作为整体信息剪贴进505@a使用。但这种做法的缺点是对章节信息的各项目切分不够, 在提供“前方一致”检索的软件系统中章节信息基本上起不到检索作用,而只能起到显示内容附注的作用;在提供“任意一致”检索的软件系统中,尽管可以进行检索,但存在系统冗余过大的问题。
第二种做法是仍然采用505字段,但明确规定了一系列子字段定义。如@g为章节序号、@t为章节名称、@r为章节责任者等。 进而通过从“@g”子字段开始到“@r”子字段结束的一个子字段组来精确描述一个单位的章节信息,再通过重复若干子字段组的方式来描述图书完整的目次信息。(见例2)例2:
245 04@aThe Columbia University College of Physicians andSurgeons complete home medical guide/@cDonald F.Tapley...et al.
250 @aRev.ed.
260 0@aNew York:@bCrown Publishers,@cc 1989.
505 0@gPt.1.@tThe Nature of Health and Medicine-@g1.@tThe American Health care system and How to Use It/@ rRobertJ.Weiss-@g2.@tMedical Decision Making:Ethical Considerations/@rDavid J.Rothman,Donald F.nal Tapley-@g3.@tMeeting theHealth-Care Needs of the Aged/@rBarry J.Gurland, Esther E.Chachkes-@g4.@tDiagnostic Tests and procedures/@rS.RaymondGambino - @ g2.@tWhat to Do Until the Doctor Comes-@ g5.@tOverview of first-Aid and Safety/@rKenneth C.Fine- @g6.@tBasics of CPR and Life Support/rA.L.Loomis Bell,Jr.- @g7.@tDirectory of Common First-Aid Procedures/r Kenneth C.Fine-@g8.@tPoisonlng/rKenneth C.Fine.
这种做法的优点在于精确地描述了章节信息中的各种复杂成分,便于软件对数据信息进行切分和处理,特别是便于实现超文本的连接和跳转。 但缺点是整个505 字段在数据组织的结构上过于复杂, 因集中在Marc数据的一个字段中进行著录,记录长度会受到更多的限制。
第三种做法是在USMARC格式中设立970字段。每一个970字段用于描述一个单位的章节信息,并且其子字段定义更为细致,如增加了责任者规范名称、对照页码的子字段等。第二种做法与第三种做法相比,主要区别在于后者采取了重复970 字段的方式来描述整部图书的章节信息(见例3)。 而前者是在一个字段中重复子字段组的方式来描述整部图书的章节信息。例3:
245 04@aThe Columbia University College of Physicians andSurgeons complete home medical guide/@cDonald F.Tapley ...etal.
250 @aRev.ed.
260 0@aNew York:@bCrown Publishers,@cc1989.
970 01@aAcknowledgments
970 01@aList of Editors and Contributors
970 01@aThe Editors
970 01@aForeword
970 11@1Pt.1@tThe Nature of Health and Medicine@pl
970 12@11@tThe American Health Care System and How toUse It @cRobert J.Weiss @fWeiss,Robert J.@p2
970 12 @ 12 @ tMedical
DecisionMaking:EthcalConsiderations@cDavid J.Roth@fRoth,David J @cDonald F.Tapley@fTapley,Donald F.@p35
970 02@13@tMeeting the Health Care Needs of the Aged@cBany J.Gurland@fGurland,Bally J @cEsther E. Chachkes@fChachkes,Esther E.@p52
970 12@14@tDiagnostics Tests and Procedure@cS. RaymondGambino @fGambino,S.Raymond @p64
970 11@1Pt.2@tWhat to Do Until the Doctor Comes@p95
应该说第三种办法在描述章节信息的准确性和完备性方面较第二种办法更好,而且有关章节信息的组织结构可视性效果比第二种办法好。故我们在设计中文图书以CNMARC格式组织目次信息数据时更多地参照了Blackwell公司的第三种做法。
二、在制定中文图书目次信息数据著录规范过程中重点探讨的几个问题
1.章节信息超长的解决办法
在调研中,我们发现按照Blackwell公司的设计思路, 三种处理办法都是将目次内容作为一个特定字段附加到书目记录中去,也就是说目次信息是作为书目信息的一部分进行编辑、储存和交换的。而在实际操作中,一旦章节信息的内容超长(比如超过10万字节),就会突破MARC记录本身对长度限制的定义。无论是USMARC还是CNMARC对记录长度的限定都是99999个字符,而排除掉数据地址目次区所占的长度后, 数据字段的实际长度限制约为9万字节多一点。 在这种长度的限制下制作章节信息数据可以肯定会遇到记录超长的问题(见例4)。例4:
00590nam0 2200229 45
001 0160011405
005 19970208040556
010 $b精装$d¥50
091 $aCN$b10018.168
100 $a19960416d1960 em y0chiy0121 ea
1010 $achi
102 $ aCN$b110000
105 $ay z 000gy
106 $ar
2001 $a全唐诗$Aquan tang shi $e 九○○卷$f(清)彭定求等校点
210 $a北京$c中华书局$d1960
215 $a12册(10222页)$d20cm
606 $a唐诗$y中国$x全集
690 $aI222.742 $ v3
701 0$a彭定求$Apeng ding qiu$4校点
801 0$aCN$b上海图书馆$c19970403
801 2$aCN$bNLC
这套《全唐诗》在编目过程中是作为一条书目记录来处理的,而实际上它包含了超过五万首的唐诗,如果把所有的诗名和作者都作为章节信息来处理,以平均每条10个汉字(20个字符)的长度来计算,整个记录长度就会超过100万字节,这是MARC记录所无法处理的。
因此,我们决定中文图书目次信息数据的著录办法可以采取将目次信息数据与书目数据分隔开单独处理的办法加以解决。即目次信息数据脱离书目数据单独编辑、加工和储存,但每条目次记录均需与书目记录建立对应的关系。这样当目次信息超长时,可以采取分多条记录分别处理的办法,每条目次记录之间建立前后的顺序关系,并同时指向同一条书目记录。比如《全唐诗》目次信息的著录,可以按照规定的记录长度上限(如32K),分别做几十条目次记录, 每条记录有不同的记录控制号和前后顺序号,并且在记录中都需记载“0160011405”的书目记录控制号,便于与书目记录连接。如果在记录交换过程中需要与书目记录合并,也可以采取目次记录分别与书目记录合并的办法,这样就解决了记录超长的问题。在建立中文图书目次信息数据著录的暂行规范后,我们又了解到,美国国会图书馆书目强化咨询组 ( BibiographicEnrichment Advisory Team——BEAT)在1997~1998年进行目次信息著录规范研究过程中也采取了和我们类似的做法,即将目次信息单独建库,在检索时与书目记录连接。这说明我们的做法是基本可行的。
2.目次信息数据指向的电子图像文件名与856字段的关系
在目次信息数据著录的规范中,我们规定需要著录该目次信息对应的起始页码的电子图像文件名(可以包含电子地址),以便于目次信息与全文影像信息的连接。这就涉及到在目次数据中著录电子资源地址信息的问题。在新版的USMARC格式手册中有明确规定,启用856 字段来描述电子资源地址;国家图书馆朱岩同志曾发表文章,指出《中国机读目录格式》编委会已确定启用856字段来描述电子资源地址。、
在调研中,我们认真研究了CNMARC编委会关于856 字段的详细定义之后,发现856字段是用来描述作为文献整体的电子资源信息的, 一般而言它的描述对象是字符型的电子文件或揭示文献整体特征的电子图像文件,如目次页图像。而不是图像型的电子文件集合。其次,在856 字段中难以反映章节信息对应的起始页码的电子图像文件名。如果在目次信息著录字段中用嵌套856字段的办法来描述电子资源地址, 数据结构将过于复杂。因此,我们决定在中文图书目次信息数据著录规范中暂不使用856字段。
3.关于目次信息数据著录的章节层次处理和规范处理问题
在调研中,我们发现一些中文图书的目次信息层次过于复杂,如“第一编”下有“第一章”,再下是“第一节”和“第一小节”,并且有各自的章节名称。为精确描述各级章节名称之间的从属关系,我们起用了970字段的第2位指示符,来定义章节信息的层次(分1—9级)。
另外还有一些图书在目次信息的组织上不够合理。如某些诗集,在目次页中往往是先注明作者名,下面依次开列诗篇名,再下面又是另一作者名,以下又是诗篇。这样,在目次信息著录时,单独一行的作者名往往并不对应某一电子图像,几乎没有引导意义,而以下的诗篇名,单独来看又反映不出责任者的信息。故我们确定在图书的目次信息组织不甚合理的情况下,目次信息的著录可以做适当的规范,一般可按照章节号、章节名、责任者、页码的顺序著录。
三、中文图书目次信息数据著录的暂行规范
在调研国家图书馆现有的书目数据库和国外书目数据章节信息著录规定的基础上,同时征求馆内有关专家的意见,我们提出了国家图书馆中文图书目次信息数据著录暂行规范如下:
本规范主要规定了目次页信息数据的组织、储存和交换标准,以及与书目数据、影像数据连接的相应规范。
1.目次页信息的定义
目次页信息指的是位于书籍正文前的目录类信息。其主要特征为:a.一般带有“目录”的字样;b.一般按照图书章节和页码的原始顺序排列。
2.目次页信息著录的标准
依据ISO2709标准进行数据的组织、储存和交换。
3.目次页信息数据与书目数据的关系
(1)目次页信息数据可与书目数据合并, 即目次页信息可作为书目数据中的一个可重复字段加以描述,并作为书目数据的一部分参加数据交换。
(2)目次页信息数据可与书目数据分离, 但通过特定的连接款目(如书目数据的001记录控制号),体现与书目数据的连接关系。
在目次页数据制作中,推荐采取后一种办法进行数据加工和储存,采取前一种办法进行数据交换(需做一些处理)。
4.目次页信息数据与全文影像数据的关系
在目次页数据中,设立电子文件名的子字段,该子字段仅用于标注与目次信息中起始页码的一项相对应的电子图像文件名称。目次页信息通过该子字段与影像数据建立连接关系。
5.目次页信息著录的基本格式确定如下:
(1)记录头标区:共24个字符(0—23位)
其中:0—4位为记录长度(系统自动生成);5 位为记录状态(新记录取n,修改记录取c,删除记录取d);6—9位为执行代码(取aa #);10位为指示符长度(取2);11位为子字段标识符长度(取2);12—16位为数据起始地址(系统自动生成);17—19位为记录附加定义(取#ns);20—23位为地址目次区结构(取450#)。
注:“#”表示空格,第19位取“s”为自定义内容, 表示本记录是章节信息数据(Section),而非书目数据。
(2)001:目次数据记录控制号(必备,不可重复,无字段指示符,无子字段标识符)。长度15位,1—2位为字母mc,3—4位未定义(使用中取“00”),5—8位为制作年,9—15位为流水号。
(3)002:连接的书目记录控制号(必备,不可重复,无字段指示符,无子字段标识符)。长度10—12位,取自与章节信息对应的书目记录。(2000年以前为10位,2000年起为12位)
(4)950:目次记录与书目记录连接的次序号(必备,不可重复),指示符2位,第一位取“0”目次信息不完整(指目次页著录未结束),取“1”表示目次信息完整(指目次页信息著录结束); 第二位未定义。
子字段@a(必备、不可重复),长度4位,依次取流水号(流水号的默认值为0001)。
(5)970:目次页信息字段(必备、可重复),指示符2位, 第一位取“1”表示本字段的@i有检索意义,取“0”表示@i无检索意义;第二位为目次信息定义,可取“1—9”级。
各子字段规定如下:
@h章节号码(可重复)(并列章节号码重复@h)
@i章节名称(可重复)(并列章节名称重复@i)
@f第一责任者(可重复)(并列成分重复@f)
@g其他责任者(可重复)(并列成分重复@g)
@4责任方式(可重复)(如章节信息中有责任方式需描述, 应紧跟@f和@g)
@p起始页码(不可重复)(该子字段可选用, 亦可表示为“起始页—终止页”的形式)
@z 电子文件名(不可重复)(标明该章节起始页的电子图像文件名)
以上子字段中@i或@h之一为必备子字段,@z为必备子字段。
6.著录要求
(1)普通图书应著录正文前完整的目录信息(除正文目录外, 还包括前言、序言、导言、各类编者说明、题、跋、致谢、附录、索引等信息)。
(2)工具书(专指供查找和检索知识信息用的图书, 其特征为:一般不以提供系统阅读为目的)应著录到能反映该书基本单元(如词目、款目、条目)的详细名称目录。
(3 )合订图书(专指由两种或两种以上的著作合订在一起的图书,书名可能是其中一部著作的题名,也可能是另外的题名):无论目次页集中与分散,均应在970 字段中加著相应的书名信息(如在“目录”两字之前加注“XXX”目录,作为一个970字段出现),以保证目次页信息与题名的所属关系明确。
(4)多卷集图书著录:当每一分册图书有独立目次页, 而书目记录采取了集中著录方式时,应以每一分册图书为单位制作目次页信息数据。并在记录的950字段中按分册顺序标注连接次序号, 在记录第一个970字段中注明分册名、分册号及分册责任者信息。
(5 )超长目次信息的著录:一般要求普通图书的目次页信息应在一条记录中著录完毕。如目次页信息超长(比如工具书),可考虑以每条记录32K的长度为限(具体切分可考虑目次页的上下逻辑关系), 制作多条记录。每条记录之间通过950@a的连接次序号,确定彼此的次序关系。在此种情况下,除最后一条记录外,其它记录950 的第一位指示符均应取“0”,最后一条记录则取“1”。
上述中文图书目次信息数据著录规范,从理论上分析是可行的,同时具有可操作性。当然,某些具体做法还需在实践中加以完善。