电子信息资源自动编目的研究与实践,本文主要内容关键词为:目的论文,信息资源论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着计算机网络和数字图书馆技术的飞速发展,图书馆的电子信息资源越来越多。对于读者来说,阅读网上的电子信息资源可以超越时空的限制,实现阅读的革命。对于图书馆来说,电子信息资源必须进行有序化管理,避免杂乱无章,使其成为系统化资源体系。在网络环境下,图书馆必须解决资源的有序化管理和检索与阅览的快捷两个战略性问题:一个是将分布式存储的电子信息资源进行集成式检索和链接,实现电子信息资源检索与阅读的一站式服务;另一个是克服手工编目带来巨大人力、物力的投入,利用计算机技术高效地进行自动编目和自动集成。
军队院校图书馆联合书目中心进行了电子信息资源自动编目的有益尝试。
1 电子信息资源自动编目要确定的问题
电子信息资源下同于纸质资源的特点是:1)大部分电子信息资源通常是分布式存储的,并非某一馆独有的资源,任何一个图书馆都不可能也不必要入藏所有的电子信息资源;2)电子信息资源的内容变化非常快,包括内容的增加和删除,数据库结构、URL的变化等;3)电子信息资源可以直接通过与书目记录的链接获得。电子信息资源存储的易变性和本身的特殊性,在编目上给我们带来的新问题远比纸质资源的复杂,因此,在对电子信息资源进行自动编目的实践中必须确定:
·是否收录?
·是创建新书目记录还是在已有书目记录中增加URL等电子信息资源信息?
·用简单的元数据还是复杂的MARC记录?
·电子信息资源自动编目系统应该具备哪些功能?
1.1 决定电子信息资源收录与否要考虑的因素
决定电子信息资源编目与否,主要应该考虑如下几点:
(1)资源内容满足读者的需求;
(2)资源内容能够直接链接到题名级;
(3)资源内容稳定;
(4)有MARC记录或容易创建MARC记录;
(5)记录便于维护和删除;
(6)创建记录的成本(编目时间,编写程序时间等)。
印刷型图书的电子版和原生的电子书刊等是典型的一类电子信息资源,只要内容满足读者的需求都应该收录。
1.2 是创建新书目记录还是在非电子信息资源记录中增加电子版的揭示信息?
当前,将电子版和印刷版资源编为一个还是两个独立书目记录的问题还没有一个统一的标准。
一般来讲,在现有记录中增加URL信息比创建新书目记录要节约劳动成本。对于有印刷品的电子版的专著和连续出版物,一般采用在现有书目记录中增加URL信息的策略。
创建新书目记录要更费工夫(供应商提供书目记录的除外),占用更多的服务器系统资源,浏览索引容易混淆。其突出的优点是:在资源不再拥有的情况下,可以方便删除,也方便记录的移植,可用性更好。创建新书目记录可以使所有的电子信息资源都能够浏览。
在这个问题上,我们认为Orbis图书馆的策略值得借鉴:
如果电子版和印刷版资源是同一个实体的两个版本或二者的“知识内容”等价,则采用单个书目记录的方式;如果电子版的“知识内容”“适合替代”印刷版资源,并且图书馆拥有印刷版,则修改印刷版的书目记录来反映电子版资源。
如果图书馆不拥有印刷版,则电子版要单独编目。
如果只有网络实体(如同站就没有纸制的等价品),就使用单个书目记录的方法。
在考虑两个实体是否是“知识内容”等价和“适合替代”时应注意排除印刷版没有而电子版常有的链接、图形等,应注重内容本身。例如:电子版只提供到目录的链接,它就不“适合替代”,而如果电子版提供了全文,它就“适合替代”印刷版。
1.3 用简单的元数据还是MARC记录?
确定用简单的元数据还是MARC来编目电子信息资源,应该考虑如下因素:
(1)应用平台是否支持元数据或MARC记录,若不支持,是否能够较方便地增加这样的功能?
(2)元数据较MARC记录简单,编目成本相对较低,适合网络中日益增长的各种信息资源的编目,但是,对于其中的重要数据,且读者更想了解信息细节的资源,应该应用成熟且有稳定的系统支持的MARC记录格式。
(3)对于电子版的专著、连续出版物或原生的电子书刊等,由于其内容相对稳定,编目人员较熟悉对这类内容的编目,适合应用MARC格式进行较全面的揭示。
1.4 电子信息资源自动编目系统应该具备哪些功能?
电子信息资源浩如烟海,且灵活易变,所以只能对数量少、内容稳定的资源做人工编目,而绝大部分电子信息资源必须通过自动化手段来完成。由于电子信息资源的特性,自动编目系统应该具备如下功能:
(1)收集适合的信息。要有选择、有重点地选择编目对象。
(2)对信息进行自动编目,产生标准的MARC或其他适合一定系统的记录格式。产生的记录符合一定的标准,才能够更好地应用到检索服务系统中,体现出其价值。
(3)提供对电子信息资源的热链。使读者从检索到的书目记录能够直接访问电子信息资源内容本身。
(4)链接记录的索引。电子信息资源编目的一个重要目标就是提供网上的直接访问功能,链接记录的索引是提供检索和直接访问的必要条件。
(5)对记录作链接检查。自动编目系统应该提供对记录链接的检查,对断链记录作出标记,以便在读者检索时能够给出必要的说明,判断(可以辅以人工)断链是网络硬件造成的还是链接地址变动造成的,还是链接内容已经不存在了。
(6)对电子信息资源的内容作定期和不定期的检查。这种检查能够确定电子信息资源的内容是否变化,以便能够删除那些应该变化而没有变化的已经失去了价值的记录,能够按照变化的内容对记录作必要的修改。
(7)对链按字段进行批量修改。对于具有同一个URL地址的电子信息资源,其链接地址要变化的话一般会同时变化为另一个URL地址,这是可以预见的事实,因此,电子信息资源自动编目系统应该能够对链接字段进行批量修改。
(8)大量的记录作删除处理。如果某些记录由于版权的原因或者所在网站的消失而导致不可访问,必须能够对其进行批量删除处理,以免影响读者的检索效果。
(9)能够从数据库中以独立记录或嵌入记录的形式导出进行数据交换。
(10)能够以多种逻辑形式显示必要的目录/馆藏信息。
2 电子信息资源的MARC相关字段
为了实现网络电子信息资源的存储和检索,MARC专设了一个字段——856字段,在MARC目录中为网络资源的URL预留了位置。OCLC的一个因特网编目项目InterCat就采用MARC格式进行编目;美国情报市场还有一种安装在图书馆浏览器上的因特网资源MARC编目软件MARCit。
任何适用的MARC字段或子字段都可用来著录电子信息资源,MARC的任何数据元素也可在电子信息资源的记录里使用。下列数据元素及其对应的CNMARC字段或子字段常用于存取或显示电子信息资源:
其中856字段在电子信息资源编目中起着关键的作用。它用于记录查找电子信息资源所需的信息,该信息标识包含资源或可获得资源的电子地址。856字段为所有远程访问电子信息资源的必备字段,即当文献资源可以通过电子方式获取时,在书目记录中就必须启用856字段标识其统一资源定位地址。
3 电子版图书的MARC自动编目实践
军队院校图书馆联合书目中心是由总参军训部立项建设的项目。该中心是全军院校图书馆联合共建的书目集成、书目检索、联合编目管理与服务、文献信息资源共建共享的协调机构。
在联合书目中心的建设过程中,考虑到全军院校图书馆的数字化图书是一笔丰富的资源,包括超星数字化图书、国图数字化图书、书生数字化图书等。但是,他们都各自独立地存储于各馆的“数字化图书馆”中,没有统一的数据格式和统一的检索平台,作为联合书目中心,有责任将这一资源加以整合、利用。这一工作的可行条件包括:这些数字化图书可以在军事训练信息网上共享访问;联合书目中心现有的技术平台能够有效支持对这些资源的整合、管理和检索。要做的关键工作就是对各馆的电子图书进行自动编目。
3.1 联合书目中心采用的编目方法
(1)采用CNMARC格式。据印刷版本扫描复制加工而成又基本保持了原貌、内容不变的数字化图书、期刊等,因其有一定的规律性,如信息源、编码数据、一般资料标识、类型特征、系统要求、访问方式等基本相同,最关键的是,此类电子信息资源制作时所依据的大部分印刷版本均已有MARC书目记录(军队院校图书馆均采用CNMARC格式)。所以此类电子信息资源的自动编目可以模版化的方式来进行。
(2)采用复制版编目法。目前对数字化书刊这类电子信息资源的编目方法主要有:合成编目法、复制版编目法等。所谓合成编目法就是在原印刷版MARC书目记录上加注有关电子版的数据(如增加相应字段注明该书、刊有电子版,标识出电子版的统一资源定位地址等),而不为电子版另编书目记录。所谓复制版编目法就是套用原印刷版MARC书目记录,根据电子信息资源著录规则及MARC记录的规定修改并增加有关电子版的数据(如修改记录类型代码、增加电子信息资源编码数据字段及其他有关字段、子字段数据内容和统一资源地址等)而编制成电子版的书目记录。复制版编目法的优点是可以模版化的方式大批并快速地编制电子版书、刊的书目记录。美国国会图书馆采用复制版编目法。
考虑到各馆电子图书归各馆所有,且与馆藏的印刷版图书不是一一对应的,同时考虑便于维护和检索利用,所以联合书目中心采用复制版编目法。
(3)研制数字化图书自动编目软件。为了减轻编目员的工作量并使用户快捷方便地检索浏览,联合书目中心专门开发了数字化图书自动编目软件,编目员只需根据本馆数字化书刊的特点配置一些参数,该软件就能自动地查套联合书目中心的国家标准书目库和中心书目库的书目记录,修改并增加有关电子版的数据,编制出电子版的书目记录。
3.2 自动编目软件的功能
(1)用户能配置系统参数。
(2)对“待编目文献数据库”中的每个数字化书目,判断“套录MARC数据库”简表中是否已有对应的MARC数据,如果有则套录修改产生一条新的MARC记录,否则自动编目产生一条新的MARC记录。
(3)将修改的MARC数据接ISO 2709标准保存到文本文件。由联合书目中心的整合软件进行整合处理。
(4)编目中断(有意或意外)后,应该能够标记已经编到“待编目文献数据库”的断点记录,避免对同一个“源”中的记录进行重复编目。
(5)为了将输出的MARC数据能够被我们的数据整合程序使用,记录分隔符必须加上回车换行符。
3.3 自动编目软件的模块说明
3.3.1 配置模块
(1)选择:超星、TPI、书生、国图等“待编目文献数据库”。系统根据选择设置337字段的$a子字段的默认文字:超星为“下载使用超星浏览器SSReader.exe”、TPI为“下载使用清华同方浏览器CAJViewer.exe”等,允许用户修改。
(2)系统根据选择设置超星、TPI、书生、国图等数据库中的记录到MARC记录的URL之间的默认规则;允许用户修改。
(3)选择套录比较字段:ISBN或者ISBN+题名。
(4)设置编目文献数据库的IP、数据库名称、用户、密码等连接需要的信息。
(5)设置“套录MARC数据库”的IP、数据库名称、用户、密码等连接需要的信息。
(6)设置保存输出MARC的文件(套录记录与自编记录分开)。
(7)设置135字段的$a子字段,默认为以下代码(共13位):crcz——auabr。
(8)设置801字段的$b子字段的馆藏单位,如:空军指挥学院图书馆。
(9)设置905字段的$a子字段的代码,如:601(馆代码)。
3.3.2套录修改MARC数据
比较是否存在可套录的MARC记录,比较规则如下:
(1)有ISBN,先与比较国家标准书目库,然后比较联合书目库,如果比较字段相同并且记录无误,则套录、修改产生MARC记录,修改规则如下:
a.将记录头标区第7位(字符位置6)的代码改为电子信息资源的代码“l”(字母“L”的小写);
b.删除106字段(如果有);
c.增加135字段的$a子字段,输入信息取自配置文件;
d.修改或增加200字段的$b子字段,内容为:电子信息资源;
e.增加230字段的$a子字段,内容为:计算机数据;
f.修改或增加304字段的$a子字段,内容为:题名取自数据库;
g.增加337字段的$a子字段,输入信息取自配置文件;
h.将801字段的$b子字段的馆藏单位改为配置文件中指定的值;
i.增加856字段,录入电子信息资源定位与检索的信息。用配置的规则产生$u子字段(URL),指示符l设为4;
j.修改或增加905字段的$a子字段的代码为馆代码(用户在主界面上配置);
k.如有905字段的$d子字段,就保留;如无,就增加$d子字段,内容取自690字段的$a子字段,如无690字段的$a子字段,则空;
l.删除905字段的其它子字段。
(2)无ISBN,或者引进书目库和中心书目库都不能满足套录条件,或者套用的MARC记录有误,则自动生成简编的新记录,规则如下:
a.新记录包含上面叙述的有关电子信息资源的字段,如135、200、230、304、337、856等;
b.记录头标区第7位(字符位置6)的代码为电子信息资源的代码“l”(字母“L”的小写);
c.新记录包含上面叙述的馆藏信息字段905;
d.新记录尽量包含“待编目文献数据库”记录的元数据信息(超星、TPI、书生、国图等书目数据库中记录的元数据不完全一致)。如:题名、作者、出版者、出版时间、分类号(放在690字段的$a子字段和905字段的$d子字段)等等。
e.产生的MARC简要记录要修改头标的第18位(字符位置17)字符。
3.4 自动编目结果样本
01084NLM2 # 2200313 ### 450#
010 601 L006685
005 20030222211716.0
010# # $a7-5626-0640-4$dCNY6.00
100# # $ a20030222d1995 # # # # em #y0chiy0121 # # # # ea
101 0 # $ achi
102 # # $ aCN $b110000
105 # # $ay # # # z# # #000yy
135 # # $acrcz#---auabr
200 1 # $a现代美国空军$9xian dai mei guo kong jun$b电子信息资源$f胡思远,戴金宇[著]
210 # $a北京$a国防大学出版社$d1995$g北京世纪超星信息技术发展有限责任公司制作
215 # # $a167项$d19cm
225 2 # $a现代美军研究丛书
230 # # $a计算机数据
304 # # $a题名取自后台数据库
337 # # $a下载使用超星浏览器SSReader.exe
410 # 0 $120010 # $a现代美军研究丛书
606 # # $a空军$x概况$y美国
690 # # $aE712.54 $v3
701 # 0 $a 胡思远 $9hu si yuan $4著
701 # 0 $a戴金宇 $9dai jin yu $4著
801 # 0 $ aCN$b空军指挥学院图书馆$c20030222
856 4 # $ubook://ssreader/eO? url=http://d_lib.
kjzh.mtn/00/diskff/ff43/07/! 00001.
pdg&candownload = 1&downloadreg=
0&canprint=1&Pages=167&bookname=
现代美国空军
905 # # $a601 $dE714.52
4 结束语
军队院校图书馆联合书目中心成功地将MARC格式的书目信息链接到可访问的数字化图书,是军内电子信息资源自动编目的首例,为读者提供了尽可能快捷、方便的检索电子版图书的平台。目前该中心已经对国防大学图书馆、空军指挥学院图书馆的21万种(30万册)电子版书刊进行了编目、整合,耗费时间仅一周,比采用人工编目提高了千倍的工作效率。
联合书目中心下一步将收集所有军队院校图书馆的电子图书进行自动编目、整合处理,成为一个完整的全军院校联合书目中心和电子信息资源检索与浏览中心。
电子信息资源自动编目软件对全军院校各图书馆的数字化图书编目产生的MARC数据,除了可以整合到联合书目中心的书目库外,还可以(也应该)作为各馆的馆藏书目记录。