印刷型索引与数据库系统的比较研究,本文主要内容关键词为:索引论文,数据库系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
〔中图分类号〕G353.21;G354.43 〔文献标识码〕A
〔文章编号〕1005—8214(2000)01—0049—04
索引是二次文献,是根据研究课题的需要,对有关一次文献的外部特征或内容特征加以有序化而形成的。它与书目、文摘一样是用于检索的重要工具。《汉语大词典》将索引定义为:索引是“检寻图书资料的一种工具。将书中的内容或项目分类摘录,标明页数,按一定次序排列,附在一书之后,或单独编印成册,以便读者查阅。旧称通检或备检,也称引得。”[1]
索引产生很早。在西方,索引的历史可追溯到公元7、8世纪。“第一个专门索引是为《圣经》编制的。按照R.Busa的说法,可能在7、8世纪就出现了《圣经》的语词索引”。[2] “带索引的书籍大约出现于17世纪。在Speed的《大不列颠史》(1611)中, 有《本史主要事件字顺索引》。”[3]15世纪以后,索引迅速发展。19世纪以后,英国、美国、澳大利亚等国相继建立了索引机构,索引的理论和实践都向深度和广度发展。
在我国,明代人士张士佩编的《洪武正韵玉键》“被称为我国产生最早的严格意义上的索引”。[4]20世纪以来, 我国的索引受西方的影响,有了长足的进步,发展较快,并成立了索引机构——中国索引学会,专门研究索引的理论和编制实践。
索引按文献类型可分为图书索引、报纸索引、期刊索引等,按检索途径可分为语词索引、文句索引、关键词索引、人名索引、地名索引、书名索引、主题索引等。传统索引的形式有卡片式和书本式两种,而以书本式的为主。这两种都是写在或印在纸上供读者查检的,本文称之为印刷型索引。
数据库技术是计算机软件的一个重要分支,是随着计算机硬件、软件技术的发展以及计算机应用范围的拓宽,从60年代末的文件管理系统基础上产生、发展起来的。数据库系统是计算机硬件、操作系统、数据库管理系统以及在它支持下建立起来的数据库和应用程序组成的整体。数据库是贮存在计算机系统内的有结构的数据的集合,形象地说就是存储数据的“仓库”。数据库管理系统则是一组在操作系统支持下进行工作的大型软件。应用程序就是用户利用计算机程序设计语言和数据库管理系统提供的编程语言编写的命令程序。数据库系统的历史虽然不长,但由于它功能强大,发展非常迅速。数据库以文件的形式将数据保存在计算机的硬盘、软盘或光盘上。数据库中可以容纳很多资料,其中的资料可以直接查找,也可以先索引,实现在索引方式下的快速查询。因此,有人称数据库系统为机读索引,也有人称数据库系统为信息时代的索引。
笔者和王蓉贵先生曾为同一种文献——中国地方志中的宋代人物资料编制了印刷型索引《中国地方志宋代人物资料索引》(以下简称《方志索引》),已由四川辞书出版社出版,220万字,2700页,精装4册;同时又研制了《中国地方志宋代人物资料管理系统2.0 版》(以下简称《方志系统》),已由四川出版音像中心作为正式电子出版物出版, 2张软盘。这两种成果于1999年获得了“第二届四川省教育委员会科技进步、人文社会科学研究成果奖”一等奖。本文即以此为例对印刷型索引和数据库系统进行比较研究。
1 制作方法比较
1.1 相同点
1.1.1 文献收录
无论是编制印刷型索引还是建立数据库都要根据研究课题的需要确定收录文献的范围。编制《方志索引》、建立《方志系统》是为了给研究宋代文化的学者提供地方志中宋代人物的资料线索,以便利用地方志中的宝贵资料推动宋代文化研究的深入进行。为此, 我们收录了以下4部地方志丛书302种地方志:
(1)《宋元方志丛刊》,收地方志41种,中华书局1990年出版。
(2)《天一阁藏明代方志选刊》,收地方志107种,上海古籍书店60年代陆续出版,80年代又重印。
(3)《天一阁藏明代方志选刊续编》,收地方志109种,上海书店1990年出版。
(4)《日本藏中国罕见地方志丛刊》,收地方志45种, 书目文献出版社90年代陆续出版。
选录上述地方志的原因是:我国现存的地方志8千多种,以我们2人之力,不可能一次为这些地方志编出索引,只能有所选择,分批编制。《宋元方志丛刊》收入了现存宋元人编的全部地方志,其它3 部丛书也都是重要的地方志丛书。这4部丛书都是近年影印出版的,比较好找, 即使找不到这4部丛书,只要能找原版本地方志, 也可使用《方志索引》或《方志系统》。
1.1.2 文献标引
无论是编制印刷型索引还是建立数据库,都要在原文献上对需要索引的内容进行标引。文献标引是基础,漏标引或误标引都会直接影响查全率和查准率,因此一定要尽最大可能做好。为了确保质量,标引工作应由有关专业的专业人员来做。《方志索引》和《方志系统》需要标引地方志中宋代人物的姓名(包括字、小字、号、别号、绰号等别称)、籍贯、进士及第年、资料类别、方志名、卷、页、丛书名、丛书册数、丛书页码等。由于种种原因,原文献特别是古代文献可能存在错误。因此,对原文献不能简单照录,而应尽可能做考订工作。如果不纠正原文献错误,也会影响查全率和查准率。我们在标引时做了以下工作:
(1)用前后校的方法,改正原文献错误。 如:《嘉靖鲁山县志》卷5:“鲁弼,神宗元丰间令鲁山,有惠政,撰《桐柏庙记》。 ”考同书卷6“人物”类《张汲之传》述此事作“曾弼”,同书卷9“艺文”类《桐柏庙碑记》,署“元丰三年县令曾君弼撰。据此,“鲁”当为“曾”之误。标引为“曾弼”,加注说明:“曾,原作‘鲁’,据同书卷6 《张汲之传》、卷9《桐柏庙碑记》改。”
(2)运用版本校的方法,改正原文献错误。 如:《嘉靖汀州府志》卷21第25页著录清流县知县“主洽”,注:“开禧三年到任,后试词科。”查《嘉靖清流县志》卷4第5页“知县”类著录作“王洽”,注文相同,“主”显然为“王”之误。“主洽”改为“王洽”,并加注说明。
(3)运用版本校的方法,补充原文献的缺佚。 如:《宋元方志丛刊》中的《淳熙三山志》(明崇祯11年刻本)卷26“郑介”后脱38行,缺“林敷”至“陈安道”等30人,标引时据《四库全书》本《淳熙三山志》补入。
(4)了解古人避讳知识,补出避讳字。避讳字,原文献或缺笔,或作从某从某,或作某某嫌名、某某御名,标引时都应改为原名。有一些避讳字还需考证才能知道避的是什么字。如:《嘉定赤城志》卷33:“方[考庙旧讳]。”经考证,孝庙(宋孝宗)旧讳为“瑗”标引时即作“方瑗”。
(5)根据有关文史知识,改正原文献错误。 如:《正德南康府志》卷6,“洪师民”接排在(唐)“熊仁瞻”后, 按原书体例应为唐人。小传注:洪师民“熙宁初登进士,娶黄山谷女,生四子,俱有令望,号为‘四洪’。”熙宁为宋代年号,黄山谷即黄庭坚,宋人。据此,“洪师民”当为宋人。标引时作宋人处理。
此外,对同人异名、同名异人等问题都作了考订,并以注文的形式在索引中反映。认真进行了考订工作,索引就具有了学术价值。
1.2 不同点
1.2.1 印刷型索引的编制方法
编制印刷型索引的传统方法是抄卡片。标引结束后,将《方志索引》需要的内容:姓名(包括别称)、方志名、卷页、丛书名、丛书册数、丛书页码抄在卡片上,与原文献校对,再按索引项——姓名编码(如笔画码、拼音码、四角号码等),然后按编码顺序排比卡片,抄成书稿还得校对,然后交出版社。出版社审稿、排版、又得校对,然后交印刷厂印成正式出版的书。整个过程工作量大,出版周期长。其中编码、排序、排版、校对工作枯燥,费时费力,还很容易出错。叶圣陶先生在《十三经索引自序》中谈到编制《十三经索引》时,他、他的妻子和母亲、还有亲朋3人参加,“寒夜一灯,指僵若失;夏炎罢扇,汗湿衣衫, 顾皆为之弗倦。友人戏谓此家庭手工业也。”“历时一年有半而成书。[5]这是用传统方法编制索引的典型例子。
近年来,逐步采用计算机辅助方式编制索引,不用人工编码、排序,排版工作也基本由计算机做,大大减轻了劳动强度,缩短了出版周期。巴蜀书社1985年出版的、由刘志远女士编制的《现存宋人著述总录》书名索引和著者索引,就是利用“方正排版系统”和“中文索引编制系统”[6]完成的。《方志索引》也是利用这两个系统完成索引编制工作的。
1.2.2 数据库系统的建立方法
标引结束后,首先确定数据库的结构。数据库的结构根据索引本身的要求而定。《方志系统》的字段名有:姓名(包括别称)、籍贯、进士及第年、资料类别、方志名、卷页、丛书名、丛书册数、丛书页码。建立数据库以后, 将全部资料按要求输入数据库。 校对无误后, 用INDEX命令能很快建立索引文件, 马上就能实现在索引方式下的快速查询。省去了传统索引编码、排序、排版、印刷、装订等工作。
2 功能比较
2.1 印刷型索引的优点
(1)符合人们看书的习惯,眼睛比较舒服。千百年来, 人们已经习惯看印刷型的书籍。看印刷型的书籍,确实比看电子图书舒服。
(2)印刷型索引和原文献可以放在一处,查阅方便。 将《方志索引》和4部地方志丛书放在一处,从《方志索引》上查到线索, 在原地就可以查阅方志书,很方便。
(3)不依赖于计算机,停电也可以使用。
2.2 印刷型索引的缺点
(1)修改难。印成书之后如发现错误,要修改很难。 如发现个别错误,还可采用贴补的方法,一本一本地改,如错误较多,则成为不合格产品,全部报废。
(2)增加内容难。印成书之后如想再增加一批资料, 只有重编一次索引,工作量大,出版周期长,只能采用分批编制索引的方法。如我们下一步要编制的《中国省志宋代人物资料索引》,就只有单独成书,成为《方志索引》续编。这样,读者势必要同时查检这两部索引书。地方志很多,要分四五次编制,就要印成四五部索引书,为查一个人的资料,读者就得查四五次,很不方便。
(3)查检速度不如数据库快。收入的内容越多, 查检速度对比越明显。在《方志索引》中查检,只能按索引词顺序在4 册书中人工查找。《方志索引》编齐之后,册数必然更多,查检必然更慢。
(4)查询途径单一。印刷型索引只能从编过索引码的词条这一个途径查询。如《方志索引》就只能从人物姓名途径检索。
(5)查询方法单一。 如《方志索引》只能查姓名或从姓名前边部分开始查检,不能从姓名中间开始查检。
(6)体积大,保存不便。如《方志索引》2700页,精装4册,显然比二张软盘占的空间大得多,保存自然也就不方便。
(7)成本高。《方志索引》印在纸上,得付出纸张费、印刷费、 封面费、印工费、装订费,成本大大高于存储在软盘或光盘上。
(8)复制难。用复印机复印,成本高。要重印, 必须达到一定数量,否则印刷成本更高。
2.3 数据库系统的优点
(1)修改方便。如发现错误, 数据库中的任何数据可以随时修改。
(2)增加资料方便。数据库是开放式的,资料可以随时输入, 增加资料后可以马上重建索引文件,立刻实现新的索引查询。如《方志系统》将文献分批标引,分批输入,可以分别推出2.0、3.0等不同版本。一个数据库中可以存储10亿条记录,地方志中的宋代人物资料都可以存储在一个数据库里,查检时只需查一次,很方便。
(3)查询速度快。日本汉学博士池泽滋子来我校进修, 专门研究宋代大文学家苏轼,在《方志系统》中查找有关苏轼的资料,不到10秒钟,就从10万4千条资料中查出了有关苏轼的44条资料, 而用人工检索,至少得用几个月,还很难查全。
(4)最显著的优点是查询功能很强。如《方志系统》有4种查询方法:
A.按姓名查询(索引方式),输入完整的姓名(包括别称)或仅输入姓名(包括别称)前边部分的字都能实现快速查询。
B.按姓名查询(模糊方式),输入姓名及别称中的任何一个字都能查询。如你只记得要查的人名中有一个字是“石”,但记不清完整的姓名,你可以只输入一个“石”字,《方志系统》将为你查出姓名(包括别称)中有“石”字的全部人物,供你选择。
C.多途径查询。除了从姓名途径查询,还可以从其他途径查询。可以查询的途径有:姓名(包括字、号、小字、小名、绰号等)、籍贯、人物类别、进士及第年、方志名等。凡建立了字段名的,都可以查询。如从进士及第年途径查询,可以查出某年中进士的全部人物;从籍贯途径查检,可以查出某一籍贯的所有人物。这是《方志索引》不可能做到的。
D.组配查询。组配查询是动态查询,通过不同的组配,能查到不同的信息资料。这是数据库系统的显著优点,是任何印刷型索引都不可能做到的。读者可以根据研究需要从不同途径任意组合进行查询。例如将“籍贯”为四川(或河北等)和“人物类别”为进士(或僧、道等)组配进行查询,就可以得到籍贯为四川(或河北等)的中过进士(或为和尚、道士等)的人物的信息。
(5)查全率和查准率高。由于数据库系统查检途径多, 查检方法多,比手工查检印刷型索引的查全率和查准率都高得多。
(6)提供了机编索引的基础。 如《方志索引》就是选取《方志系统》的姓名(包括别称)、方志名、卷页、丛书名、丛书册数、丛书页码这6个字段,再运行“中文索引编制系统”完成编码、排序、 排版工作的。
(7)建立了数据库,能通过计算机网络实现高速传播, 为联网后的网上服务做好了准备。
(8)体积小、保存方便。《方志系统》只有2张软盘,保存方便,而装入的数据比《方志索引》4册书的数据还多。
(9)成本低。建立数据库不需要纸张,也就没有纸张、印工、 装订等费用,2张软盘的成本比4册书的成本当然低得多。
(10)复制容易。计算机复制文件非常简单、迅速,可以需要时才复制,需要多少复制多少。不象印刷型索引一次得印够一定数量。印多了造成积压,浪费资金;印少了,印刷成本高,又不能满足读者需要。
(11)输出方便。可以拷贝,也可以打印。拷贝可以全部拷贝,也可以有选择地拷贝。打印可以打印数据库中的全部记录,也可以有选择地打印部分记录;可以打印一个记录的全部字段,也可以打印一个记录的部分字段。
2.4 数据库系统的缺点
(1)没有计算机设备不能查询。没有便携式计算机, 查询也不方便。
(2)没有电不能查询。
(3)计算机与原文献不在一处时,查阅也不方便。
(4)在计算机屏幕上看资料,不如在印刷型索引上看资料舒服。
通过以上分析可以看出,印刷型索引和数据库系统各有优缺点。只要印刷型文献还存在,印刷型索引就会存在。我国现阶段以印刷型文献为主,因此,现阶段的索引仍以印刷型索引为主。从《方志索引》和《方志系统》的销售情况看,买《方志索引》的读者远远多于买《方志系统》的读者。也就是说,目前我国读者通过数据库的索引功能来查询地方志中宋代人物资料的还不多。这和计算机特别是便携式计算机没有普及有很大关系。下一步,《方志系统》收入的文献将成批增加,逐步推出3.0、4.0、5.0版,而《方志索引》只能出版续编、三编、四编,使用将很不方便。我们相信,随着计算机特别是便携式计算机的普及,使用《方志系统》的读者一定会大大多于使用《方志索引》的读者。
数据库系统的功能比印刷型索引的功能广泛得多,有强大的生命力。随着计算机技术、网络技术和数字化技术的发展,随着电子文献的增加,传统图书馆正在向电子图书馆、虚拟图书馆和数字图书馆发展,数据库系统必然成为发展方向。
〔收稿日期〕1999-10-28(修订稿)
标签:宋元方志丛刊论文;