中国家谱上网现状与思考,本文主要内容关键词为:家谱论文,中国论文,现状论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
作为仅次于正史与方志的家谱,是一种珍贵的历史文献,也是中华民族历史文化遗产的重要组成部分。在因特网如日中天的今天,古老的家谱如何利用各种先进技术,以崭新的服务形式,为学者们研究与利用提供方便,为海外华人寻根问祖提供便利,是本文所要探讨的主要内容。
1 网上中国家谱的概况与特色
从各类搜索引擎中,我们可查询到目前网上的中国家谱信息大致有三种类型:一是家谱目录、二是家谱全文、三是家谱动态、消息等信息介绍。本文主要对前两种类型的网上家谱作一分析与比较。
1.1 网上家谱目录
网上中国家谱目录的代表是山西省社会科学院家谱资料研究中心的“龙根丰埠”站点(www.look4r.com)。 它也是目前唯一的一个中国家谱目录网站。在该站点的“中华家谱目录”栏目中,提供了一个近98个姓氏的一览表,通过该表读者可以方便地浏览到该家谱资料研究中心收藏的某一姓氏的所有的家谱文献的情况。
由于“龙根丰埠”所提供的目录查询方法只有浏览一种方式,无任何检索功能,所以给读者准确查找到所需的家谱资料带来了诸多不便。读者只能通过浏览某一姓氏下的所有家谱目录,方可知晓该中心是否收藏自己要找的家谱,而不能从纂修人、主修人、编纂人等其它途径,或者姓氏和纂修年代、姓氏和地名等组合途径直接查找到所需资料。另外,该目录是该机构编撰的《中国家谱目录》的Web版, 只是载体发生变化,由纸张变成了磁盘,因此受到了原有的书本式目录内容的限制,反映的是简要的书目信息,而不是详细的书目信息。
1.2 网上家谱全文
目前在国内对全文的处理方法有二种:一是图像全文方式,一是字符全文方式。图像全文方式就是对原文进行扫描。这种方式的最大优点可以最大限度地保留原文的风貌,但用户不能对扫描处理后上网的图像文件中显示出来的内容进行检索。字符全文方式是真正意义上的全文,是从一种介质(纸张)转换到另一种介质(磁盘)时经过再加工生成的字符型电子文件,用户借助于检索工具可对它进行检索。
目前,具有规模的网上中国家谱全文的站点几乎没有,有的也仅仅是以个人形式反映其家族族谱的几个网站,因此采用的均是字符全文的方式。其中比较有代表性的大约四个,分别为《范氏族谱》(www.btv—comutime.com/fan/)、《竹头角陈氏家谱》(www.hello.com.tw/~lilych/)、《萧氏(书山)族谱》(www.daxing.com.tw/~xja/)、范阳堂简姓宗亲会(www.taconet.com.tw/sdchin)。表1是根据中国家谱编纂体例中的几个主要方面,对这四个家谱全文网站作出的一个全文上网的情况调查。
《范氏族谱》 《竹头角《萧氏(书 范阳堂简
陈氏家谱》
山)族谱》姓宗亲会
目录 全部上网无无 无
谱序、列 部分上网无无 无
传记 部分上网 部分上网 部分上网部分上网
行传 全部上网 部分上网 全部上网 无
世系表
上网 上网上网 上网
族规、家规 无无
部分上网 无
人口迁移
无无
部分上岗
部分上网
检索功能
无无 有(未开通) 无
表1
从该表中可以看出,只有《范氏族谱》站点将该家谱目录全文上网、谱序、引部分上网,其它站点均未将其家谱目录或谱序、引上网。因此,读者可从网上的《范氏族谱》了解到该家谱的全貌、该家谱编纂的体系结构及其所述内容的栏目,有一种完整家谱上网的感觉,而无法从《竹头角陈氏家谱》、《萧氏(书山)族谱》、《范阳堂简姓族谱》站点上对原谱有一个概貌性的了解。
从该表中可以看到,四个站点中全部上网的栏目只有世系表一个,可见世系表在家谱中的重要性。虽然它们都将其世系表上了网,但在世系表的表现形式,内容揭示的深度上不尽相同。《范氏族谱》、《竹头角陈氏家谱》和《萧氏(书山)族谱》的网上世系表的都是一个平铺表,而且不能通过该世系表深入了解某一人的生平简历(如字、号、生、死、配偶、子女等)。不过《竹头角陈氏家谱》在“追源寻根”的栏目中反映了该族部分人物的生平简历;而范阳堂简姓的网上世系表是一个接近于树状的表,但通过该表还可以直接浏览到某一人的生平简历。
另外,除范阳堂简姓网站之外,其它三个网站都将该族可资崇仰的先辈的传略都部分上网,辈行全部或部分上网。范阳堂简姓和《萧氏(书山)族谱》网站使用原文扫描后的图片加以反映该族迁移情况。
纵观已有的网上家谱资源,由于查询方法单一,只提供浏览,无检索功能,或者是资源的单一,仅局限于一种家谱,还没有出现一个真正的网上中国家谱目录数据库、网上中国家谱全文数据库。
2 中国家谱上网的设想
自1997年底上海图书馆开始整理家谱以来,一直有建立馆藏家谱机读目录数据库的设想,随着《上海图书馆馆藏家谱提要》的临近出版,馆藏家谱机读目录数据库的建设即将实质性启动,作为反映上图收藏特色的家谱,其数字化工作已列入上图“数字图书馆计划”,成为其中的一个重要组成部分。并已逐步形成了一些总体开发的思路或是目标:即建立网上的馆藏家谱机读目录数据库、建立网上的全国家谱联合目录数据库、建立网上的馆藏家谱全文数据库、建立网上的家谱人名信息数据库,使上海图书馆成为中国家谱的资源中心、研究中心以及海内外同胞寻根问祖的首选站点。
2.1 馆藏家谱提要目录上网
馆藏家谱目录上网需考虑通用性,因此著录内容应详尽,包括题名、责任者、出版年、出版者、版本、册数、提要、地名、馆藏索取号等,并采用CNMARC格式。当然,家谱目录采用CNMARC格式,会遇到很多问题和困难,需要未雨绸缪,并在实践中逐一研究解决,但这一方向不能动摇。
在该数据库提供的检索功能方面,首先应考虑选用尽可能多的检索点。家谱文献检索点的选取应与其它普通文献不同,仅以普通文献的题名、责任者、出版者等常规检索点,作为家谱文献的检索点是不够的。根据手工检索的经验,在家谱文献中责任者、出版者不是很重要的检索点,应根据家谱中姓氏、谱籍的重要性,除题名外还应加上姓氏、谱籍(地名)等检索点。另外,提要项也是非常重要的一项。如《上海图书馆馆藏家谱目录》的提要项中指明该姓氏的始祖名、祖居地、现居地、堂号名、迁徙时间、有无谱序、传记、家法族规等重要信息,因此提要也应作为一个必备的可检索的字段。其次该系统应提供关键词和浏览二种检索方式。关键词方式的查询就是任意词查找。如果想从祖居地和现居地方面来查找家谱的话,可选用提要关键词这种检索途径来查找。浏览方式的查询就是按栏目查看,可按姓氏等栏目来查看所有该栏目下的家谱目录。
数据库在网上发布形式或内容显示方面,宜采用目前国内外多数网上书目数据库通用的做法,即分层显示。当有多个命中家谱书目记录时,应先给读者展示一个题名或题名加年代的一个命中清单,然后通过这个命中清单再显示出某个书目记录的详细内容。
2.2 建立全国家谱联合目录
众所周知,建立联合目录的主要目的是为了让读者更方便地了解文献的收藏情况,能更快捷地查找到其所需的文献资料。目前图情界用来建立联合目录的方法大致有二种,一种是集中式的联合目录,另一种是分布式的联合目录。
集中式联合目录的特点是必须要有一个联合编目的中心,有一个联合目录的数据库,而且这个高容量的数据库必须有一个或多个高性能的服务器来支撑它,并在物理上是唯一的。这种方法的好处是高度集中化、便于管理,但缺点是对用于管理数据库的服务器以及用于存贮数据库的磁盘阵列性能要求比较高,费用较大;投资比较集中,一旦服务器或磁盘发生故障,可能导致整个系统瘫痪,风险较大;由于各收藏单位本身都已建立了书目数据库,造成重复投资,没有最大限度地利用资源;读者必须熟知这个联合目录数据库系统的检索语法、规则才能使用该系统。
分布式的联合目录是在充分利用各收藏单位已建立的书目数据库的基础上,采用先进的网络信息检索协议Z39.50,将分布于不同地区、构筑于不同计算机平台的多个不同的书目数据库连接起来而建立的一个联合目录。它的优点是各个数据库在物理上是独立的,投资比较分散,不会因为某一服务器或磁盘故障造成整个联合目录系统的崩溃,风险较小;每个目录数据库系统均保留原有的界面、原有的功能,最大程度地保护了原有的资源,经济实用;更无需读者具备或掌握远程系统检索语法、规则等相关知识,只需使用其本身所熟知的一个计算机系统的界面来检索基于不同软硬件平台的远程书目数据库系统的信息资源。
通过比较可以说分布式虚拟联合目录的优势是不言而喻的,因此全国家谱联合目录是一个基于Z39.50的分布式虚拟的全国家谱联合目录数据库。
2.3 家谱全文上网
在网络四通八达、飞速发展的今天,人们已不满足于书目信息及其它二次文献的查找,也就是说不满足于查到在何处有自己需要的东西,而是希望能够直接通过网络查找到原始文献,浏览到原始文献。正因为这种大量迫切的社会化需求,使得以面向原始文献为核心的数字图书馆技术蓬勃发展,家谱全文上网应该成为我国数字化图书馆的重要内容。
对收藏家谱量多、品种全、时间跨度大的馆,在家谱全文数字化时宜采用扫描方法,以图像全文的形式上网,而不宜采用字符全文方式。虽然字符全文可对文献中的任意词作检索,是一种真正意义上的全文数字化, 但对上至宋朝下至民国的各种版本的馆藏家谱进行字符识别(OCR)的可能性几乎微乎其微。若采用人工输入, 则需大量的输入人员,而且还需进行古汉语、繁体字等方面的专业培训,投入大、成本高、收效慢,更重要的是由于历代家谱的编纂体例不同,结构复杂,难以用统一的规范结构来加以描述。而图像全文方式则处理简单,成效快,可保留原文的原貌,并且还可用深加工的目录与图像全文相结合的方式来提供服务。
在实施馆藏家谱数字化的过程中,还需有重点、有步骤、分批分阶段地实施。先期的投入重点应放在质量高的重要家谱,或是名人家谱上。同样在对这些重要家谱、名人家谱数字化过程中,也应有重点、有选择地进行全文扫描。根据家谱特殊的纂修体例,初步选定对家谱的目录、谱序、人物传记、家法族规、图像等部分作全文扫描。由于目录是全面反映该谱所揭示的内容,宜全部全文扫描,对于谱序、人物传记、图像部分应选择重要部分扫描,重要部分上网。
2.4 家谱人名数据库上网
从表2著录的家谱目录上我们看到, 每一种家谱几乎有三分之二以上的篇幅都是记载世系关系的,因此世系图录是家谱中最重要的组成部分,也是其核心所在。它对海内外炎黄子孙寻根归宗有着特殊的价值,人们通过世系表才可以追溯姓氏渊源、拷问生命起始、探索家族演变和记录传承脉胳。面对这份文化遗产,我们如何使用新手段和新方法将家谱的世系关系层层清晰展现出来,同时方便地供人们查找,是摆在我们面前的一个新课题。
纵观各种家谱的世系表,可以发现每个世系表都是一棵树的结构,而且对树上每个节点的描述的内容基本相同,只有详简之分,但在家谱上展现世系表或展现这棵树时,形式却是多种多样,相差甚远,最根本的弱点在于所有家谱均无人名索引,无法检索。因此,世系表不适合采用原文扫描的方法。如果以每棵树上每个节点作为对象来考虑的话,借助于支持对象的数据库可以很方便地建立对象与对象之间的层次关系,建立索引,提供检索,因此以建立家谱人名数据库来反映世系表较为合适。
面对浩瀚的世系图表,我们在建立家谱人名数据库时也应有计划、有步骤、有重点地予以实施。无庸置疑,首先应建立重要家谱、名人家谱的人名数据库。根据大多数世系表或树上每个节点的内容,在数据库中每一个对象的特征信息要包括字、号、出生年代、出生地、死亡年代、墓葬地、父母姓名、婚姻状况(婚姻次数、配偶姓氏、出生年代、出生地、死亡年代、墓葬地)、子女姓名等。
在检索功能方面,应具备姓名、字、号、地名等关键词检索途径,也应提供按姓氏的浏览检索途径。在内容显示方面,查找到某一对象后,应有层次地显示出该对象的上一代信息(父母姓名)、本人信息以及下一代信息(子女姓名),并提供对其父、其子的链接查询。
以上是笔者结合工作实际对中国家谱上网的一些设想。笔者认为,在具体实施过程中应以建立网上馆藏家谱机读目录数据库为抓手,同时推进网上馆藏家谱全文数据库的建设,在此基础上适时建立全国家谱联合目录数据库,最终建成网上家谱人名信息数据库。
收稿日期:1999—11—19