古籍数字化对学术科学的影响及发展方向_数字化时代论文

古籍数字化对学术科学的影响及发展方向_数字化时代论文

古籍数字化对学术的影响及其发展方向,本文主要内容关键词为:古籍论文,发展方向论文,学术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

数字化古籍对历史学、古典文学研究等学科所带来的便利,已是有目共睹的事实,《四部丛刊》、《四库全书》几乎已经成为文史研究者电脑中的必备工具。正是看到古籍数字化的美好前景,部分科研机构、高等院校、商业公司纷纷投入巨资,对上起先秦,下迄清末的各类古籍著作予以数字化处理。但是,以笔者有限的见闻,特别适合学者使用、对学科发展有重要影响的特色数据库尚不多见。同时,有关古籍数字化的理论探索相对比较滞后,在选题设置、数字化对象、处理方式、元数据标准等方面,有理论深度的探索尚不多见,实际运作中选题重复、资源浪费、效率低下等问题则时有所闻。一方面,几乎所有学者,都认为数字化的电子版古籍很有用处,每有新的电子版古籍问世,都会迅速占领众多学者们的硬盘;另一方面,则鲜有从事历史学和古代文学研究的学者投身于此,与IT专家一道共同规划、推动古籍数字化进程。这种状况极大地制约了古籍数字化的良性发展。总结近年来古籍数字化的经验教训,考察古籍数字化对相关学科学术发展的影响,探索新技术条件下古籍数字化的特点和运作方式,推动古籍数字化与文史学科发展的紧密联系,是摆在IT业者和文史工作者面前的重要课题。笔者不揣谫陋,愿对其中的一两个小问题稍加疏解,以抛砖引玉,望学界专家有以教之。

一、古籍数字化对学术研究的影响

毫无疑问,对广大文史科研、教学工作者而言,古籍数字化进程越快,就越对科研和教学工作有利。但是,古籍数字化究竟对学术研究有何推动作用?这种作用是仅仅停留在工具层面还是能够渗透历史学和古典文学研究内部?它是在较浅层面上促使学科发生某种表层性的变化?还是在较深层面上对这类历史悠久的传统学科予以根本性的改造?这是每一名当代文史研究工作者不能回避的问题。笔者以为,回避或漠视古籍数字化对文史研究的深刻影响,将不可避免地导致研究水准的落后,这种落后不仅源于研究手段的不能与时俱进,更因为古籍数字化对文史研究这一传统学科的深层介入,使得学科的发展呈现出此前不具有的若干新特点,不能适应这种变化的学术研究必然落后于时代的要求。

笔者以为,古籍数字化对文史工作者至少有下列影响:

1.改变了学者查阅图书的方式。学者可以用移动硬盘或类似的便携式储存器随身携带着一个中型图书馆。甚至可以预期,随着无线网络的发达和国际通用信用卡的普及,学者们可以随时随地查阅互联网上丰富的资源和世界各大图书馆的藏书。有论者以为,爱好网络的人无非是把网上的东西剪剪贴贴,拼凑些他人的文字,攒些没有创意的文章。这样的批评不能说完全没有道理,学术界也确有这样的人存在。网络中各类资源的质量良莠不齐,垃圾信息也随处可见,这些都毋庸讳言。问题在于,以抄袭、拼凑他人文章为能事的行为并非网络本身的缺陷,抄袭、剽窃行为在网络产生之前就大量存在。互联网的出现不过使这种行为实施起来更便利而已。行为主体是人,不能归咎于网络。同样不容忽视的是,伴随可远程访问数据库的不断增加,高质量的学术信息和数字化图书也在迅速增加。各国数字图书馆、虚拟博物馆的建设如火如荼。这些储藏在不同国家、不同地域的宝贵资源在过去由于距离、费用等方面的因素,普通学者往往可望而不可即。现在只要有通行的支付手段,则可以通过网络随时获取。

这样的阅读方式,无论是对自然科学工作者抑或人文社会科学工作者而言,都具有划时代的意义,文史研究者自亦不能例外。而眼界的极大开阔必然带来学术研究方法和研究范式的进步,进而推动科学研究的发展,这是不容置疑的。

2.古籍数字化可以帮助学者排除冗余信息的干扰,更快地深入研究对象和研究资料的内部。由于时间、精力、藏书等方面的局限,一个人的阅读能力和阅读范围都是相当有限的。杜甫所言“读书破万卷,下笔如有神”所以能成为历代文学家的楷模,是因为对古人而言,由于图书流通、借阅的不便,家境贫寒,极少私人藏书的读书人,很难读到大量的图书。而少数具有阅读便利的读书人,由于时间和精力的局限,一般也只能阅读某一个领域的图书较多,精通经、史、子、集、天文、历算等学科的通才毕竟极少。所谓读尽天下书再做学问在古今中外都只能是一个永远实现不了的梦想。印刷技术的日新月异,现代学术的快速发展,学科分类愈趋细密,使得知识和信息呈现爆炸性增长态势。对于从事传统文史研究的学者而言,一方面要面对浩如烟海的古籍,一方面要关注当下本学科领域层出不穷的研究成果,需要阅读的范围之大较古人而言有过之而无不及。即使只是研究某一个历史人物或某个作家,也需要研究其所在朝代的文化背景、交游、诗文唱和、历史事件对人物活动的影响等方面的内容,其背后所涉及的文献仍然相当庞大。按照传统的阅读方法查找对该领域有价值的信息,必然是事倍功半,而且可能遗漏重要的学术资料和信息。

古籍数字化的巨大优越性在于,可以使学者方便地排除冗余信息对研究对象的干扰。借助便捷的检索技术,学者们可以在最短的时间内找到所需要的信息,而无需因阅读那些与研究课题无关的书籍而浪费大量时间和精力。比如,一个研究杜甫的学者,必须对唐朝以来数目庞大的总集、别集、选本、诗话、词话、笔记等文献中有关杜甫的研究资料有比较清晰的了解和研究,才可能在前人相关研究成果的基础上把杜甫研究向前推进一步。而面对千余年来该领域里的大量文献,如何寻找最有价值的那部分文献,却并不是一个简单的工作。诚然,古往今来都有十分博学的学者对自己研究领域的各种资料、成果如数家珍,也有学者通过长年积累,编纂了某某研究资料汇编这样的著述,如傅璇琮先生的《黄庭坚和江西诗派卷》、陈友琴先生的《白居易卷》等,为后人的研究提供了很大便利。但是,限于人力阅读范围的局限,这些资料汇编总是不完全的。事实上,几乎任何一位学者都难以完全掌握自己研究领域的所有学术资料。这并非哪个学者的见闻不广或才智不足,而是面对具有悠久文明历史的中华民族所遗留下来的浩如烟海的文献,查找特定领域的全部资料,殊非人力所能胜任。即使只在一个比较小范围内查阅所需文献,比如在宋代以来的诗话中查询前人有关杜甫的评论资料,也不能排除会遇到通读一部诗话,却未能发现一句有关杜甫评论的资料这种可能性。不能说这样的读书方式没有价值,但在非常讲究时间和效率的今天,花费大量时间却没有找到直接的研究资料,无论如何是效率低下的一种表现。

伴随数字化古籍的日趋普及和数字化程度的提高,在不远的将来大部分有价值古籍都能有数字化版本已经不是梦想。而这一趋势的发展,将使上述学者们所遭遇的难题自然迎刃而解。学者们可以在像电子版《四库全书》这样的大容量数据库中迅速地查询到对自己的学术研究有价值的信息,而略去对研究课题关联不大的资料。在计算机快速定位的帮助下下,辅以必要的人工阅读,不仅可以省却翻检之劳,而且可以保证绝无遗漏。以前从未被人提及的学术资料有可能在计算机的协助下重见天日,并被赋予极其重要的意义。这使得文史研究工作者的视野因此而得到极大的扩展,学术研究的缜密性和科学性得到大幅提高,其对学术研究的推动是不言而喻的。

3.借助于计算机的桌面查询和远程检索技术,古籍数字化可能在研究方法上影响学科的发展。在现代学术研究体系中,随着学者队伍的不断壮大,学者知识结构的不断更新,学术发展朝着更趋科学、规范、精密的方向发展。学术的发展和成熟要求学者们不再就某种现象或某个历史人物,某个作家或某一部文学作品进行简单分析,而是尽可能穷尽该领域所有知识和信息,从总体上把握历史发展的规律,并做出精确的阐释。即使对文史研究这样的人文色彩最浓厚的学科而言,数理分析、统计运算、绘图制表等方法也被经常应用。这就使得以往学者靠传统方法难以涉足的课题有了解决的可能,比如对于古籍中文学作品署名的错乱问题,虽然自古及今,不断有博学多识的学者指出某某作品张冠李戴,某某作品又见于某某人之文集、诗集,但是,如果若要探讨一代或数代之中,文学作品的作者被错置的总数、或频率,则单靠人力的辨识几乎是不可能的。借助于数字化古籍和计算机强大的运算和识别能力,则能够轻易排列出古今文学作品的作者被误置的个案、总数、误置频率、误置类型。而这个问题的解决,对于深入研究古代文学作品的传播、刊刻,对于重新编订古人的文集或某代文献总集显然大有裨益。同时,传统研究方法也可能在古籍数字化的基础上得到根本性的改造或功能性的提升。例如,在研究作家的影响时,笼统地谈论某某诗人、小说家对后世的影响如何深远已经难以符合现代学术深入阐述历史真实的需要。而利用数字化古籍资源,则可以比较容易地统计出后人的文学选本、著述、创作中收录或引用该作家作品的次数和频率,甚至排列出后人在字词、句法、韵律、意象等方面受前代作家作品影响的具体表现。这些举证当然在学术研究中更具说服力,也更符合现代学术规范的要求。

4.在古籍数字化基础上制作的数据库将对某些学科的发展产生极为深远的影响。例如,对版本学和目录学的重视是文史研究中的重要传统,正史中的艺文志、经籍志历来是文史研究者入门必读书目。这样的传统虽然现在不能说已经遗失,但在网络极为发达的今天,文史研究中的这些基础学科本身却也在发生很大的发展和变异。按时代或按类别编纂的目录学、文献学书籍的重要性将会有所降低。因为在网络数据库中检索这些文献目录不仅更加便捷,而且可以发现那些随时添加的最新内容,而传统出版物的修订再版是一个相对漫长的过程。一些索引类的工具书也曾经是文史研究者的必备工具。然而,伴随古籍文献的数字化进程,为古籍编纂索引已经失去了原来的意义,既然数字化的古籍文献本身已经具备全文检索功能,谁还需要查看目录索引呢!比如过去哈佛燕京学社编纂过《庄子引得》,而现在随便将《庄子》中的任何词语在网上搜索一下,都可以找到其精确位置,谁还需要那本《庄子引得》?尽管熟悉数据库和软件开发的业界人士近年来也利用计算机技术相继制作了一些更科学严密的古籍文献索引,但其读者对象恐怕主要是那些尚未掌握计算机应用,或者被索引的对象尚未有电子版。而随着文献数字化进程的加快和学者年龄及知识结构构成的变革,传统文献索引这样的学科工具必将结束其历史使命。

又比如,为古籍作笺注这样的工作以后恐怕主要会由计算机完成,而由学者笺注古籍的历史将不会再延续。笺注的宗旨和主要手段主要是告诉读者一些冷僻字词、语汇、典故的出处、前人的相关用法等等。自汉代以来,学识广博、治学严谨的学者曾经笺注过大批古籍文献,质量很高,对后人正确理解那些佶屈聱牙的古典文献厥功甚伟。在目前阶段和未来的一段时期内,电脑还不可能完全替代人脑,严谨学者的笺注还会有很多电脑不及之处。但同时我们也应该看到,计算机强大的检索查询能力非任何博学通识的学者所能望其项背。如果辅之以齐备的典故、语词库,利用计算机快速、优质地笺注古籍完全是可行的。目前,唐以前的文献基本上都已经有数字化版本,《全唐诗》有数个数字化版本,《全唐文》的电子版有关单位正在制作中,其问世可说是指日可待。所以,对于出处在宋代之前的典故、词语等的笺注,计算机的能力毋庸置疑。就注释的科学性和准确性而言,计算机与学者相比较,可以说各有所长。而随着计算机人工智能的不断增长,随着文史研究学者更广泛而深入地参与到软件和数据库程序的设计中,为古籍作笺注这样的工作必将成为计算机的专利。

除了这些表层的,比较明显的影响之外,古籍数字化对从事历史学、古代文学、汉语言学等学科的学者而言,尚有很多深层的,同时也更具价值的隐性影响。例如,古籍的数字化显然有助于学者眼界的扩大。而眼界的扩大和研究视角的转换对学术研究的意义是不言而喻的。这正如我们进入一个开架图书馆或阅览室,本来是想阅读某种特定书籍,结果却意外地发现这书的周边放置着若干同类、有价值的、此前从未听说过的书籍。伴随古籍数字化的深入和普及,网络数据库标准化程度的加强,以及数据共享程度的提高,数字化古籍由于其便利的可检索功能,在查询某种书籍或关键词时,连带出现一系列有价值的其他信息便会成为司空见惯的事。也就是说,我们在从事某个专题研究时,不仅能够通过查询、检索技术穷尽该领域内的所有资源,而且由于网络资源的丰富性和信息以几何级增长的特性,使得学者们比以往任何时候都更容易地发现大量有价值的、富有启发性的相关信息,这使得学者的眼界将比以往任何时候都更易于得到拓展。学者眼界的扩大、学术视野的拓展、网络数据库群的广泛应用,毫无疑问将极大地推动学术研究水准的提高。举个不太妥帖的类比,数字化古籍的广泛应用就像互联网上同时调动若干台计算机并行运算,其强大的运算能力远非一台计算机所可比拟。当古籍数字化进程进一步加快,网络上提供了足够多可以共享的数字化资源时,其对学术研究具有重要的推动作用便绝非凭空臆测。

古籍数字化另一个尚未引起学界人士注意的结果是极大地推动了更多非专业人士参与到学术研究中来,而这种局面的形成不仅使得学术研究队伍中增添了新的血液,推动了专业学术研究与民间文化的相互推动,而且对传统文化的发扬光大和走向世界都有不可估量的意义。众所周知,出于古籍保护和部门利益等方面的原因,一般图书馆都对自己收藏的善本古籍视若珍宝,藏之密室。只有极少数专家学者可以目睹其真正面目,甚至多数专业研究者也只能读到其缩微胶卷。而数字技术彻底打破了信息存储与传播的瓶颈,全息成像技术和高分辨率数码照片可以真实、清晰甚至立体地再现实物的原貌。这使得那些藏于密室的宋刻明椠可以通过数字技术为广大专业人士和非专业人士提供阅览、复制的便利。少数专家和部门垄断资料的时代不复存在,关心、爱护并对传统文化研究感兴趣的非专业人士完全可以通过数字化古籍阅览原来那些难以企及的珍贵资料。电子版《四库全书》、《四部丛刊》不仅掌握在专业学者手中,也安装在很多文史爱好者的硬盘里。网络上草根红学为什么如此兴盛,除了《红楼梦》本身具有的超越时代的影响力之外,通过网络交换数字化学术资料包括《红楼梦》稀有版本资料的便利显然也是重要因素。尽管草根红学离真正意义上的学术研究尚有一定的差距,但不可否认,广大民间人士的热心参与对于推动红学的复苏和良性发展是有积极意义的。

数字化信息和网络为现代学术发展带来的便利当然在其他学科也都存在,但在传统文史研究方面表现得更加突出,换言之,在一定意义上而言,传统文史研究是信息化程度提高的最大受益者之一。比如,社会学、国际关系研究方面的学者很少会想到历史学、古代文学研究方面的学者需要整天在图书馆里阅读,这是由于他们需要的书籍大都可以在图书馆里借到或复制出来,而文史专家所看的善本却不能离开阅览室。所以,一旦那些宋刻明椠能够在自己的电脑里或通过网络检索并阅读,其对相关领域学者们的意义就不言而喻了。

二、古籍数字化的发展方向

数字化古籍既有如此之多的优势,大力推动古籍数字化显然符合学科发展的要求,也是大势所趋。除了有利于推动学术研究的良性发展之外,在加强文化遗产保护尤其是保存古籍善本方面也有着光明的前景和难以替代的功能。据有关专家测算,善本古籍每经人工翻阅一次,其寿命就要缩短30年左右。而由于技术方面的限制,以往保护古籍、减少阅读破损的方法便是拍成缩微胶卷。这种方式诚然对古籍善本的保护有重大贡献,也在一定程度上加大了古籍善本传播的范围,但其缺陷也是有目共睹的。尤其是遇到那些抄写或刻印质量较低的书籍制成的胶卷时,往往由于字迹模糊而望书(胶卷)兴叹。而在大屏幕显示器上阅读高分辨率数码照片便不存在这样的问题。古籍数字化的处理方式有多种,数据格式也异样不一,即使是把用数码照片这样最简单方式处理的古籍善本页面通过网络供学者随时调阅,也大大节约了社会成本和学者的时间和精力,既有利于保护古籍,也有利于使这些难得一见的稀世珍品得到广泛传播。所以,古籍数字化是古籍再生性保护的重要手段,与传统以古籍修复为主的延缓性保护法相辅相成,较好地解决了古籍保护与阅读使用之间的矛盾,极大提高了工作效率和读者的资源利用率。

将纸质书籍文本通过扫描、识别转换成数字文本,并通过技术手段装入数据库中,这样的古籍数字化当然又比单纯提供图片阅览前进一步。但如果仅是这样而跬步不前,则仍有很大的局限性。学者们在检索到某个词语后还要去核实纸质文本才敢在自己的著作中征引。而且学者难以从这些数字文本中获得更多有价值的其他信息,如版本异同、句读、僻典注释、人名地名的标引等。笔者以为,未来的古籍数字化建设应在数据库技术的强化和汲取传统古籍整理的精华两个方面都能够有所建树,具体而言,应在以下几个方面有所拓展:

1.逐步建立并规范古籍数字化的元数据标准。元数据用来定义存储在数据库中数据形式的数据,其最抽象的定义为data about data(关于数据的数据)。元数据在不同的领域有不同的定义和应用,在图书馆和信息界被定义为:提供关于信息资源或数据的一种关于结构化的数据,其功能为描述数据本身之特征或属性,用以规定信息的组织结构,便于对数据进行标准化处理,也为与其他信息系统的对接和共享数据提供必要的接口。就IT技术在各行业中的广泛应用而言,古籍整理和古籍数字化属于比较特殊的种类,规模相对较小,还不足以引起IT业者的广泛重视并制订相关标准。所以,从事古籍整理和古籍数字化的人士必须主动与IT领域联合起来,共同磋商古籍数字化的元数据标准问题。这个标准可能涉及多方面的问题,据笔者初步考虑,至少应在以下几个方面达成统一的标准:①版本信息,包括版本类型、年代、版式、字体、刊刻地点、刻工姓名等,便于用户在使用这些数字化成果时可以对数据源的版本信息有所了解,并放心使用。②收藏信息,包括该文献收藏于哪个或哪些图书馆。这是因为对普通读者而言,数字化版本提供的信息已经足够,但对于少数从事版本学研究的读者而言,仍需到相关的图书馆查看实物,因此在数据库中提供收藏信息并非画蛇添足。③作者信息,数据库中所收古籍文献均为历代先贤遗留下来的文化遗产,因此一个制作严谨规范的古籍数据库应该对其中的作者进行严格的辨析并提供相应信息,包括作者姓名、朝代、生卒年、籍贯、著述等。④作品信息,为便于读者利用数据库提供的统计、分析功能,必须事先对所收作品的各种信息进行符合规范的标准化处理,包括作品的作者、体裁、创作年代、字数等。由于中国文化源远流长,文献著录中同名同姓、佚名甚或张冠李戴者不胜枚举,为严格学术规范,对于同一篇作品收录于不同作家文集的情况尤其需要详细辨析并在数据库设专门字段予以标注。

2.制订适合古籍整理和古籍数字化的文档格式和图片格式。出于保护各自产权的需要,有关机构和公司在从事古籍数字化时往往自行开发数据系统并制订相应的文件格式。目前比较流行的即有纯文本(txt)、超文本(html)、便携式文档(PDF)、电子书e-book(CEB)、超星图书(PDG)等,名目繁多,不一而足。这对保护开发者的权益固然不无裨益,但对于数据的共享而言绝对是一极大的障碍。尽管如此,但在可预见的一个时期内,统一文档格式的期望仍是不现实的。在较短时期内,唯一可期望实现的目标是相关开发公司在开发这类系统时能够考虑并兼容其他文档格式,例如方正德赛古籍数字化系统方案中即可便捷地导入DOC、PDF、CEB等格式的文件。从古籍数字化的长远目标而言,业界主要机构则应联合起来,制订出统一的文件存储格式。这种格式既要适合汉字尤其是繁体字的存储,又能具备足够强大的加密功能,以保护各自的知识产权。同时为保证数字化古籍的科学、严谨、规范,这种文档格式还应该能够方便地进行汉语拼音标注和人名地名标记。另外,这种文档格式应特别应该有利于进行全文检索。对大多数用户而言,使用电子文本的最大优越性在于能够快速检索,不能进行全文检索的数据库很难形成较大的用户群,注定是没有前途的。在实现全文检索这一功能时,应该能够对检索出的字词予以凸显或标记。这都对文档格式的性质和功能以及数据库系统提出了较高的要求。

同样不能忽视的是,尽管数字化古籍的使用者最看重其检索功能,但学者们最相信自己的眼睛也是人之常情。所以,数字化古籍管理系统除提供文本的检索之外,如能配备原始图片作为参照,则无疑是锦上添花,更增加了该数据库的科学性和可信赖性。而如何规定图片格式,便成为需要研究的另一个重要问题。图形图像处理是计算机科学中发展比较成熟的分支,图像格式很多,有些也具备较强的可压缩性。但考虑到处理古籍文献时需要处理海量图片,如何制订图形压缩标准仍是需要积极应对的重要课题。尽管目前存储技术发展很快,超大容量硬盘或其他存储介质为海量数据的储存提供了极大的便利,但考虑到数据库系统和服务器运行速度和网络带宽的限制,尽量减少图片占据的服务器空间、加快数据在网络间的运行速度,仍然需要从事古籍数字化的人士慎重应对。所以,如何制订一种具有较高压缩比,又能清晰地再现原始图书页面风貌的图片格式便显得尤为重要。

3.尽快完善汉字字符代码集。古籍整理和古籍数字化与一般文献的数字化有一个很大的不同,就是需要用到特别多的汉字。尽管国家有关部门已经几次修订相关标准,然就传统古籍的整理而言,计算机能够处理的汉字仍颇显不足。众所周知,最早制定的汉字编码为GB2312(《信息交换用汉字编码字符集基本集》),包括6763个汉字;1995年重新修订了编码,命名GBK1.0,共收录21886个字符。国际标准化组织在ISO10646-2000的基本平面(BMP或者Unicode 3.0,)编入27,564汉字,即是2000年3月在GBl8030颁布时所建议支持的字汇。其中有6582个汉字又称为扩展A。同时国际标准化组织还在IS010646-2000的第二平面扩展了42,711汉字(又称为扩展B)。微软Office 2003内置的方正超大字符集,即包括上述全部27,564个汉字以及在第二平面(42,711)中选出的36,862个在中国大陆、香港特别行政区以及台湾地区部分使用的汉字,共包括65,531个字符。计算机所支持的汉字确实愈来愈多,对普通行业和学科而言早已绰绰有余,惟独对处理古籍文献者,即使是这包含六万余字符的超大字符集仍嫌不足,如何处理系统中没有的字符仍是古籍数字化过程中不容回避的问题。台湾地区有关机构在从事汉籍数位典藏计划过程中使用图形拼接的方法,虽然情非得已,笔者总觉得这种方法费时费力,效果也不好。大陆地区的书同文公司在其开发制作的电子版《四库全书》中能较好地处理冷僻字和异体字,但这些字符一旦脱离这个系统,例如被复制到字处理程序中,便会显示乱码,可以说仍未真正解决这个问题。所幸国家有关部门已经意识到该问题的严重性,《国家“十一五”时期文化发展规划纲要》在“重大文化产业推进项目”中列有“中华字库”工程——建立全部汉字的编码和主要字体字符集。

4.建立符合学科特点的古籍数据库全文检索系统。电子版古籍的优越性,特别是其强大的检索查询功能,凡是使用过电子版《四部丛刊》、《四库全书》等数字化古籍的学者都有所体会。但是,单纯的古籍数字化,对广大学者而言,对于古籍整理这个学科而言,仍然有着较大的缺憾。主要表现在虽然检索结果略无遗漏,但经常存在太多无用信息,检索结果不能直达目标的情况。比如在上海人民出版社版的电子版《文渊阁四库全书》中,若要查找宋代书法家、诗人黄庭坚的资料,由于黄庭坚自号“山谷道人”,而古人习惯上称号而不呼名,又经常省略姓氏,所以在进行关键词检索时,不仅要将“黄庭坚”作为关键词检索,更要以“黄山谷”和“山谷”作为关键词。问题在于,以历史上中国幅员之广大,山川地名之庞杂,作为地名出现的“××山谷”的几率大大超过诗人黄山谷出现的几率。所以,在这套电子版的《四库全书》中,以“山谷”作为关键词搜索正文,系统反馈8592条信息。而其中仅有不足十分之一属于有价值的信息。检索黄庭坚的资料如此,检索其他方面的资料也会因为这样那样的原因而反馈回很多无用的信息。解决之道在于在系统开发过程中,一定要有专业学者的深度参与,对文献中出现的相关人名、地名进行必要的标注,同时在数据库程序设计时也要切实考虑古籍文本的复杂性,尽可能由专业学者首先对准备导入数据库的文献进行深度加工。只有精通古籍整理的专业学者和精通程序设计的IT技术专家双方有效的共同努力,才能开发出既符合学科要求,又具技术前沿水准的数字化古籍数据库。

5.优化选题,整合资源,建设具有较高学术水准的专题数据库。就目前的古籍数字化现状而言,由于没有统一的规划,相关机构和公司各自为战,所以截至目前的古籍数字化成果多属于重点书籍的数字化,成系统的,特别符合学科特点的,能对历史和古代文学等学科发展有重要影响的数据库尚不多见。笔者以为,建设一系列具备较高学术水准的专题数据库是未来古籍数字化的发展方向。中国社科院文学研究所数字信息室正在进行的“元代文献数据库”和“《红楼梦》研究资料数据库”正是根据这样的理念立项并建设的。这类数据库由于有相关专家学者的深度参与,可以保证在学术层面上达到较高水准,不仅仅提供检索功能,而首先是把这个领域或这个专题所涉及的文献全部网罗进来,在此基础上又对文献做了必要的加工,如标点、作者简介、时代划分、体裁归类等。以后研究这个领域的学者就不用再劳神查找别处资料。其对学术研究的贡献是不言而喻的。

伴随数字化古籍在学术研究和文化建设中愈来愈广泛的应用,古籍数字化本身所涉及的诸多问题也相应地引起IT界和传统文史研究界关心这一领域的人士的极大关注。古籍数字化只有凝聚这两个领域有识之士的共同智慧,才能得到健康、顺利的发展。为此,这两个领域的学者和一切关心传统文化建设尤其是古籍数字化的人士有必要就传统古籍数字化所涉及的各种问题如技术标准、发展方向、选题设置、学科应用等问题予以深入的探讨,为此,笔者建议应在学科设置中增加一门交叉学科——数字文献学:专门探讨传统文献数字化及其应用中所涉及的问题,有条件的院校和科研机构应适量招收该方面的研究生,从长远角度对古籍数字化的进程和人才培养做出科学的规划,从而保证这一既有利于传统文化发扬光大,又对传统学科现代化至关重要的交叉学科得到快速发展。

标签:;  ;  ;  ;  ;  

古籍数字化对学术科学的影响及发展方向_数字化时代论文
下载Doc文档

猜你喜欢