从古籍数字化看“大正集”与佛经编排_大正藏论文

古籍数字化视野中的《大正藏》与佛典整理，本文主要内容关键词为：佛典论文,古籍论文,视野论文,大正论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：G256 文献标识码：A 文章编号：1004-8634(2015)04-0017-(09)

DOI：10.13852/J.CNKI.JSHNU.2015.04.003

一、《大正藏》功勋著史、流泽深远

《大正新修大藏经》(以下简称《大正藏》)，全藏100卷：计正藏55卷、续藏30卷、图像部12卷、昭和法宝总目录3卷。高楠顺次郎在《大正新修大藏经全百卷完成之献词》中总结说：《大正藏》编辑工作从大正十一年(1922)开始，到昭和九年(1934)完成，历时13年，总计约4500天。参与者共约300人，关联人员约达45万人。耗资280万日元。全藏收录各种典籍、图像3493部，13520卷。高楠顺次郎是《大正藏》的重要发起人与实际主持人之一，他在文中提到：《大正藏》的编纂经历诸多困难，甚至有几次接近“艰苦崩坏之命运”，以致抚今追昔，不胜感慨。在文中，高楠顺次郎还总结了《大正藏》的十大特点。①至今读这篇文章，依然感人。

《大正藏》完成以后，嘉惠学林，功德无量。正如长井真琴所说，《大正藏》是“东方文化的金字塔”。我也曾经撰文指出：“这部大藏经对世界佛教研究的普及与深入贡献之大，实在无与伦比。堪称佛教文献学史上一座前所未有的里程碑。”②可以说，《大正藏》编成以后，世界上没有一个佛教研究者未曾直接或间接承受其学恩。

作为佛教文献研究者，我曾经在两篇文章中评论过《大正藏》。第一篇是《〈大正新修大藏经〉评述》，原文是20世纪90年代中期，参加中国佛教文化研究所召开的一个学术会议递交的会议论文，1997年发表在《闻思》第一辑；第二篇为《略谈汉文大藏经的编藏理路及其演变》，原文是2009年参加第二届世界佛教论坛递交的会议论文，2012年发表在《世界宗教研究》第1期。

第一篇文章专门评论《大正藏》。在文章中，我把《大正藏》的优点归纳为七个方面：(1)精选优秀底本；(2)确定科学体例；(3)进行认真校勘；(4)加以断句训点；(5)实用的版本目录与索引；(6)现代印刷与装帧；(7)编纂配套的词语索引。当然，《大正藏索引》实际是《大正藏》完成以后另行开展的，但它是在《大正藏》基础上开展的后续工作，故不妨将它与《大正藏》看作一个整体。文章也指出《大正藏》存在着如下不足：(1)选篇标准问题；(2)结构与分类问题；(3)对敦煌文献的整理问题；(4)校勘问题；(5)错版及擅加文字问题。

第二篇文章主要探讨汉文大藏经的“内在编藏理路”。文章提出：

任何时代、任何人，花费如此巨大的人力、物力、财力来编纂大藏经，必然有他的目的。为了达成这一目的，必然有一个与这一目的相适应的甄别、选取佛典的入藏标准，有一系列与这一目的相配套的编纂藏经的方法。我认为，编藏目的、入藏标准、编藏方法三者，构成了大藏经编纂的内在理路。从历史上看，大藏经的编纂者，一般很少公开宣示自己编纂藏经的目的、标准与方法。但无论哪一部藏经，实际都存在这三者，它们贯穿于该藏经筹备与编纂的整个过程，并体现在最终完成的这部大藏经中，所以称之为“内在”理路。我们可以通过分析一部一部的藏经，来探讨它们各自的内在编藏理路。当然，就某一部具体的藏经而言，还有一个它的预设编藏理路能否从始至终贯彻到底的问题。本文对此不予讨论，仅从宏观的角度，探讨古今编藏理路的表现形态及其演变轨迹。③在这篇文章中，我从分类结构、多语种校勘、编纂版本目录、增列“外教部”与“疑伪部”等四个方面指出：在高楠顺次郎等学者的心目中，“大藏经固然是佛教的宗教圣典，同时也是重要的学术研究资料”，“古代编藏主要出于宗教目的。日本《大正藏》的编纂，体现了大藏经从宗教性向学术性的演变”。④至今我依然认为，在具体的编藏实践中，对佛教大藏经这一宗教圣典加入学术因素，使之完成从宗教性到学术性的演变，是以高楠顺次郎为代表的日本佛教研究者对汉文大藏经的历史性贡献。

今年距《大正藏》编辑完成已经整整81年。81年来，佛教研究、佛教文献研究都取得了无与伦比的长足进展，大藏经研究与编纂也成果迭出，可以称之为进入新的阶段。那么，新的阶段的特点是什么？仅仅是新研究成果的不断涌现与叠加吗？我认为层出不穷的新成果固然体现了佛教文献学的蓬勃发展与强大生命力，并为佛教研究奠定了更为坚实的基础，但与81年前高楠顺次郎等编纂《大正藏》的时代相比，新阶段的最大变化是世界已经踏入数字化的门坎，人类社会已经不可逆转地进入信息化时代。

数字化对佛教大藏经的发展提出了前所未有的挑战，也提供了前所未有的机遇。我们能否面对挑战，抓住机遇，把佛教大藏经的发展推向历史的更高点呢？今天是昨天的继续，明天是今天的发展。我们只有认真回顾前辈走过的足迹，才能选对方向，更加坚定地前进。我想，这就是我们在今天研究、评论《大正藏》的意义所在。

二、古籍数字化视野中的佛典整理

数字化是信息技术的基本形态，也是现代信息技术的生存方式。⑤目前，现代信息技术对社会各个领域都产生着巨大的影响，并为现代社会的发展提供了无限的可能。纵观当今世界，我们甚至可以这样说，数字化已经是现代社会得以存在与发展的基础。

由于数字化已经逐渐渗透到社会的各个领域，佛教大藏经自然也不例外。实际上，几十年来，数字化技术已经与佛教大藏经紧密结合。与近代图书具有各种不同的形态相应，数字化大藏经也具有不同的形态。如近代有影印本大藏经，其对应的数字化形态则有扫描本大藏经；近代有逐字排版铅印本大藏经，对应的数字化形态则有逐字录入的电子文本大藏经。扫描本大藏经可反映古代大藏经的原貌；电子本大藏经则可提供全文检索、复制乃至标点等各种功能，更加方便与实用。总的来说，两种大藏经各有优势，不可偏废。毫无疑问，由于使用方便，所以电子本大藏经流通更广。然而，电子本大藏经如何取得公信力，又是一个不容回避的问题。

本文提到，数字化对佛教大藏经的发展提出了前所未有的挑战，也提供了前所未有的机遇。那么，数字化到底为佛教大藏经提供了什么样的挑战与机遇呢？我认为，所谓挑战与机遇表现在如下三个方面：

1.规模性

佛教是社会文化形态之一，古往今来，影响着无数的人们并还会持续发挥其影响，扩展到更多的人群中。所以，佛教自然而然成为我们学术研究的重要对象。学术研究靠资料，资料越完整越好，越全面越好。在古代，大藏经仅仅是宗教圣典；在今天，它还是学术研究的重要对象。不言而喻，一部大藏经，容纳的资料越多，它的研究价值就越大。我曾经撰文指出，衡量一个图书馆的基本指标是看它的藏书量的多少。同理，衡量一部大藏经的基本指标，就是看它收经数量的多少。⑥

《大正藏》共收经律论及汉文佛教撰著、图像3497部，13520卷，共100册。按照每册平均150万字计算，总计约达1亿5000万字。若干年前，我曾经做过一个粗略的估计，汉文佛教典籍总数大约在4亿字左右。⑦这些年在调查佛教典籍的过程中，发现上面的统计有点保守，世界上实际保存的佛教典籍数量更多。比如，当年统计没有计入日本、朝鲜半岛收藏的各种古AI写作本、刻本之未入藏佛教文献；没有计入越南古代撰写的汉文佛教文献；也没有计入现在依然在中国民间流传的各种法事文本。这些年，仅中国民间的各种法事文本我们就搜集到1500多种。也就是说，至今为止，虽然《大正藏》依然是世界上收入佛典最多的大藏经，但其所收典籍大约不足存世汉文佛教典籍总数的三分之一。

自然，由于受现实条件的限制和宗教立场的框限，以往人们编藏从来不可能把所有的佛教典籍全部收入。要有所选择、有所甄别。但今天，从理论上讲，数字化技术已经可以处理海量数据，已经可以无限扩展大藏经的容量，从而允许我们编纂出一部资料更加丰富、内容更加详实的大藏经，甚至允许我们把所有的佛教典籍统统收纳进来，使大藏经真正容纳八万四千法门，成就八万四千海藏，更好地发挥大藏经的佛教圣典功能、研究资料功能以及资料备查功能。

应该说，佛教界、佛教研究界已经在实践中逐步认识到这个问题。

从佛教大藏经数字化的历史看，1986年《中华大藏经》率先进行数字化试验，并得到初步成功。这一工作当时由我具体负责。《中华大藏经》中现有的几种计算机排版的经典，就是当年数字化试验的成果。可惜由于某些原因，这一工作后来中止，未能全面开展。20世纪90年代，韩国高丽大藏经研究所推出电子版《再刻高丽藏》，首次将整部大藏经的电子文本推向世界。以此为契机，大藏经数字化的热潮在全球掀起。由于《大正藏》拥有无可撼动的学术地位，所以除了一些例外，全球的汉文大藏经电子文本都以《大正藏》为目标，各种《大正藏》的电子版不断涌现。经过近20年的整合，现《大正藏》(第1卷到第55卷、第85卷)电子本主要整合在由中华电子佛典协会主持的《电子佛典集成》中，而由日本汉字文献情报处理研究会主持的“东洋学古典电子文献检索数据库”则收录了全部《大正藏》电子文本。此外，网上可以看到各种各样表现形态的《大正藏》电子本。

《电子佛典集成》以综合、集成汉文佛教典籍为己任。其最近发布的2014年版，已经收入《大正藏》、《卍字新纂续藏经》、《嘉兴大藏经》、历代藏经补辑(含《赵城金藏》、《中华藏》、《房山石经》、《佛教大藏经》、《高丽藏》、《乾隆藏》、《卍字正藏》、《永乐北藏》、《宋藏遗珍》、《洪武南藏》)、原“中央图书馆”善本佛典等，总计16927卷；此外还收入元亨寺版《汉译南传大藏经》70册，《藏外佛教文献》1至9辑，《正史佛教资料类编》、《北朝佛教石刻拓片百品》等。据介绍，《电子佛典集成》收纳的总字数已达1亿9000万字，加上在日本电子化的《大正藏》的其余部分，则电子化佛典的总字数已经超过2亿5000万字，比《大正藏》超出1亿字。与当年《开元释教录》所谓1076部，5048卷相比，简直不可同日而语。人们在今天取得的成果，的确是前人所不能想象的。

成果虽然巨大，但必须指出，与现存的4亿多字的佛教典籍相比，我们面前还有很长的路要走。

如前所说，收集所有的汉文佛教典籍，编纂一部电子化的八万四千海藏，在理论上已经可以实现，这是数字化时代的信息技术为我们提供的巨大机遇。作为佛教文献工作者，能够生活在信息化时代，能够利用信息化技术来整理、研究佛教典籍，是我们的幸运。然而，理论上可以实现的事情，现实中是否真的可以做到？这又是当今信息社会对我们佛教文献工作者提出的重大挑战。面对机遇与挑战，我们需要做出自己的回答。

2.准确性

无论是宗教圣典还是学术资料，文本的准确性都是第一位的。但在古AI写作本时期，由于写本本身“唯一性”与“流变性”的双重作用⑧，某种文献在流传过程中非常难以保持文本的一致性。从历代僧人为校勘经典、编纂目录所付出的艰巨劳动，从《开元释教录广品历章》到《一切经源品次录》的不断编撰与内容细化，从敦煌遗书中的相关目录与文献，我们可以看到古代僧人为保持佛教典籍文本一致性做出的不懈努力。即便如此，从敦煌遗书佛教典籍所反映的异本、异卷、异文等诸多情况，可知人们对佛典文本一致性所作的努力费工虽大，收效却依然有限。写本佛典的文本歧异，直接影响到刻本，由此形成刻本大藏经的三个系统。其实，三个系统只是对刻本大藏经的大致描述，如果仔细研究，则每个系统内部，各种不同的藏经又有各自的特点。此外，值得注意的是，在我们的以往观念中，后代藏经都是承袭前代藏经，续补新的内容编纂、刊刻而成。但新的资料表明，这一观点并不完全正确。比如《嘉兴藏》中的有些文字，与历代大藏经所收同一经典的文字均不相同，而与敦煌遗书中的相关写本文字一致。这说明《嘉兴藏》的原始文本来源并非前代的某一部藏经，而最早源于某部古AI写作经的某一民间传本。

总之，不同系统的藏经、同一系统的不同藏经存在着不少异同，来源于不同的传承。作为文献工作者，我们应该如何面对与处理这一问题？

《大正藏》在此为我们树立了一个范例。《大正藏》的方法是对各种能收集到的藏经及相关佛典进行认真的校勘，只指异，不辨正。所谓“指异”，是指同时将各种藏经或相关文本中的异文统统罗列在校勘记中，供研究者参考，供读者判定整理者的工作并做出读者自己的选择与判定。所谓“辨正”，是指在不同的异文中，整理者按照自己的理解，选择某种相对最为正确的文字，列入正文。隋彦琮“八备”称：“襟抱平恕，器量虚融，不好专执。”⑨我认为《大正藏》编纂者的做法符合彦琮的上述标准。当然，作为佛教文献工作者，应该尽量为研究者扫除阅读的障碍。从这一点看，《大正藏》的“只指异，不辨正”就不够了。这当然也与《大正藏》编纂时缺乏大量高水平的校勘人员有关。所以我主编的《藏外佛教文献》采取“既指异，又辨正”。当然，我们的水平有限，不敢说所做的“辨正”全部正确无误，所以同时将各种异文全部列入校记，供研究者自行勘定正确文本，以补救我们可能产生的疏漏。

虽然《大正藏》当年对文本校勘花费大量精力、做出极大努力、也得到很大的成果，但现在看来存在的问题也相当多，有些问题甚至相当严重。比如我在《〈大正新修大藏经〉评述》中提出：《大正藏》所收二卷本《那先比丘经》卷下因错版而擅加文字，且不出校记，这是文献工作者绝对不可以犯的低级错误。但在《大正藏》中，这种错误毕竟是个案，大量的错误表现为校勘疏漏。这一点我们在编辑《中华大藏经》(上编)的过程中已经发现。最近中国某寺院对《大正藏》的校勘质量做了复查，发现仅就某四卷经文及其所用的两种校本而言，校勘错误率为13.6%，错误类型包括误校、漏校等。如果追究原因，姑且不考虑资料不足，有些校本中存有后代抄补故其本身未必正确等客观因素，仅从主观上追究，则自然可以归诸校勘工作者精审不足。

西汉刘向《别录》曾将传统的校勘方式归纳为“校雠”。《别录》后来亡佚，仅留后人的引文。虽然后人引文的表述略有差异，但刘向“校雠”的原意是清楚的，亦即在刘向时代，所谓“校”，指某人对某一文本进行阅读，如依据上下文理发现该本有误，则予以改正。看来这就是我们现在所谓的“理校”。所谓“雠”，则由两人合作进行，其中一人执一本宣读，另一人对另一本逐字进行核对；因为由两个人面对面开展这一工作，故“雠”又有“对雠”之说。⑩

《中华藏》最初也采用“一人持本，一人读书”这种方式。由于《中华藏》共有八个校本，故实际上出现“一人读书，八人持本”，形成九人会校的局面。但我们在实践中发现这种方式弊病极大。1986年起，改为一人同时对勘底、校两本，这也是目前古籍整理最通用的方法。为了保证校勘质量，《中华大藏经》采用一个校本由两个人背对背分别予以校勘，即每个校本校勘两遍、然后予以汇总的方法。这样，大部分经典都产生十六个校草。看起来这种方式已经很严格、很认真了，但现在回过头来看，《中华藏》的校勘依然存在不少问题。

因此，问题就不仅仅在于是否有足够的“精审”精神。人毕竟是人，人力有时而穷。无论如何小心谨慎、一丝不苟，难免有头昏眼花、精神疏忽的时候。我本人常年从事佛教典籍整理，我主编的《藏外佛教文献》用“以精益求精之心，求尽善尽美之境”来勉励自己与同事。但每辑出版以后，总会发现依然存在各种各样的错误，有的错误实在让人感到无地自容。我曾在一篇文章中自嘲：尽善尽美之境只存在于彼岸世界。在此岸世界，我们总要不断犯错误，只不过是错误的大与小、多与少的问题。2011年《藏外佛教文献》出版第十六辑之后，至今已经停顿多年。实际上，我们已经整理好的文稿足够出版五辑。之所以积压未出，问题就在于对已经整理好的这些文稿，我心中依然没底，不知道其中还会有多少错误，但又没有足够的时间再去一遍又一遍地审核。问题还在于即使再审核，能否把所有的错误都消灭掉？自己心中也没有底，由此拖延至今。所以，《大正藏》的校勘准确率能够达到86.4%，已经难能可贵。但应该讲，这一比例距离理想境界还有较大的差距。

此外，必须指出的另一个问题是，现在的古籍整理的出版物，一般均会在文本整理结束以后，提供给读者一个校勘本、一份校勘记。读者固然可以按照校勘记来复核校勘本，但如果校勘工作本身有疏漏，即校勘本的错误没有反映在校勘记中，或校勘记不能反映底、校本的真实情况，那读者就无可奈何了。如前所述，经过复查，发现《大正藏》中四卷经文对两种校本的校勘错误率为13.6%。对一般的研究者来说，不可能去做那样的复查工作，也就不可能发现那些错误，就可能被《大正藏》的错误文本所误导，乃至影响自己的研究成果。

面对这一现实，我们应该怎么办？

在此应该先介绍中华电子佛典协会主持的《电子佛典集成》的工作。目前，《电子佛典集成》已经对《大正藏》中的若干错误进行校订。《电子佛典集成》的上述校订可见于网上电子本。这一校订仅用红色标注，如“[舍＞含]”，表示《大正藏》本此处之“舍”实际应为“含”。但《电子佛典集成》没有说明如此校订的理由。如果不是逐一查核《高丽藏》、《大正藏》的原文，我们也难以确知错误的原因。不知道上述标注是《电子佛典集成》的理校，是《再刻高丽藏》本身的错误，还是《大正藏》的植字错误。

也就是说，《大正藏》采用的传统校勘方法缺少让读者追溯原始资料的手段，《电子佛典集成》虽然已经采用数字化，依然没有纳入这一手段，故而读者难以发现校勘本的错误，或即使发现错误也无法知道错误产生的原因。传统校勘方法的这一缺陷，同样体现在其他古籍整理文本中。如中华书局出版的标点本二十四史，虽然当时集中了一批一流学者完成，但至今学术界对它们依然不满意。虽然不满意，但由于难以追溯原始资料，校改起来非常困难。

其实，信息化技术已经为我们提供了解决此类问题的方案。我认为，可以按照如下四个基本原则，利用信息化技术解决上面的问题：

第一，起于最底层。古籍整理，要从最基础的原始资料的图形文字、书写符号的切割开始。

第二，信息全覆盖。信息采集要覆盖全部原始资料，亦即保留原始资料中全部可研究信息。

第三，过程可追溯。每一步工作都有记录，每一个环节均可追溯。

第四，功能可扩展。程序开放，界面友好，可随时根据不同情况扩展新的功能。

我们设想的具体的工作流程，可参见图1：

图1 利用信息化技术的工作流程示意图

按照图1，我们设想的佛典整理工作，将按照如下步骤开展：

(1)文字切割与识别，制备基础工作文本

佛典数字化，必须有一个准确的基础工作文本。这一工作文本的制备，必须建立在对原始资料中文字的准确辨认、录文基础上。正因为如此，录文一直是佛教文献工作者的入门功夫。但以往的录文全靠研究者手工完成，无论研究者如何谨慎小心，录文中的错误总是难免的。如有疏忽，则录文可能难以卒读。现代信息技术使我们可以利用计算机更好地完成这一枯燥、繁琐的工作，提高准确率。

我们的设想是：从最基础的文字与书写符号的切割、辨认开始，建立基础工作文本。

所谓“最基础的文字与书写符号的切割、辨认”，就是将需要录文的原始资料上的每一个文字、每一个符号都切割下来，并将它们全部转换成计算机可以识别的具有计算机内码的文字与符号。我们面对的原始资料有写本、刻本、现代印刷本。现代印刷本的问题比较好办，但目前的计算机技术尚不足以支持敦煌遗书之类写本及古代刻本中图形文字的识别。所以我们开发了一套“人机互动”(11)的计算机程序，设计出相应的工作流程，避难就易，以充分发挥计算机、研究者各自的优势，完成上述图形文字与符号的识别任务。

通过上述流程，可将每一号原始资料图版中的文字、符号切成为单独的图像字符，并将它们辨识、转化为相应的计算机字符。其间有几个相应的“人机互动”的环节，一般工作人员及佛教文献研究专业人员将在不同环节、采用不同的方式进行“人机互动”，以最大程度地减少专业工作人员的工作量及保证从图版文字到电子文本的转换质量。

通过上述工作，计算机将产生两个成果：

第一，产生图像字符与计算机字符一一对应的字符表。计算机将该字符表收入字库。凡收入字库的字符，均记录其原始身份。研究者随时可以从图像字符或计算机字符调阅其所在原始图版。为醒目起见，图版将用色标对该字符予以标示。凡收入字库的字符，可按照不同检索要求或复合检索要求进行检索。可罗列某单字的所有图版字符，可按照要求排序、进行字频统计等。

目前，利用计算机技术自动识别中文图像字符，仍是信息自动化未能解决的技术难点。我们希望通过上述工作，让计算机不断积累原始素材，探索最终由计算机自动识别中文图像字符的道路。(12)

第二，产生与某原始资料完全对应的电子文本文献。入库的电子文本文献，实际是一个与相应图版文字完全一致的电子本录文。与人工录文相比，它的每一个字符都与原始资料图版字符乃至原始数据图版一一对应并链接，随时可以进行复核。

由于我们采用双重辨认、计算机合校、人工干预等多重保障，从理论上讲，图像文本转换为电子文本的文字辨识准确率可以达到100%。当然，在实践中，由于各种原因，还会不断出现新的问题。但我们的设计是每一步工作都有记录，都可以反向追溯，可以一直追溯到最原始的工作环节、基本资料。这样，不仅我们，任何一个读者都可以通过这一程序追溯、复核每一个工作环节，包括复核每一个环节使用的原始资料。如有错误，就可以发现该错误产生在哪一个环节与具体原因，从而解决上文提到的难以发现校勘本错误，以及虽然发现校勘本错误却无法追溯、无法检讨其原因的问题。

数字化电子本不同于纸本的优点之一在于，可以随时改正错误，不断升级版本。我们可以在不断发现错误、改正错误的过程中，不断完善数字化的佛教典籍文本，在实践中逐步达到准确率为100%的文本转换。上述不断升级的过程也适用于以下“区别异本”、“文献校勘”等工作环节。

(2)区别异本

想把某文献的异本一一予以区别，其前提是必须将该文献的各种原始资料收集完整，然后一一予以比对。按照上述思路，只要我们将原始资料中该文献的所有图像文本都按照上述方式制备成电子文本，亦即达到该文献的信息全覆盖，就可以利用现成的计算机软件程序进行文本比对，从而鉴定与区别异本。

以我目前正在从事的敦煌遗书整理而言，从理论上讲，只要我们具备60000多号汉文敦煌遗书的图版资源，投入必要的人力物力，我们就可以将这60000多号遗书、70000多号文献、总计约1亿字敦煌汉文遗书全部转化为相应的电子文本，然后进行异本的比对与鉴别。

在60000多号敦煌遗书中，约包括数千种各类文献。有的文献重复率极高，如《妙法莲华经》多达7000多号，编号数量超过敦煌遗书总号数的10%。有些文献仅有1号。就7000多号《妙法莲华经》而言，包括了二卷本、七卷本、八卷本、九卷本、十卷本、乃至卷本待考的异卷等多种卷本，包括了鸠摩罗什早期译本、后代修订本，还混杂了若干《添品法华经》。时代最早者为东晋南北朝写本，最晚的为五代宋初写本。与传统大藏经本对照，敦煌遗书中有些《妙法莲华经》文本的文字有脱讹，但也有些文本的文字优于传统大藏经本。个别文本中甚至有中国人添笔增加的偈颂。以前，仅凭个人之力，想对这7000多号《妙法莲华经》进行全面的异本区分，可以说是痴心妄想。现在，则完全可以借助敦煌遗书数字化之力，对中国佛教史上这一重要经典做一番彻底的清理，理清它不同时期的文本演变、表现形态，清理混杂在其中的《添品法华经》。

佛教典籍的数字化与上述敦煌遗书的数字化道理相通，无非工作量更大而已。比较而言，整理佛教文献时，我们面对的大量是刻本，工作难度相对较小。

(3)文献校勘

典籍在流传中出现传抄的错讹，乃属正常情况。故文本整理的一大任务是进行文献校勘，最终整理出一个相对更为优秀的文本。文献的标点可以体现出整理者对文献的解读，也是文献整理的重要内容。

就校勘而言，凡是做过这一工作的研究者都知道，校勘中付出的劳动几乎有90%以上都属于无用功，因为用来对校的两个文本中文字的差异程度不可能达到90%以上。但校勘者必须耐下性子，一个字一个字去校，唯恐有所疏漏。即便如此，正如古人所说“校书如扫落叶，旋扫旋生”，还是难免发生错误。但现在我们可以在上述制备文本、区别异本的基础上，由计算机自动进行文本校勘，亦即由计算机自动比对两个文本的文字，如果相应的文字相同，计算机会自动忽略，而仅将不同的文字以色标显示，提示研究者去进行勘校。这样，研究者固然还需要通读全文，但只要针对红色的文字进行校勘。就校勘环节而言，工作量可以减轻90%左右。

不仅如此，系统针对不同情况设计了规范的校勘记表述格式，研究者只要根据具体情况选择不同格式，系统即自动生成规范的校勘记。在进行校勘时，研究者还可以利用该系统同时对文本进行标点。

整理本文字固然由整理者确定，但系统将自动把各校本中该文献的所有异文逐一罗列在校勘记中，并通过链接提供所有异文的原始图版，便于读者、研究者根据需要反向追溯、自行检索图版，并对整理本中的文字做出自己的选择与解读。

这一“计算机校勘标点系统”依然是一个“人机互动”的系统。利用这一系统，某种文献无论存世多少个传本，只要我们投入必要的人力物力，均可以进行全面、彻底的整理。这种整理固然不可能一次性达到尽善尽美的境地，但如前所述，信息化技术提供了一条不断积累成果、不断修订错误的道路。沿着这条道路走下去，每个人都可以在他人成果的基础上将某文献的整理推向前进，最终臻于至善。这样，每个人的古籍整理工作都成为历史长河中的学术积累，而不是像传统方法那样，不同的研究者不断地对同一部典籍或同一种文献进行反复校勘，一次又一次地推倒重来，出现大量重复劳动。即使不同的研究者对同一段文字有不同的理解，信息化技术也允许同时保留与显示多种不同意见，留待研究者深入思考。

按照上述思路，传统古籍整理中的“底本”、“校本”等概念也将完全被颠覆。

由于每个人的精力有限，按照传统方式进行古籍整理时，一般不可能“逢异必校”。所以，传统进行古籍整理，必须先寻找一个相对错误较少，文字较优的本子，称之为“底本”。然后以“底本”为依据，参校各种“校本”。校勘时，凡属底本正确者，一般不出校记；凡底本文字依据校本校正或理校者，方出校记。这种方式大大减轻了校勘者的工作量，但也存在如果校勘者漏校、误校，便会误导读者。《藏外佛教文献》摒弃上述方式，在校勘中对诸本一视同仁，按照“逢异必校”的原则，将所有的异文一律纳入校记。不过在表述时，为了循俗，依然保留了“底本”、“校本”的名称。采用数字化整理之后，被整理的各种文本地位平等、作用相同，也就完全没有必要、也不应该再来区分底本、校本。

3.方便性

数字化文本可以从各个方面为读者的阅读与研究提供极大的方便。在这一方面，中华电子佛典协会的《电子佛典集成》已经做了很好的示范与各种各样的尝试。本文上述第四个原则实际也是为“方便性”预留各种可能。限于篇幅，不拟展开。

若干年前，我曾经发表一篇题为《信息时代的佛教目录学》的文章，(13)对信息化时代佛教目录学将怎样发展做了一番畅想。本文则介绍我对佛教典籍数字化的设想。

目前，我们已经按照这一方案开始起步，计划通过实实在在的工作，检验我们的设想，改进我们的计算机程序，完善我们的工作流程。可以肯定，目前的设想还有很多不足之处，复杂的现实生活永远超过我们的想象，一定会有许多我们还没有预料到的困难在前面等待我们。但是，笔者在从事古籍整理与数字化的过程中，深深感到信息技术将原本只能在平面进行的工作拓展到立体空间，从而给我们的古籍整理工作提供了无限的可能性。所以，问题转化为，我们是否能够想到，是否愿意去做。如前所说，现代信息技术的一个重大优势在于它能够不断积累成果，不断改正错误，不断进行升级，最终臻于至善。所以，只要我们加强调查、做好规划，协调一切可以协调的力量、相互配合、相互支持，不怕困难、不怕挫折、锲而不舍地坚持下去，发扬古代为编纂大藏经连续几代人前赴后继的传统，最终一定可以达成将佛教汉文佛教典籍全部电子化这一宏伟的目标。

①高楠順次郎：《大正新修大藏經全百卷完成の辭》，載《ビタカ》，昭和十年(1935)一月號。

②方广锠：《〈大正新修大藏经〉评述》，载《闻思》(第一辑)，华文出版社，1997年3月；《随缘做去，直道行之》，国家图书馆出版社，2011年。

③方广锠：《略谈汉文大藏经的编藏理路及其演变》，《世界宗教研究》，2012年第1期；中国人民大学资料《宗教》2012年第2期转载。

⑤按照“搜狗百科”(http://baike.sogou.com/v353423.htm)的解释：数字化就是将许多复杂多变的信息转变为可以度量的数字、数据，再以这些数字、数据建立起适当的数字化模型，把它们转变为一系列二进制代码，引入计算机内部，进行统一处理。笔者把现代信息技术看作一个“生命体”，这个生命体能够在现代社会产生、生存、发展，靠的就是“数字化”这一基本方式，所以称“数字化是现代信息技术的生存方式”。

⑥方广锠：《论大藏经的三种功能形态》，载台湾《宗教哲学》，第3卷第2期，1997年4月。

⑦这一数字包括已经收入各种藏经的古代日本、朝鲜半岛僧人撰写的佛教著作。《中华大藏经》(上编)已经收入约1亿600万字。下编计划主要收入中华佛教撰著，故拟收2亿6千万字。

⑧关于写本的“唯一性”与“流变性”，请参见拙作《中国写本大藏经研究》(上海古籍出版社，2006年)之代导言《关于汉文大藏经的几个问题》中的论述。

⑨参见《续高僧传》卷二。CBETA,T50,no.2060,p.439A25-26。

⑩《风俗通》曰：“按刘向《别录》，‘校雠’：一人读书，校其上下，得缪误，为校；一人持本，一人读书，若怨家相对。”参见[南朝梁]萧统选：《昭明文选》卷六，韩放主校点，京华出版社，2000年，第180页。标点有修订。刘向《别传》曰：“雠校者，一人持本，一人读析，若怨家相对，故曰‘雠’也。”参见《太平御览》卷618，中华书局影印本，第2776页上栏。

(11)所谓“人机互动”是笔者在利用计算机整理敦煌遗书时采用的基本工作方法。其基本思路是：凡是计算机能够完成的工作，一律交给计算机去做；凡因目前技术水平的限制，计算机无法承担的工作，一律由研究者完成；通过上述计算机与研究者的互动，不断提高计算机的自动化水平。

(12)笔者认为，让计算机识别中文的图像字符，犹如教小孩认字，是一个知识积累的过程。目前我们已经试验切字100多万，其中出现频率最高的单字，出现次数为几万次，亦即某一个单字共有几万个略有不同的字形。笔者相信，如果以这几万个字形为基础，让计算机进行图像文字自动识别，则我们有望突破计算机识别中文的图像字符这一难关。固然，有些字频小的文字，计算机识别依然会有困难；然而字频小的文字在文献中出现的次数少，对这些文字即使依然采用人工识别也是可以接受的。

(13)参见方广锠：《信息时代的佛教目录学》，载台湾《佛教图书馆馆讯》第29辑，2002年3月。

标签：大正藏论文; 佛教论文; 文本分类论文; 中华大藏经论文; 妙法莲华经论文; 文献回顾论文; 文本分析论文;

从古籍数字化看“大正集”与佛经编排_大正藏论文

猜你喜欢