数据分析时代与古典文学研究的开放空间--兼论信息工程与古典文学研究的互动_计算机的发展论文

数据分析时代与古典文学研究的开放空间--兼论信息工程与古典文学研究的互动_计算机的发展论文

数据分析时代与古典文学研究的开放性空间——兼就信息化工程与古典文学研究之间的互动问题答质疑者,本文主要内容关键词为:古典文学论文,互动论文,开放性论文,时代论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

《文学遗产》2005年第1 期发表了我们的《关于古代文献信息化工程与古典文学研究之间互动关系的对话》,这篇文章引起了学术界的重视,比如四川大学祝尚书教授告诉我们,他曾专门组织他的博士生们研讨这篇文章;其他一些学校的老师也告诉我们,类似的讨论还有不少。一年来,在与学术界界交往的过程中,许多学者就此文的内容向我们提出了若干有益的问题,比如《文学遗产》2005年第5 期就发表了郑永晓先生的文章《古籍数字化与古典文学研究的未来》,他的一些看法说明,计算机技术应用于古代文学研究和古代文献整理等方面的思考和研究更加深入了。与此同时,也有些学者表达了他们的担忧及不同意见,概括说来,这些质疑和担忧中至少有这样一些看法:(1 )计算机应为古籍整理工作者和古典文学研究者留有空间,所以在这个领域中的应用中,信息技术做到能够检索资料就行了,不要再发展下去;(2)大量研究工作,像辨伪、注释、艺术分析、 探讨文学作品中对于生命感受的表现等等,是人的专利,计算机完成不了,或者做起来是机械型的,缺少人文内蕴;(3)计算机将剥夺人的阅读过程以及在这种阅读过程中产生的智慧,人工检索过程中有人的主体体验和知识积累,计算机使人丧失了阅读和思想,等等。

针对学术界同仁提出的一些质疑和问题,我们首先在这里做一个简要的响应;同时借这个机会更进一步地说明我们对于“现代信息技术与古典文学研究之间的关系”、“古典文学研究借助计算机以后的人机关系”等等问题的一些看法。

人们最关注的是计算机与人的关系问题,这里又分成两个小问题,一是计算机能不能的问题,二是计算机该不该的问题。

2005年4月,我参加了宜宾学院思想家研究中心和中文系举办的小型座谈会,我当时讲,随着计算机在数据整理方面的应用,编年谱的工作应当由计算机来做。当时就有师生提出质疑,有学者认为,计算机编年谱无法保证其正确性,因为编年谱本身是个考证辨伪的工作,这样的工作计算机不能做。

关于能不能的问题,从理论上讲,能。因为编年谱更多的是依赖数据的准确性,它对人的“个性化”依赖性不强,是一种只要数据本身正确,不论任何人所做的研究,结论会完全一样的工作。如果说,计算机做的工作不能保证其准确性,那么人做的工作也无法保证其准确性,这两者比较,我认为计算机应当比人准确一些,因为它的“记忆力”更强,所“读”的书更多,这前提是,给计算机的数据量要足够大,数据要足够准确。当然,我只是从计算机在古代文献研究的理论上讲的,主要是想明确,哪些属于“个性化”研究、哪些属于“公共信息”提供,而编年谱则属于公共信息的领域。就目前情况看,虽然有了大量的数字化的文献,但是这些数字化文献距应用于自动化整理年谱还有一段距离,还不能自动生成某人的年谱,然而从理论上讲,计算机是能够生成某人年谱的。中国社科院的张剑博士在从事宋代的家族文学研究,其中有一项重要的工作就是家谱整理,这项工作计算机可以做,能做,这也是张剑博士认同的,但是,他还要手工做。为什么?因为这些家谱还没有数字化,短期内也无法数字化,因为它们分散在全球不同地区,有些还私藏在个人手中。如果不作为政府行为,三五百年也收集整理不完整。所以,为了研究家族文学,就要有选择的去动手整理部分年谱,尽管它是完全可以由计算机做的“公共信息”提供,而非“个性化”研究。反过来,计算机研究的算法正是基于人的研究手段来设计的,人工完成的又得到学术界广泛认同的成果可以成为计算机自动化分析的参照系统,重要的是人的研究角度方法,会给计算机自动化分析提供更为科学的算法,如:宋代晁氏家族关系手工(当然也可以借助计算机整理)完成后,这种手工完成的“方法”将是计算机未来研究诸如六朝谢氏家族关系的基本算法,当然计算机具体应用时还要更多地考虑到计算机的特点,如穷尽式的扫描、严密的逻辑和超强的“记忆力”。所以,现阶段家谱整理是有必要的,而且会推动未来的计算机对家谱的整理。

同一座谈会上,有位学生提出,尽管计算机能做,但是,这些工作不该由计算机做,编年谱是个学习研究过程,正像虽然有火车、飞机,但是长跑可以锻炼身体,所以这项工作还是应该留给人来做。

至于该不该的问题,我当时回答那个学生,从宜宾到北京,你选择飞机,还是选择长跑?长跑固然可以锻炼身体,但是其目的已经发生了变化。我认为计算机可以自动标点古典文献,但是我们还会将已有标点的文献中的标点删去,让学生去标点。计算机自动标点与学生标点的目的是不一样的。还有学者认为,计算机只要能够提供检索功能就够了,没有必要去做人可以做的工作。也即是说,计算机不该抢人的饭碗,这一点,我觉得没有必要多说,科学的进步正是为了将人从繁琐的劳动中解放出来,计算机可以快速完成的课题,人自然也可以扔掉计算机去做,正如有了收割机,而有人仍可以挥动镰刀,去体会挥镰刀的乐趣,但是他却挡不住收割机的发展。

关于计算机能不能代替人脑、能不能超过人脑的问题,可以说是个“古老”的哲学问题了。在《对话》中,我们已经分析人脑与计算机在古代文献研究中的不同作用,计算机进入古代文献研究领域并不是要代替人脑,也不是要超过人脑(至于会不会超过,还留给哲学家去思考),而是要代替一些在传统研究中人脑可以做,而现在没有必要再做的工作,如编纂“引得”,我在完成全唐诗数字化工作后(1998年),有人提议编《全唐诗引得》,我的回答是没有必要,现在确实没有人在编引得。这只是计算机在“检索时代”便取代人的工作,而现在,计算机在古代文献整理研究方面已进入“分析时代”。进入“分析时代”,计算机所能做的工作更广泛,比如对诗歌风格、作家风格、作品时代分析等多角度的研究。

检索时代的计算机主要是提供各种检索手段,如全文检索、作者检索、主题词检索等等,计算机是被动的听人的指令依据计算机里的数据向人提供“应答式”的信息服务。学者可以根据计算机提供的信息人工完成分析,在分析的过程中,需要新的数据或信息,再次向计算机发出指令,这也是一个交互过程,在这个交互过程中,计算机始终是从属性的高速应答工具,虽然它提供的数据会引发研究者的思考,甚至改变研究者的观点,但是它仍旧是被动的响应。而在分析时代,计算机中的数据不再是简单的纯文本格式,也不是为加快检索速度而生成的数据库文件,而是以研究为目的而做的“多属性标记本文或多维度的数据仓库(Databank)”,就是说:在存储时,人们已经根据可能性做了多维的标记处理,这些标记并不是针对某一具体方向的工作而做的。这样计算机可以根据其属性归纳总结出简单而又直接的“指令”来,这“指令”是由计算机发出。

过去的图书分类,不论是什么样的分类法,目的都是为了从物理的书架上取书更科学、更方便。在信息时代,图书不再以实物的形式存放在书架上,而是以数字形式存储于计算机的硬盘中,旧的图书馆分类法应用于计算机当然可以比不应用计算机要快得多,但是,并没有真正让计算机发挥出它应当发挥的作用。我们在制作知识库模型时,尝试给图书做面向信息处理的多维标记,如作者信息维、阅读对象维、时代维、地域维、传统分类维等等,一部书存入计算机后,甚至有多达百项的属性记录。面对这样的知识库,如果一位教师需要讲“李白与杜甫”,并且告诉计算机听讲的人不是本科生研究生,而是些高中生,计算机可以从数万部图书中找到这两个人在同页、同段、同句中高频出现的书籍,并根据阅读对象进行筛选,筛选出适合高中生书籍,生成有关李杜生平、重要作品的信息摘要,这样,我依然认为这是检索时代应当完成的高级信息提供。

而分析时代则应当是,计算机能够根据一个用户长期使用该知识库系统的情况,确定用户身份,分析用户的需求,计算机会自动提供以后进阶阅读的书目及内容摘要,指导用户去阅读,并为读者已阅读的图书进行相关性分析,指出读者知识结构方面的偏差及应当去补读的书籍等等,由计算机发“指令”,人去“执行”的。

在学术研究方面亦是如此,有学者人为:辑佚、集注过程中大量的是学者的考证分析,并不是简单的数据叠加。计算机在考证分析方面可能更有力,比如它能够迅速将任何一条证据在数据库中扫描、发现是孤证的,要么修正、要么警示;或者在人工研究以前完全没有注意到的领域和维度中发现线索、提供新的思路和佐证。这样的考证比不负责任的研究者随意式的发明更有价值。

我们即将完成的一个项目“二十五史分析系统”提供“人物分析”、“时代分析”、“地名分析”和“事件分析”四个模块,在模块内,提供相关的公共信息。如人物分析,输入“李白”,可以提取出李白《本传》;生成“相互关系表”,即新旧《唐书·李白传》中提到了哪些人,另外哪些人的《传》中提到了李白,交互提到的有哪些等等;生成出家族谱系表。输入任何公元年或朝代年号,则显示所有本传中提取出的该年代的主要事件。此系统支持跨模块的信息提取,如输入某地名,则可以得到该地名的历史名称变迁及在该地出生、为官、终老以及籍贯为该地的人物。

使用计算机分析问题,与我们传统的研究方法有很大的不同:过去我们做数据、做卡片,是因为我们觉得有个问题需要澄清,而且论点基本已具备,查数据是搜集证据、验证论点。而使用计算机做某项工作,开始时根本就无法知道结论,仅仅是做。我让一学生用比较复杂的算法分析《红楼梦》前八十回和后四十回的作者,结论是什么不知道,因为还没有做出来,目前还处在维度设计阶段,或许会出现完全出人意料的结论。我们已经立项的课题有一项是:“全宋诗中引前人诗、文现象分析”,结论会是什么我不知道,届时计算机会告诉我们很多。

上面所谈的,主要侧重于信息技术发展可能为古典文学研究提供哪些新的维度;下面我们再来看看“今天的古典文学研究本身是否需要有新的维度、新的思路”这个问题。

我们说,首先,即使是从比较传统的视角(也就是20世纪以来,时代发展已经为古典文学研究发展提供的可能和空间)来看,上述需求仍然是很明显的。为什么这么说呢?做个比较就可以看出来——如果将20世纪古典文学研究与其他领域的情况加以比较,也许不难感觉到:尽管本学科领域中取得了相当可观的局部成就,但是在确立宏通和专精的学术标准和成熟的学术方法方面,仍然明显地逊色于历史学等等研究领域。以宏通而论,类似于历史学界吕思勉等等先生那样,在贯通把握中国上古以后历代历史的同时又“兼通经、子、集三部”,对于中国历史和文化体系格局和传承脉络有着深刻完整把握的情况,很难见于文学史研究领域之中。所以尽管20世纪历史学研究曾经受到极大的干扰,但是其气象依然可观,比如它蘖分而出的社会史、经济史、文化史等等一系列研究领域,早已蔚为壮观(在这诸多分支之中,几乎又都有博通古今的大家,例如顾颉刚先生于社会史研究、梁方仲王毓铨两先生于中国经济史研究,等等),这在很大的程度上改变了长久以来人们对于“历史”的肤浅观感和定义;而反观文学史研究,则可能因为格局狭蹙、脉络断续不接,就一直难有那样的气象,常见的反倒是得昆山之片玉、邓林之一枝者,即足以夸世名家。

再以专精而论,则如陈寅恪、陈垣等人那样巨斧开山,以独特研究方法开辟出一个接一个崭新研究领域的例子,亦难见于文学史研究领域,像陈寅恪先生的文史互证,发现思想史、家族史在历代文学史现象中的轨迹等等犀利的视角,都因为其学术创造的基础在于对全方位历史现象和史料的穷尽式把握、在于对中国社会独特脉络的真切体察(陈寅恪从唐代政治、兵制、赋税体制演变的角度切入对中唐诗歌史的理解,此类眼光在研究方法上就具有代表性),因而难以将其发明权划入其约定俗成的“古典文学研究”范围之内。相反,尽管此类成果后来成为了古典文学界几代学人深受其惠的基础性结论,但是古典文学界非但难有继武者发扬其学术方法蕴含的巨大潜力,反而因为转贩、学步时的屋下架屋越见其小,所以很快将其风采失尽。造成古典文学研究上述的局面,其原因固然有许多今人应该抱以“同情的理解”,但是不管怎么说,比较之下,古典文学研究在20世纪以来所取得成绩的开拓性与创造性、尤其是为本学科在21世纪发展准备的条件上面,是有相当的令人遗憾之处。

可以证实此种遗憾的一个更近些的例子是,上世纪八十年代相当一段时间里,不少古典文学学研究者对于研究方法的探索抱以很大的热情,提出了“加强宏观研究”、“引入新的理论方法”等意见;追溯起来,这种尝试很大程度上也是起因于大家对于本学科长期以来研究状况的不满足。而今天值得我们省思的是,这些尝试和提倡未能取得更持久影响,其原因中比较重要的一个应该是:在八十年代条件下,人们实在难以普遍兼具精深的专业基础知识与宏通开放的思维方法。所以在热闹了一阵之后,大家还是不得不很快舍弃了这一有价值的尝试而调回头强调基础功夫的重要。现在回想起来,固然有“惜乎击之不中”的遗憾,但是这样的结果其实乃当时局限之下的必然。只是显而易见,随后的回头路并不能真正解决学科中长期以来的窘困;而且由于当下环境和研究者自身条件与传统时代相比发生了很大变化,所以几乎可以断言,我们已经永远不可能用传统的方法对上述缺憾和不足予以弥补。而经过了这类波折之后,现代信息技术(以及它与传统研究方法的相互激发升华)的引入,尤其是它超越检索工具功能而具有的开拓新的研究视域、提供新的分析手段等等意义,就是很值得珍视的;这种引入的意义,也是在我们总结了20世纪以来本学科学术方法的利弊得失之后才能更深一些体会到的。

其次,从新时期以来整个社会科学研究方法的变革来看,很明显,在法学、社会学、经济学、文化学、传播学、技术哲学、社会语言学等等广泛的领域中,由于学科性质与现实社会和世界潮流之间密切关联的推动,所以改革开放以来这些领域中新的问题、新的研究方法和研究理论的层出不穷,已经成为此类学科的基本态势。粗略说来,在这些学科中,一般每隔6—8年左右,其前沿性学术课题、学术方法、研究者的知识结构、前沿学者的学术面貌等等,就都要有明显的进步、甚至有“代际性”的革故鼎新。比较之下,则古典文学研究领域的情况就形成了比较强烈的反差。不客气地说,在我们的领域,一些研究者袭用旧的方法和旧的材料,重复地做着二、三十年甚至更早以前水平的“研究”,这种情况并不少见。于是学科的整体质量、尤其是学科发展的深层动力就成了很大的问题。这就促使我们必须思考:既然由于学科性质所决定,古典文学研究不大可能、或者一时很难具备现代学术体系必需的那种积极的开放性和常新的动力资源,那么这种现实是否提醒我们尤其应该珍惜现代信息技术对古典文学研究的推动、更为积极地尝试探索两者之间各种可能的结合方式呢?

本文提出“数据分析时代”这个命题,当然首先是基于信息技术的基本特征,但是“分析时代”的这个命题与学术体系和学术方法的更深刻变革之间,或许也有着相互的契合。为什么这么说呢?这是因为在“分析时代”,人们的学术思维方式已经与传统方式发生了重要的变化。当代美国哲学家M ·怀特曾经编著了一本扼要介绍20世纪西方哲学主要成就的书,书名就叫做《分析的时代》。而他对“分析时代”的逻辑起点是这样概括的:20世纪的几乎每一重要哲学运动,都是以对19世纪占统治地位的黑格尔方法的扬弃为开端,因为在黑格尔式的思维方式看来,宇宙的运行、世界上一切事物的关联,都是绝对理念安排和支配的结果;反过来说,人们认识世界的目的,并不在于把握千姿百态的事物性状和具体关联本身,而在于从表象的层面进而理解绝对理念是如何“以一统万”地支配大千世界的。于是“人们有一种传统的成见,总要想寻求确定的标准,……(希望)那样一个牢靠的标准能够提供一块确实可靠的哲人石(点金术),……人们将一种认识作为典范,要求其余认识都追随它的方法,也不管它是神学还是数学。”①

那么这样一种在过去长久地居于统治地位的思维方式,是否仅仅曾经支配了西方思辨领域、是否与我们中国古典文学及其研究风马牛不相及呢?可惜事实恰好相反,因为在我们的文化传统和研究习惯中,把“以一统万”、“放之四海而准”作为基本思维方式的情况是大家最熟悉不过的(“放之四海而准”是二程等宋代理学家常讲的话),只不过现在看来,这种“点金术”越是时兴,得到越多的反而是砆碔糟粕而已,很早的例子比如袁宏道对当时文坛风气的深深感慨:“粪里嚼查(渣),顺口接屁,……一个八寸三分帽子,人人戴得。”②

更可惜的是,这种“八寸三分的帽子”并非只是在袁宏道的时代曾经流行,举一个大家熟悉的例子:长久以来明代中后期文学研究的一个最为流行的理论支点,就是所谓的“资本主义萌芽”说,而年复一年习焉不察的结果,就形成了这样的局面:大家习惯了只有了在“资本主义萌芽推动了启蒙思潮的发展”这个大套子之下,才能具体开始对于当时几乎一切文学现象的叙述和总结,否则纵然有千言万语也不知从何下笔。然而据王毅近年对于中国16世纪前后制度形态之中一系列关键环节(其中主要包括:法权形态、法律制度、行政权力的结构、赋税制度、社会伦理的走向及其机理、国民的政治诉求模式、城市经济形态、统治者与被统治者之间建立法律保障下博弈机制的可能性,等等)的逐一研究,此时的中国制度非但不具有向近现代社会转型的可能,相反其基本的趋势更是完全悖逆于现代制度方向的;也就是说所谓“资本主义萌芽”说不过是一个流布久远的神话而已③——而如果这样的分析角度和方法略有值得留意之处的话,则建立在“萌芽说”基础上的文学史研究,其众多相关结论和构建理论体系的逻辑方式,也许都印证了一句评语:“建立一个使人凄然落泪和奋然而起的永垂不朽的哲学固然很好,但是一座建立在沙土和泥浆上的纪念物又有什么用处呢?”④

举出上面的例子是为了说明:长期以来,我们比较地习惯了“总要想寻求确定的标准”的思维方式,而怯于在“点金石”的灵光之外,去理解和探求世界本真的面目具有怎样远远超乎世人意料的多样性;比较地习惯了对学术“康庄大道”的万众景从和向壁虚构之后的心满意足,却疏于珍视学术林海中通向无数未知之域的万千小径和路旁每一朵具有独特生命活性的小花。不难看到,今天能够给予变革上述积习以普遍推动力的,也许就是在古籍整理和古典文学研究中更积极地引入现代信息技术及其相关的思维方法。

那么具体到这种分析时代的思维方式,它具有哪些值得我们借鉴的特质呢(即使我们不直接使用信息化的古籍和古典文学研究成果,而坚持使用传统的研究工具,这种借鉴仍可能是必要的)?我们说,首先,它至少必须在学术路径上具有比较全面的开放性。苏轼曾鼓励学生说:“他日学成,八面受敌,与涉猎者不可同日而语也”⑤,可见早在那个时代人们就已经明确认识到:获得尽量丰富的信息资源和感受尽量多元化的路径,乃是学术上登堂入室的前提。而今天的研究者通过现代信息的平台而全面拓展和改观自己的知识结构,这实际上就是在更高层面上对于“八面受敌”学术思维方式的充分实现。不同的是,在苏轼的时代这样的方法只能出于少数极具天资灵性者的颖悟,但是在今天却完全有望成为更多人们的便利工具。

以本文前面提到的“多属性标记本文或多维度的数据仓库(Databank)”为例,这样的数据库模式以及它的不断完善强化,给使用者提供的信息界面就是多元的和尽量全方位的(比较于传统视角而言),多元入口和路径之间也可以实现尽量便捷的转换与切入。比如以某一作家的生平家世为焦点,可以迅速排列比较同时代和异时代的多个、甚至多组作家的类似背景资料,从而发现其中各种关联和变化的脉络。又比如从某个重要作家的家世和作品系统,可以方便地切入与此相关的众多时代事件的信息系统之中;如果需要,还可以进一步了解诸如官制、地理、经济、民俗、宗教、中外文化交流等等所有某一具体事件背后复杂弘阔的背景,了解它们在一个长时段中各自的沿革脉络、相互关系等等。这样一来,类似陈寅恪先生那样,以中国制度文化横、纵两大线索的交织关系(这横向线索是:制度形态和制度机理在众多具体文化门类中的广泛分布、其纷纭杂陈的各种表象;而纵向的线索是:制度形态在很长历史时段内的复杂沿革和变化)为起点,而开始对每一个具体文学现象的研究说明,这种方法对于我们普通研究者来说,可能就不再是可望而不可即的“挟泰山以超北海”了。

而分析时代思维方式中更重要的一点,则在于“研究过程”与研究者、研究目的之间积极的互动性;或者说,重视研究过程本身的开放性和多元化的创造性。我们在上文中提到,传统思维方式统领之下人们比较经常采用的研究方法是:论点已经具备,然后以此为目的而去查找数据和排比证据,因此在这个过程中,思维的方向和逻辑关系其实相当程度是由预设的研究目的和结论所固定了的。但是在引入现代信息方法之后,情况就会发生很大的改变;尤其是当“多维度的数据库”系统等等手段有了比较充分的发展完善、人们可以方便地从非常广泛多元的视角(比如文化诸多领域的信息资源之间、古今信息之间、中外信息、人文科学与某些相关自然科学领域之间等等参照关联的路径已经充分发达)进入无数具体的研究界域时,则这个进入研究的过程本身,其蕴含的信息量、尤其是它蕴含信息的开放潜能、扩展潜能和升值潜能,就必定是极大地超越了进入该具体研究界域之前的知识准备和逻辑预设,于是研究过程的展开就再也不会仅仅是对已有学术假说的论证、对预设认识路径的修正和充实而已,而必然是研究过程与研究者之间的一种全新的互动关系,这种积极的互动包括:研究视野以几何级数的极大拓展,多种研究方法及其结论的相互比勘、筛选、组合,对于研究者已有假说的论证、逻辑延伸、质疑、归谬等等正反结果的交互式演示,众多相关研究层面和研究对象的涌现及其它们逻辑关联的展现,等等。

上文中曾提到,现在开始的一项研究正在尝试用比较复杂的算法分析《红楼梦》前八十回和后四十回作者之间的关系,其结论是什么现在并不知道,或许会出现完全出人意料的结论;还提到“《全宋诗》引前人诗、文现象分析系统”会给我们对文学史的发展传承关系(比如经过文学史的发展过程,后代作品中结晶出了哪些经典的意象、主题,这些结晶的形成与作者的地域分布、阶层分布、时代分布等一系列复杂参数之间的关系链,等等)提供哪些信息,这在成果出来以前是难以预知的。我们说,诸如此类研究结果的“未知性”,其实就显示着分析时代思维方式的特征;而且在将来我们的信息分析手段进一步发展完善以后,这些思维特点会更加有力地显现出来、并且可能给予研究方法的变革以更大得多的推动。在我们的文化和学术习惯之中,曾有不甚重视“过程”的传统,⑥ 其实在现代科学中,“过程本身”的创造性有着非常积极的意义,比如“旅行者探测器”对于火星的探究,其重要性在相当程度上不是限于印证天文学家根据在地球上的观测而获得的结论、提出的种种假说,而更在于获得一个新的视角之后发现以往人们根据地球视角根本想象不到种种宇宙现象。在自然科学界,人们早已接受了这种研究思维方式和科学发展的方向;而由于现代信息科学的泽惠,这个方向也已经显露在古典文学研究者面前了。

其实,注重过程本身的创造性,这并非是中国古典文学陌生的一种思维方法,比如况周颐就曾描写自己只是在进入了具体的写词过程时,才体会到了“不尽之妙”的境界:

吾听风雨,吾览江山,常觉风雨江山外,有万不得已者在。此万不得已者,即词心也。而能以吾言写吾心,即吾词也。此万不得已者,由吾心酝酿而出,即吾词之真也,非可强为,亦毋庸强求,视吾心之酝酿如何耳。

吾苍茫独立于寂寞无人之区,忽有匪夷所思之一念,自沉冥杳霭中来,吾于是乎有词。⑦

他在这里提出的命题包括:必须在进入思维过程之后,才能更积极充分地感知大千世界的无限丰富性;在进入过程后的信息反馈刺激下,思维也才能获得更高的活跃性和创造性;只有这种思维方式和思维状态下才能使人们真切地把握世界和自己的心性;此真切性与“强求”“强为”状态之结果的本质区别,等等。毫无疑问,这些命题不仅是我们理解古典文学境界的钥匙,而且也颇可以启发我们对于信息时代研究思维应有方向的理解。比如我们前面提到由于计算机工作原理与人脑的不同,所以使研究过程中的逻辑方向具有了比以往大得多的不确定性和变化机率,而实际上这种特点是一个比较开放的思维空间或多或少都可以具有的,比如况周颐所形容“忽有匪夷所思之一念自沉冥杳霭中来,吾于是乎有词”,说的无疑就是进入词作过程之后创作的逻辑方向、创作的动力来源等等多重不确定性。再比如况周颐强调人们心智结晶的“不尽之妙”是只有在思维高度活跃的过程之中才能产生的;显然,他对于“过程”创造能力无限性的这一说明,也多少预示了一种与传统的预设性思维不同的思维方式特点。

尤其是,况周颐强调只有在充分的思维活性(这一点在今后可以越来越多地借助于电脑)与充分的人性体验审视⑧ 这两者共同的基础上,才能有“吾词之真”,而这一点对于我们确立信息时代应有的学术标准,对于我们摒弃古今那些以“八寸三分帽子”为模本而建立起来的所谓“放之四海而准”,显然是有启发意义的。

以上我们简略地叙述了“数据分析时代可能给古典文学研究的发展提供什么样的开放性空间”这个问题,叙述的重点落在比较乐观的方向上;但是另一方面,要具体实现诸如此类乐观的设想,其过程中的需要克服的困难是很多的。“面临的问题与亟须克服的困难”,这也是郑永晓先生文章的最后一部分的标题。他指出字是当前古籍整理的一个瓶颈。凡是用计算机做古籍整理的人没有人不为字头痛的,不知道GB或GBK是怎么制定的,可能更多是拍脑袋拍出来的。根据书同文的统计报告,三万余字就可以解决《四库全书》中近八亿汉字中99.99%的字的问题, 可是我们拿着七万多“汉字”却解决不了古代核心典籍的问题。GB2312时,有6763个汉字,根本无法处理古代文献,如沈璟、李璟的“璟”字没有,是字少吗?不是,而是拍脑袋拍出的垃圾字太多,占去了资源。我用GBK的20902个汉字整理古代核心文献,十三经、二十五史、全唐诗、全宋诗、全宋词、诸子中的重要书籍,约两亿汉字,所缺汉字五千多个。GB18030 EXT-A推出来时、增加了6582个汉字,我想这该够用了。在补字的过程中,却始终保持在80%的缺字率,也就是说,每一百个所缺的字,用这六千多“新”字去补,仅能补上二十个,这六千多字仅有一千多对整理古代核心数据有效。后来,方正超大字符支持到六万多字,增加了B平面的数万汉字,我再次用EXT-A和EXT-B来补,仍保持20%的缺字率,二十五史使用20902个汉字的GBK,缺字一千八百多个,而增加了四万多字以后,仍缺近四百个,这不是什么国际标准,而是国际玩笑。

不能保证汉字的标准与规范,就必然会影响到计算机对所有的文献整理和分析,不仅仅是古籍。

注释:

① 详见(美)M·怀特编著、杜任之等译《分析的时代——20世纪的哲学家》,商务印书馆1986年版,第7—8、242页。

② 袁宏道《与张幼于》,见郭绍虞主编《中国历代文论选》第3册,上海古籍出版社1980年版,第211页。

③ 详见王毅近年发表的若干论文,例如:《16世纪前后中国的“权力经济形态”及其主要路径——中国皇权制度下城市经济悖逆于近现代制度方向的典型例证》,《中国文化研究》,2004(4); 《明代通俗小说中清官故事的兴盛及其文化意义——兼论皇权制度下国民政治心理的幼稚化路径》,《文学遗产》,2000(5);《“王法”“官法”与宪政法理的根本分野——中国传统权力制度的法理学及其逆现代性》,《社会科学论坛》,2002(7),等等。

④ (美)M·怀特编著,杜任之等译《分析的时代——20世纪的哲学家》,商务印书馆1981年版,第15页。

⑤ 苏轼《与王庠·五》,《苏轼文集》卷60,中华书局1986年版,第1822页。

⑥ 比如李慎之先生提到,钱钟书先生曾经告诉他:“在牛津读书的时候, 有一个老师,就是教过宣统皇帝的庄士敦,曾对他(指钱钟书)的论文提出过批评,说是引据不全,又不是原始出典。他说:‘我以前哪里懂得这个,以后就注意了。’”见李慎之《千秋万岁名 寂寞身后事——送别钱钟书先生》,1998年12月29日《新民晚报》。至于西方法律和制度传统中的“程序正义”原则,我们也是近年来才慢慢知道了它蕴含着极其重要的意义。

⑦ 《惠风词话》卷1“以吾言写吾心”、“词有不尽之妙”条,唐圭璋编《词话丛编》第5册,中华书局1986年版,第4411、4412页。

⑧ 况周颐所谓“吾听风雨,吾览江山,常觉风雨江山外,有万不得已者在。此万不得已者,即词心”即属于此种体验和审视。而这种基于人性和心性基础而对于宇宙、历史的精深体味,似乎永远是电脑难以代替的,似乎永远需要苏格拉底强调的那种从超越我们自身的视角而对于人类天性和心智的检省反思——苏格拉底的论断是:所有那些“可以通过计算、测量、权衡弄清楚的事”,都是人类能够把握的,都是“通过学习可以学会的”;但是在这些知识之上,世界还有是由神谨守着的更高秘密。所以对于那些不知道“宇宙的本性”、不知道“考究什么事是敬虔的,什么事是不敬虔的;什么是适当的,什么是不适当的;……什么是精神健全的,什么是精神不健全”等等问题的人,就“可以正当地把他们看为并不比奴隶强多少。”详见(古希腊)色诺芬著,吴永泉译《回忆苏格拉底》第一卷第一章。而之所以说苏格拉底的立场对于本文所讨论的问题具有直接意义,是因为他首先明确告诉我们,在“可以通过计算弄清楚的事”之上,还有人们必须永远“敬虔”的境界;其次,他告诉我们如果忘记了这一点就会沦入“并不比奴隶强多少”的境地,而这些当然是给一切不希望成为工具手段(在今天的工具手段中计算机当然有重要的地位)之“奴隶”者最好的箴言。

标签:;  ;  ;  ;  

数据分析时代与古典文学研究的开放空间--兼论信息工程与古典文学研究的互动_计算机的发展论文
下载Doc文档

猜你喜欢