计算机技术和汉语史研究,本文主要内容关键词为:汉语论文,计算机技术论文,史研究论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]H087[文献标识码]A[文章编号]1001-5442(2000)03-0056-05
电子计算机诞生虽然不到50年,却推动人类以空前迅速的速度进入了信息社会。信息社会的主要特征,是利用计算机进行信息处理,信息革命的浪潮正以汹涌澎湃之势,覆盖人类生活的所有领域。语言是人类最重要的交际工具,是人类社会最早至今也是最重要的信息载体,因此,计算机科学从产生之日起,就同语言学结下了不解之缘,语言信息处理理所当然成为当代信息革命的一个重要领域。
自从1946年世界上第一台电子计算机产生,计算机科学就和语言科学结下了不解之缘。计算语言学(Computational Linguistics),又称语言信息处理,是一门综合性的交叉学科,它涉及到计算机科学、语言学、数学、声学、生理学、心理学和社会学等学科,其中最主要的就是计算机科学和语言学。一方面可以利用语言学的研究成果,促进计算机科学的发展,一方面也可以利用计算机技术,进行语言学的研究。后者,我们可以仿照CAD、CAI,称之为语言学的计算机辅助研究。(Computer-Assisted Research,CAR)
汉语的CAR,最先是在现代汉语领域展开,工作主要是自然语言分析、情报检索、词语统计、风格研究、汉字信息处理等方面。汉语史的CAR,起步相对较晚,工作主要是古籍电子文本的复制,而且由于各种条件的限制,主要是一些研究机构、公司和出版社在进行一些相关工作。最近几年来,计算机技术取得了前所未有的飞跃发展,硬件成本急剧下降,个人电脑迅速进入家庭,存贮量越来越大,速度越来越快,功能越来越强大,操作越来越简单,开始有越来越多的语言学家运用计算机技术进行汉语史的本体研究,本文所说的汉语史的CAR,指的就是这种基于个人电脑的专家研究工作。
我们认为,汉语史的CAR,大致可以分为电子文献的生产,电子语料库的建设,专家知识数据库的开发和专用软件的研制几个方面。下面分别对这几个问题的内容、性质和特点进行一些讨论。
一、电子文献的生产。
文献保存了人类文明的所有成果,对于人类社会的发展有着不可估量的作用。文献的传统载体,主要是纸张,电子计算机使文献有了新的载体——磁盘、磁带和光盘等。电子文献比起纸质文献,有着占据空间极小,存贮量大,检索方便,传输迅速,保存期长等优势,因此,美国有著名的“古腾堡计划”(Project Cutenberg),以每天10万页大约5-6千万字的速度,把各种人类知识遗产转换到因特网上,但是关心教育和知识生产的人士仍然认为这个速度“太慢了”,无法消化人类知识的总资产。
电子文献比起纸质文献,并不就是文献载体的简单转换。电子文献可以利用计算机技术,进行多途径的检索,相关信息的全方位的查阅,迅速准确的分析归纳,文献利用、转换和再生产的一体化,这些功能是传统文献所无法具备的。因此,电子文献的生产是汉语史CAR的先决条件和最基础的工作,也是汉语史CAR开始得最早,取得成果最多的工作。
中国大陆、香港、台湾和海外日本等地的大学、科研团体和出版机构,都进行过电子文献生产这方面的工作。其中成绩最为显著的,应该是北京书同文公司的“文渊阁四库全书电子版”和台北中央研究院的“汉籍电子文献资料库”。“文渊阁四库全书电子版”工程是中国“国家九五重点电子出版项目”,分为“原文及标题检索版”(简称标题版)和“原文及全文检索版”(简称全文版)。标题版即图形版,可以按类属、书目、著者、朝代、卷内标题检索阅读所需文献;全文版除了有标题版的检索功能外,还有全文检索功能,并且配有一些电子形式的工具书,可以帮助读者解决有关的训诂学、文献学的问题。中央研究院的“汉籍电子文献资料库”的开发,至今已经有十四年,计划选择对中国传统人文研究具有重要价值的古代文献,建立全文电子资料库,现在已经完成的有包括二十五史、十三经在内的中国唐代以前的大部分重要文献,并将逐步纳入穴代以下的重要文献。在底本上,“汉籍电子文献资料库”不象“四库全书电子版”受到文渊阁本的限制,而注意了选择好的版本,同时也包括了许多现代学者的标点校注整理本,因此,更符合专家学者进行研究工作的需要。
现存的中国古籍,据有关专家估计,应该在八至十万种左右,目前生产的电子文献,只是其中通行的常用的一部分。专家进行科学研究时,却往往要使用一些不常见的专门的文献,即使是通行的古籍,由于文献学和语言学上的原因,要使用那些特殊的版本。在这样的情况下,汉语史研究者只能自己生产电子文献。
电子文献的形式,主要有文本文件形式和图形文件形式。文本文件是将古籍文字录入计算机,转换成数字形式而形成,图形形式是将古籍版面扫描输入计算机,存为图象而形成。这两种形式,分别相当于纸质文献中的排点本和影印本。
图形型的电子文献,可以保存古籍的原貌,不仅是文字的各种变体,如讹字、缺笔,墨丁、空围,笔画丰腴瘦劲,而且连版面行款,纸质墨色,都可以逼真地加以反映,可以让善本、孤本古籍在存贮传输上获得一个新的途径。这在古籍的研究上,显然是文本文件所无法代替的。但是,图形文件占据的存贮空间巨大,检索手段有限,一般只能按页阅读。这些问题的改进和解决,还有待于计算机技术的发展。所以,现在电子文献的主要形式,还是文本形式。
文本型的电子文献的生产,首先是文字的计算机录入,然后再进行校对、编辑、排版。目前的录入方法,主要有键盘录入和扫描录入,最近,手写录入和语音录入技术也有了长足的进步。扫描输入是利用扫描仪对古籍的版面进行扫描,存贮为图象文件,再通过OCR(文字识别系统)转换成文本文件。一般说来,扫描输入是整页转换,速度应该大大快于键盘录入,但是,目前的各种OCR系统,主要用于铅字印刷宋体的识别,所以只能运用于现代排印本古籍。古籍有写本,有刻本,刻本也是先手写再雕版,除了楷书,还有行、草、隶、篆;文字由非特定人书写,书法丰瘦、方圆、正斜、工拙,变化万端;正文大字之外,往往还有小字注释,有夹注,有旁批,有单行,有双行,有的注释含有几个层次,字体各不相同;字大小不一,同一个字写法不同,行款不整,字间笔画交错勾连,版面漫漶残缺,再加上印章题识的干扰,都会使OCR的识别造成错误。另外,OCR软件所带的字库都不大,不敷使用,不能识别或误识的比例过高。同样,由于能够识别的字远远低于古代汉语的通用字,手写录入和语音录入用于古籍电子文献的生产,也不现实。键盘录入,现在有不少输入法都支持GBK的大字库,但都不是针对古代汉语的,不能运用词语联想、句子输入,只能一个一个字地录入,速度自然比较慢,要是依靠操作员工作,由于其文化程度的限制,错误率也比较高。如果由专家亲自录入,速度虽然略慢,但错误率低,不需要反复校对,质量可靠,实际上效率更高。如果先扫描录入,再由专家补录,或者利用现有的电子文献,由专家边校对边改录,应该是比较理想的方法。
文字录入以后,经过校对无误,就可以进行计算机编辑排版,最终生成文本型电子文献。汉语史电子文本的版式,应该在学术界逐渐统一,以便通用共享。例如各级标题的字号、正文与注文的字体等区别形式,既要够用,又要避免过多不同的类别。可以先进行研究,提出一个方案,然后在实践中逐渐修订,约定俗成。
图形型和文本型的电子文献,都应该有说明(Read me),交代依据的纸质文献的版本,整理的体例等各种问题,方便其他人使用。
二、电子语料库的建设。
电子文献生成以后,可以用来阅读,也可以利用一般的文字编辑软件的查找功能,进行字符串的检索,汇聚需要的信息,还可以将相关的文献链接起来加以利用,这样,就将纸质文献的线性阅读方式变成了一种立体式的阅读方式。但是,如果要利用电子文献进行语言学的研究,还必须进行再加工,将文本分析到字词句等不同层次的语言单位,标注上各种语言学属性。这种根据专家研究工作的需要,进行深度加工,主要用来进行语言学研究的电子文献,我们称之为电子语料库。
最初步的加工,是标注书名、作者、篇章、标题、卷次、页码等文献学属性。可以称作标题式标注。标注完成以后,装入“全文检索数据库”,就可以进行全方位的检索,利用字符串加上各种运算符号,对任意字词句作检索、查询、汇聚、比较、统计。现在由大专院校、科研机构和出版社等各个单位生产的电子文献,大都进行了标题式标注。
图形型电子文献,可以利用图象加工软件切割成各种不同的单位,也可以用来进行检索。1998年深圳大学与北京大学联合研制了“《广韵》电子检索系统”,将《广韵》的字头和训释分别切割出来,并开发成多功能的检索系统。中国古代字书、韵书是汉语史研究的必不可少的资料,但是由于收字字种极多,即使是将来全汉字字符集开发成功,也难以处理。“《广韵》电子检索系统”的研制成功,为字书、韵书类电子语料库的建设,开辟了一个可行的途径。深圳大学正在建设《中华大典》即中国文史典籍数据库,并制定了《中华大典·汉语文字音韵数据库规划书目》,第一阶段计划共六类八十五种,包括了汉代以降重要的文字、音韵、训诂学典籍。目前,《龙龛手鉴》、《集韵》检索系统也已经调试成功,并准备联合有关单位,分工合作,加快建设工作。
如果要进一步进行语言学的本体研究,仅仅对电子文献作标题式标注是不够的,必须根据研究的目的,对各种语言单位分别进行音类、义类、词类、句类、语法类别以及各种关系等不同属性的标注,然后装入关系型数据库,就可以进行专题研究了。这种标注,可以称为属性式标注。
属性式标注,是一项费时费力,而又学术性十分强的工作。标题式标注可以让操作员做,而属性式标注只能由专家亲自进行。文本标注,相当于传统研究工作中的研究卡片的制作,但是并不需要一张又一张地抄写,也不必根据不同的研究目的一套又一套地制作,而是可以根据需要,自动生成不同用途的数据,一次标注,多次受益。
电子语料库提供的功能的大小,检索的深度,显然跟属性式标注的精粗密切相关。标注的类别和等级,根据研究的目的和学者的学术观点,当然有所不同。但是,汉语史学界还是有必要就一些基本的标注类别、等级及其符号进行协商,取得一致意见,这样就可以分享彼此的工作成果。
目前可以用于文本标注的软件,都不是针对汉语史研究的,很多甚至不是为了汉语语言分析而开发的,因此,汉语史电子语料库的属性式标注,必须手动进行,这是一项繁重的工作。我们期望能有可以用于汉语史电子文献自动分词、自动断句、自动标注的软件早日问世,专家只须对结果刊谬补缺,这将大大减轻属性式标注的劳动强度,加快工作进度。
三、专家知识数据库的开发。
所谓专家知识数据库,是将古今中外学者研究汉语史的成果,开发成关系数据库,以便查询使用。华中理工大学的《古今字音对照手册》的计算机分析系统,上海师范大学的古代音韵和现代方言读音数据库,湖北大学的中古韵书的反切及自动识读系统,深圳大学的《广韵》、《龙龛手鉴》和《集韵》电子检索系统,都是将音韵学家的研究成果开发成的专家知识数据库,可以查询标注汉字的古代韵书反切和声、韵、调、摄、等、呼的音韵地位。
我们认为以下一些专家知识数据库,是亟待建设开发的项目:
1文字学方面:汉字的文字学结构,造字本义,《说文解字》部首,通假字,古今字,异体字,繁简字,正俗字,避讳字……
2音韵学方面:汉语上古、中古、近代音音韵地位,韵书音系,反切,直音,读若,譬况,西洋罗马字注音,方言读音,亲属语言读音,域外方言读音,借词读音,对音……
3训诂学方面:《说文解字》类字书,《尔雅》、《广雅》类雅书,《方言》类书,《释名》类书,《广韵》类韵书,经传注疏……
4词汇学方面:连绵词,复音词,异体词,拟声词,同义词,反义词,类义词,外来词,名物词,各类专科词语……
5文体学方面:历代诗、词、曲韵,诗、词、曲、骈文等各种文体的格律……
6文献学方面:版本,刊工,校勘成果,书目,文献解题,同书异名,异名同书,引用书目,交游书目,典籍篇章名称,辑佚书……
7历史人物方面:人名,姓、氏、名、字,别称,室名,别号,庙号,谥号,疑年录,登科录,题名录,简历,著作目录……
8时间地理方面:朝代,年号,中西回史历对照,不同纪时法的转换,中外大事记,地名历史沿革,古今地名对照,地名异称,中外交通,历史地图……
9古代汉语知识方面:词义,语法,修辞……
这些专家知识数据库如果都能予以开发,将会对汉语史研究的自动分词、自动断句、音韵分析、语义分析、语法分析提供良好的条件,对学者的研究工作带来极大方便。
汉语史专家知识数据库涉及的学科广泛,数量庞大,必须各方面的专家学者通力合作,才能逐步开发完成,同时,也必须注意数据库软件的通用性。现在关系数据库软件很多,考虑到基于个人电脑的汉语史的CAR,是非计算机专业的学者的研究工作,应该选取那些易用而又功能强大的,面向对象的中小型关系数据库,例如Access等。Access作为关系数据库具有以下特点:从外壳到内核全面汉化,不仅全中文的工作界面适于汉语史的研究者,而且对双字节完全支持,具有强大的汉字处理能力;功能强大,是一种32位的数据库管理系统,系统容量极大,支持大型数据库文件或超大型数据库文件,完全可以满足汉语史OCR的需要;易用性,具有面向对象的可视化编程能力,提供了大量的向导功能,使用者即使不懂计算机语言不会编程,也能轻松地处理数据;集成性,与Microsoft Office中的中文版Word、Excel、PowerPoint、Graph等应用程序构成办公自动化集成套件,并辅有Intemet功能,可以互相共享数据,汉语史研究者用来撰写学术论著十分方便。如果汉语史学界在开发专家知识数据库时,能使用同样的,至少是通行的能互相兼容的中小型数据库管理系统,同时又有比较一致的功能设计和用户界面,就可以非常方便地共享彼此的工作成果。
四、OCR专用软件的研制。
汉语史专家进行科学研究时,常常要对语料进行分析、归纳、计算,具有形式化的特点,可以编制计算机程序,让电脑代替人做这些繁重而机械的工作,迅速、准确而不易出错。如果说,电子语料库的使用,相当于传统研究工作中的研究卡片的抄录,那么,汉语史OCR专用软件的运行,就相当于研究卡片的排次、分析、甄选、归纳、统计。
OCR专用软件的研制,现在也有一些成果。四川大学研制了“中文索引编制系统”,用于古籍整理和出版,索引和排版同步进行,成功地为《全宋文》编制四角号码、笔画、汉语拼音等索引。湖北大学目前正在制作“《诗经》语言分析全息系统”,准备对《诗经》的语言进行语音、词汇、语法、修辞各方面的全方位的分析研究。华中理工大学研制了“反切系联整理系统”和“诗文用韵系统整理程序”,“诗文用韵系统整理程序”是国家“九五”社会科学研究重点项目“隋唐五代汉语语音史”研究的一部分,能自动处理隋唐五代数百年间几万首诗歌的韵字,整理用韵情况。中山大学研制的“古代押韵材料的数理统计”软件,可以对诗文韵字进行“辙离合指数计算”、“韵离合指数计算”、“T分布假设检验”,通过数理统计(概率统计)确定韵部分合。
另外,美国暑期语言学研究班、美国纽约城市大学、中国社会科学院和上海师范大学分别研制的国际音标字库,对于汉语音韵学的研究是十分必要的,特别是上海师范大学研制的国际音标,不但数量最全,而且自带输入工具,使用十分方便。湖南师范大学和湖北大学也分别在研制适合于古代汉语电子文本文献录入的汉字输入法。北京书同文公司制作“文渊阁四库全书电子版”时,开发了“多特定人准规范手写文稿的识别”的OCR软件“校得快”的校对软件,前者用于《文渊阁四库全书》的汉字识别,正确率平均达到92%,后者可以将OCR识别的结果,同扫描的图象一一对应进行校对,也可以按单字类聚非顺序式浏览校对或者重点检查最可能出错的文字来进行校对。这些软件,虽然并不是专门用于进行汉语史的本体研究的,但是对于汉语史的CAR,也是十分重要的。相对于汉语史CAR的专用软件,我们可以把这一类软件称为汉语史CAR的外围软件。
汉语史CAR的外围软件,例如适合于古代汉语的汉字输入法,OCR软件,自动校对系统,全文搜索引擎,关系数据库管理系统等等,虽然并不是专门为汉语史的本体研究研制的,但应用面比较广,可能还具有商业开发价值。汉语史CAR的专用软件,根据学科的性质和研究的目的而不同,应用面窄,限于专家使用,是一种非主流的专用软件,只有学术价值,不会产生商业利润,不能指望计算机软件公司或者软件专家主动来进行开发。同时,根据我们的经验,汉语史CAR的专用软件的研制,是一项极富挑战性的开拓工作,与一般的应用软件的设计性质有很多不同,不仅需要计算机编程的知识和经验,而且还需要有关汉语史的专门知识,这对于计算机专业出身的一般软件设计人员来说,可能是一种陌生的不容易了解的学术信息,编程也不是很容易,编写出来的程序往往并不一定符合我们的要求。因此,汉语史研究者必须掌握一两种常用的编程语言,学会独立编制自己所需要的汉语史CAR的专用软件。理想的汉语史CAR的专用软件,应该是语言学家熟练编程的产物。
研制汉语史CAR的专用软件时,应该注意界面的设计。界面是软件和用户的接口,软件如果只是自己使用,开发者的注意力可能主要集中在功能上,界面也许并不是十分重要的因素,通过直接输入命令来控制程序的运行,更为简便快捷。但是,如果还想让更多的同行也能分享自己的成果,就应该设计出友好的可视化的界面,设置窗口、菜单、对话框和工具栏等操作单元,利用图象或文字表示程序或命令,将命令的执行、程序的运行与可视化的操作有机地联系起来。这样,用户就不再需要记忆各种枯燥难懂的程序、命令及其功能,对计算机不熟悉的汉语史研究者也能正确而方便地使用这些软件。
计算机并非能代替人的所有工作,CAR的专用软件的运行,只是专家科学研究的一种辅助手段。编制计算机程序,用来整理语料,排比材料,迅速而准确,特别是对海量资料的处理,计算机更具有人所不可能具备的优势,但是,科学研究更重要的工作是定向、判断、推理,这些却不是计算机的特长。汉语史CAR的工作,实际上是一种人机互动的过程。计算机对语料的处理,是根据专家给定的条件工作,只要符合条件,就会运行程序给出结果,必然和偶然,规律和例外,通例和特例,一视同仁,混而不分。这时就必须进行人工干预,专家对运算结果进行分析,再进一步给定条件,让计算机再一次处理语料,剔除特例和例外。专家不断地发现问题,计算机不断地按照人的要求解决问题,如此人机互动,反复运作,直至最终得出人们预期的结果。
根据研究,专家学者的科学研究,有三分之二或者更多的时间是花费在资料的搜集、整理、排比、分析、归纳的工作上,而真正用来进行判断、推理,抽出科学结论的时间例并不是很多。汉语史的CAR,只不过是将原来由专家进行的对语料的处理工作交由计算机去做,利用电子语料库和专家知识数据库来搜集语料,通过编制程序,让计算机来整理、排比、分析、归纳语料,让专家从烦琐的手工劳动中解放出来,集中精力思考,进行科学研究。因此,汉语史的CAR,其实质是将计算机对语料的形式化处理,和专家对语料的分析判断结合起来,充分发挥计算机和人的各自的特长,从而推动汉语史的研究的迅猛发展。