罗伯托#183;布萨和世界最早用计算机辅助编辑的巨著《托马斯著作索引》,本文主要内容关键词为:托马斯论文,巨著论文,索引论文,著作论文,编辑论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
电子学术编辑的起源和发展是我国学术界和编辑出版界关注的论题。意大利学者罗伯托·布萨作为把计算机技术应用于人文科学的先驱者和相关的新学科的创始人,从1949年至今的半个多世纪里持续不断地推动着西方电子学术编辑的发展。他的创举和主要贡献,国内尚未有专题文章论述,笔者利用所能看到的意、德、美、英等国的有关资料初次在本文中作简要的回顾和介绍。
一、罗伯托·布萨的创举开辟了电子学术编辑的新时代
“电子学术编辑”(electronic scholarly editing)指依靠计算机等电子设备/网络技术、按照学术或科学要求从事的作品编辑活动,这样编制出来的版本称为学术版(scholarly edition)。编辑的对象可以是自然科学的作品,也可以是人文社会科学的作品。就出版业来说,电子学术编辑的基本任务是为出版准备可靠的、科学的电子文本。电子文本最初是用来制作印刷型出版物的,后来也可以用来制作电子出版物,并由最初的纯文本发展到后来的超文本和含多媒体的文本。电子编辑起源于信息检索、语词索引和文摘制作自动化的需要。电子出版物编辑活动始于20世纪50年代末60年代初用计算机编制电子科技期刊。美国化学文摘社在1961年出版的用计算机编辑的《化学题录》(Chemical Titles)双周刊磁带版是世界最早的电子出版物,而印刷型出版物的电子编辑工作早在1940年代末就有学者开始探索并付诸实践了。
电子计算机本来是为提高计算速度而研制的。美国宾州大学在1946年制成的世界第一台电子计算机——电子数字积分计算机(ENIAC)被用来计算火箭射程、飞行轨迹,它在美国陆军部弹道研究所运行了10年左右。美国数学家、洛克菲勒研究所自然科学部主任沃伦·韦弗(Warren Weaver)在1947年曾与同行探讨过利用计算机实现自然语言翻译自动化的可能性问题,而且在1949年发表了有关机器翻译的论文,但当时尚未具备付诸实践的条件。罗伯托·布萨在1949年开始把电子设备和计算机技术应用于人文科学研究和意大利古典名著的编辑工作,从而开辟了电子学术编辑的新时代。
意大利哲学家、神学家、语言学家和词典编纂学家罗伯托·布萨(Roberto Busa,1913年生于意大利维琴察)在人文科学界率先把电子技术用于编辑书籍。本文所讲的“人文科学”(英语humanities)或“人文社会科学”(德语Geisteswissenschaften),是与自然科学相对而言的,一般指研究社会现象和文化艺术的科学,在外文中采用复数形式时包括哲学、神学、文学、语言学、文字学、历史学、考古学、美术、音乐等多种学科。布萨早年不顾教会当局的封锁,潜心研究亚里士多德哲学,公开加以宣讲。1946年在罗马教皇格列高利大学获得哲学博士学位,博士论文题目为《托马斯著作的内在性词汇系统》,1949年在米兰出版。托马斯(1224/1225-1274)是意大利人,中世纪最著名的经院哲学家和神学家。他一生著述甚丰,全部是用拉丁语写成的,主要代表作为集基督教思想大成的《神学大全》(Summa Theologiae),译成中文大约有400万字。葡萄牙来华耶稣会士利类思和安文思在清初先后分别从《神学大全》原著第一部分和第三部分译出中文定名为《超性学要》和《复活论》的著作,在康熙年间刊行。托马斯的哲学和神学思想体系于1879年被教皇利奥十三世定为天主教的官方学说,后世称之为“托马斯主义”。
布萨在哲学研究生院就读时就开始探索如何实现文献的语言学分析自动化,计划编制《托马斯著作索引》(Index Thomisticus)。他研究托马斯关于“存在”的概念,逐渐认识到仅仅查阅名词“praesentia”(存在)或形容词“praesens”(存在的)这类实词的含义,不足以透彻掌握托马斯所理解的这个重要哲学概念的内涵。为达到透彻理解概念内涵的目的,同时还得把常用介词“in”(在、于)作为关键词,须从托马斯全部著作中逐个找出来连同上下文一起研究,透彻了解它的不同用法。他用手工制作了3英寸×5英寸的卡片1万张,每张抄录一个句子,用了将近4年的时间才把博士论文完成。布萨后来说“我很清楚,处理一千多万个词的文本,我必须寻找某种机械化的办法”,完全靠手工实在太难了。他要编的托马斯著作索引,主要部分是“语词索引”,其中包含托马斯全部著作中的每一个词及其上下文。1949年他在纽约IBM(国际商用机器公司)总部进行语言学分析自动化实验时会见该公司创办人和总裁老托马斯·沃森(Thomas Watson Sr.),沃森听他介绍了自己的计划之后,猛地抬起双手,毅然提出劝告:“即便你的余生有时间可以浪费,也不能干这种事。你的想法似乎比我们这里的美国人还要超前。”(《时代》杂志1956年12月31日)[1]不过,布萨最后还是说服了沃森,争取到该公司对这个项目的技术支持,并指定专人予以协助,共同设计计算机编辑程序。布萨回国后在意大利财政委员会和罗马天主教会等机构的多方面资助下,立即开展工作。作为试验,布萨用IBM穿孔机技术给托马斯用拉丁语创作的4首赞美诗制作了第一本机编的语词索引,共180页,1951年在米兰出版,书名为《圣托马斯·阿奎那的用于宗教仪式的赞美诗语词索引样品——用IBM卡片穿孔机自动编印的语词索引第一例》[2]。
二、《托马斯著作索引》印刷版、只读光盘和网络版的编辑出版
在1940-1950年代,穿孔卡片是存储机读信息的主要媒介。用键控穿孔机给卡片穿孔是把文本转换成机读形式的一种方法。纸卡从左到右有80个编号列,每列有12个穿孔位置。用二进制记数法,在卡片的孔位上穿了孔的表示数码1,不穿孔的表示数码0,1列上若干个孔的特定组合表示1个字符,1张穿孔卡可记录的信息最多为80个字符。读卡机能通过电刷检测出卡片上的孔,将其变成电信号——计算机可读数据,每分钟读卡速度为150张—2000张不等。到20世纪70年代中后期,穿孔卡系统最终为价格已大大降低的计算机磁盘存储系统和具有互动功能的用户终端取代,无须再通过穿孔卡作为中间环节存储和录入信息。
《托马斯著作索引》编辑工作从1949年起先后在意大利的加拉腊特和米兰(至1967年)、皮萨(至1969年)、美国科罗拉多州的博尔德(至1971年)、意大利的威尼斯(至1980年)等多处地点进行,工作组最多时达66人。用IBM穿孔机和其他电子设备编制好的穿孔卡片运送到纽约(总共约500吨,被保存下来集中存放,存放卡片的文件柜正面共有90米长),由IBM公司执行官保罗·塔斯曼(Paul Tasman)用705型计算机把每张卡片上的数据转录到主磁带上进行加工。IBM 705型计算机是第一代使用磁芯存储器的商用计算机(1954年初次生产时1台售价为59万美元,相当于2003年400多万美元),是1950年代中期最强大的数据处理系统之一。数据转录有多种方式:从卡片到磁带、磁带到卡片、磁带到磁带、磁带到印刷机。这种计算机通过穿孔卡阅读器或磁带(1盘磁带可记录500万个字符,相当于2.5万—5万张卡片的存储量)把数据录入计算机主存储器,对所存储的数据进行自动的逻辑运算,每分钟能作出24万次“决定”,过去手工办理需要数周或数月的工作量,几分钟内即可完成。
塔斯曼用了3个月的时间设计有关的应用软件。他在1957年7月份的《IBM研发学报》发表《文献数据处理》[3]一文,介绍了他与布萨共同制定的托马斯索引机编程序,共分6个步骤:1)把文本分解为若干个表示思想层次的逻辑段;2)把文本分解为适于计算机处理的词组;3)把词组拆分成单词,文本所有的词全部收录;4)指出单词的出处、位置和价值;5)给单词归类,按字的顺序排列和标引;6)按要求加以组合。布萨所构想的对文本进行“语言学分析”分两大部分:1)一般索引和语词索引;2)文本分析材料统计。后一部分包括:a.音位和字母、字符组合,语素、前缀、后缀、词尾、词根,声调和重音等;b.单纯按书写形态或语音结构划分的词,按形义结合单位划分的词;c.句子、段落及其他结构单位。
下面是对托马斯《神学大全》等著作进行文献分析机械化的工作过程:
(1)编者选择适用的文本,对文本进行分析,进行穿孔前的编辑加工——准确地标出给卡片穿孔的指令。
(2)打字员使用专用的穿孔机复制文本,把文本转换成计算机能够识读的符号(卡片孔),制作出“词组卡”(phrase cards),每个词组一张卡片。这些卡片包含全文各行的词组,依次排列。词组前头有出处,表示该词组在文本的哪一行可以找到,此外还编有一个序列号和一个参照符。
(3)另一个打字员用校验机把文本的每一个词组打印在已经穿孔的相应的词组卡上端,对卡片进行严格的核对,发现穿孔有错,随即改正,确保文本卡片准确无误。还有一种核对方法是另一个打字员在已经穿孔的卡片上再次给同一文本穿孔,如果结果同前一个打字员的穿孔有出入,指示灯就会闪亮,然后检查卡片上的穿孔,改正差错。
(4)计算机逐个词组排出全文的复制本,从词组卡片自动生成“词卡”(word cards)。这些词卡每张只有文本的一个单词,这就是说计算机给每张词组卡制作出几张与词组卡包含的单词相对应的新卡片。这样,编者就有了一份词卡文档,文本有多少词就有多少张卡片。在计算机制作过程中也自动地给每张词卡附加识别数据。
(5)计算机从词卡自动生成“词形卡”(form cards),无须任何人工参与。所有重复的词在这里都被删除。每个词形不同的词只保留一张卡片。在这个操作阶段,一个“词”被认为是一个两侧以间空为分界的字符串。在每一张词形卡上计算机会自动记录这个词在整部作品中出现的次数——词频,并指明它在所有的词依字的顺序直接排列的词表中所占的位置。表示上述内容的这个词的第一个数字编码,将自动记录在相应的位置上。这个结果是通过下列步骤获得的:
a.计算机把所有的词卡依字的顺序排列。在意大利加拉腊特文献处理中心把《神学大全》约2000页的文字材料制作成约160万张单词卡片。分类排序时这些卡片每张平均要通过分类机20次,相当于机器要处理卡片3200万张,最高速度为每小时6万张。
b.计算机把它检查所有词卡时发现的不同的词打印在纸页上,速度约为每小时6000个词。计算机打印第一个词,后续词如果不同便继续打印,如果相同则不打印,但记下出现次数。在全部相同的词计数完成后,把总数打印在被印词的旁边,后面不同的词也这样处理。
c.作者词汇的第一个总量和实际统计数字表就这样编制出来。与此同时,计算机给另一套卡片穿孔,每个不同的词一张卡片,这些卡片每张都有词频统计和表示所在位置的顺序号。
e.编者审查词形卡片表,把属于同一个形义结合单位的所有不同的词形归并到单一条目下,供编词目表使用。异形同义词归入同一条目,同形异义词分立条目。
编者编出一份完整的语词索引的词目表,然后给每个词目制作一张穿孔卡,依字的顺序排列,附顺序号,这样便形成一套完整的词目卡文档。这是第二份根据作者使用的语词的结构编成的作者词汇总表,但这不是单纯依据词形,而是以形义结合单位为基础编成的。
f.词形卡和词卡并入所属的词目卡中,计算机自动在词目卡上加注词的总频率,即词目词在文本中以不同形态出现的总次数。
至此,计算机共制作出了4套卡片,即词组卡、词卡、词形卡和词目卡,学者和编者可据此进行语言学上的研究分析和阐释,得出所需要的信息,按一定的体例把它们编成大部头的语词索引,计算机会自动编制连续性的页码并打印出来。打印的速度因计算机型号而异,大约每小时4800-60000页。塔斯曼说,对托马斯著作的文献数据处理程序,经过必要修改调整,也会适用于法律、化学、医学、工程技术等方面的文献分析和信息检索。计算机检索技术的应用将开创“语言工程学”的新时代。
编辑工作方法紧跟信息技术的发展,随时改进。托马斯著作索引在20世纪70年代中期在威尼斯IBM意大利科研中心用新一代的计算机照排,最先编出的是全书最有用的语词索引,从1974年起陆续排印,至1980年大功告成,最后编成了百科全书式开本的56卷,书名为《托马斯著作索引:圣托马斯·阿奎那全集索引和语词索引》,由德国斯图加特市弗罗曼—霍尔兹博格出版社印行[4],售价25865德国马克。这是西方在20世纪出版的规模极大的著作之一,有“超级语词索引”之称(1974年新编的《不列颠百科全书》第15版有30卷,1985年的修订版增至32卷)。全书67200页(平均每卷1200页)、150万行、1060万个词,共分三编:
第一编10卷,1-8卷为词目索引和词形索引,9-10卷为索引的词汇学系统、同形异义词系统、类型学系统、数量系统及统计表格。据统计,在全书1060万个词中,普通词(表示事物的某个“方面”,如形态、性质、活动等)占45%,表示事物关系的词占32%,专有名词占11%,代词占10%,指示词占1%,表示不可见的实体的词占1%。托马斯著作索引中的语词有56.84%是同形异义词。从《托马斯著作索引》统计出拉丁语词尾有857种形态,表示3924种意义。
第二编31卷,为托马斯著作的语词索引。托马斯著作共118篇,876万多个词。前100篇确认为托马斯所作,文本编号为001-100;最后18篇编号为101-118,是否真正为托马斯本人所作尚存在疑问。索引分两部分:第一部分为“首要语词索引”,主要是实词,23卷,除1654个词外,托马斯使用的词尽在其中;词条完整地摘录了词的上下文,约3行。第二部分为“其他语词索引”,8卷,收第一部分未收的词,主要是虚词,如连词et(和、与)、介词ad(向、对于)、副词non(不)等。这是印刷版的情况,后来的电子版所有实词条和虚词条的引语长度都已大大扩充。
现将布萨的两种语词索引稍微解释一下:一种是把全书中存在的所有不同词形依字母顺序排列,每一种词形单独立一个条目,称“非词目化的语词索引”,用计算机直接产生;另一种是“词目化的语词索引”,像词典的词目那样编排,依照形义结合的原则立目。词形分析、辨义、区别同形异义词、归类等主要靠人的智力劳动,这项工作需要人机互动,计算机不能自动完成,所以称“计算机辅助编辑”。“词形”(form)和“词目”(lemma)是两个不同的概念。词目是一个词汇单位,词典用来表示词的基本意义及可能有的形态变化。
第三编8卷,为中世纪与托马斯属同一文化背景的其他学者的著作的语词索引。这些著作选收了61篇,编号为119-179,近200万个词,供与托马斯著作比较使用。
最后7卷(第50-56卷)为托马斯著作全集,收入其中的是经过考证的可靠文本,作为补编放在索引全书的末尾备查,前49卷每卷开头都印有托马斯著作的目录。
《托马斯著作索引》在20世纪80年代出过磁带版,共300盒(密度为800 bpi)。在超文本和只读光盘技术可利用后,布萨亲自指导制作托马斯·阿奎那全集超文本只读光盘(一张12英寸的只读光盘),1992年由米兰市埃迪特尔电子出版社出版,1996年出修订第2版(增添了义类词典)[5]。
只读光盘版是按语料库的结构编制的。序言说:索引全书共有10631973个单词,其中8767848个见于托马斯118篇著作,1864125个见于其他作者的61篇著作。所有不同形态的词按词性、词义和用法分类归并成147088个条目,其中20600条不带上下文。光盘语料库有两种超文本浏览方式:1)文本中的每一个词有内部超文本,提供词的附加信息,可查阅语料库同一个词的所有其他形态和同形异义词的编码,旨在帮助了解文义;2)外部超文本,读者可据以检索文化背景相同的其他学者就同样的主题所写的61篇著作的内容,同托马斯著作对某个词的用法进行比较分析,作出自己的评价。
2005年布萨在92岁高龄时与意大利“托马斯·阿奎那基金会”合作,把托马斯著作索引数据库推上万维网,数据库词汇总量为1063万多个词,它们分布在87151“处”,“处”有编号。这个网络版(http://www.corpusthomisticus.org/it)比只读光盘版内容更为翔实,检索方式更多样化。主页显示一排具有不同功能的按钮。例如,在检索框内输入要检索的动词不定式redigere(编辑)一词,点击“语词索引”按钮,随即显示这个词在网络版(全书语料库)的30处有33个用例,当前页面显示前10个用例,要了解其余的用例可查后续的页面。
1990年11月24日布萨在德国蒂宾根大学举行的“电子数据处理在人文社会科学中的应用”第50次研讨会上作题为《计算机在文献中的应用的半个世纪:走向一种“新”语文学》的报告。他在回顾索引的编制经过时说道:“事实上我在1946年就开始探索如何使语言学分析自动化。我在1949年开始跟穿孔卡计算机打交道,给600万张卡片打孔进行处理。IBM计算机一问世我就开始使用。我用二进制数字1/0录入5亿多项纪录,其中包含1行或1个词,并带‘内部’超文本:来自使用8种字母表的18种语言的文本。我用计算机照排了8万页,用扫描仪把1200万字符录入计算机。最后,我把托马斯拉丁文语料库及其超文本16.30亿字节压缩成1.2亿字节存储在1张只读光盘中,没有任何信息丢失。”布萨在报告中解释所说的“语文学”(philology)指“一切界定我们如何说和我们如何写的科学”。他的“语言学分析”旨在发现一种文本中存在的各种成分、结构和范畴并将其加以分类。他强调人文科学要和技术相结合,批评上世纪50年代有些报纸把它们对立起来和割裂开来,好像“机器会危害人类的思想”。他说,今天的专业化使各种学科之间不可沟通是一种文化衰落现象,把人的知识分割得支离破碎意味着破坏人和人类的整体性。任何有关人的领域无不与说或写有关。一切技术同诗歌一样都是人的表现方式,只是目的有所不同而已。在对人的话语或文本编辑加工方面,计算机能做的事还太少。计算机语言学停滞不前的原因是语文学家和编程人员缺乏创新精神,使用计算机必须创造新战略以达到新的目标。一种文本是一个“系统”,所有文本都具有世界统一性,即:一种世界性的、已界定的和可界定的思想结构,这种结构是篇章、段落、句子、小句等许多层次组合的结果。我们的语文学知识还不足以使文本各个层次的结构单位所具有的世界统一性模式化,所以需要一种“新”的语文学。这种“新”的语文学是指对人的宏观认知过程进行微观分析,能使文本系统的世界性模式化,好供计算机使用。[6]
三、布萨和他的机编语词索引对西方电子学术
编辑的发展所产生的影响
“语词索引”是研究文献的重要工具。源自拉丁语的“concordance”,在英语中的使用比“index”(引得)早174年;按照历史原则编纂的《牛津英语大词典》指出,这两个词的始见书证分别为1387年和1561年。“concordance”一词在20世纪20年代被引进我国,起初音译为“堪靠灯”,后来意译为“语词索引”。《牛津英语大词典》给这个词所下的传统定义是“一种书(起初是《圣经》)所载的主要的词按字顺编排的索引,其中摘引它们所在之处的上下文”。不仅指出被检索词的出处,而且摘引被检索词在文本中的上下文,这是“语词索引”不同于“引得”之处。
西方书籍编辑史研究最充分的是《圣经》。研究《圣经》首先要了解其中每一个词的含义,系统地比较同一个词在不同的语境或上下文中的用法是辨别词义的一种重要方法。最早的语词索引《拉丁文通行本圣经语词索引》(Sacrorum Bibliorum vulgatae editionis concordantiae),是法国天主教多明我会圣卡罗的雨果(拉丁文名Hugo de St.Caro/英文名Hugh of St.-Cher,圣卡罗是法国地名)担任主教前约1244-1247年间于巴黎圣雅克(St.Jacques)修道院在500名修士协助下编制的。[7]书名上表示“语词索引”的拉丁语名词“concordantiae”(concordantia的复数形式)据说是圣卡罗的雨果创造的,本意是本书把分散在《圣经》各处的同一个用词聚合在一起。编制这样的索引,目的是便于《圣经》读者比较同一个词在《旧约》和《新约》的不同语境中的用法以弄清其含义。《圣经》分“章”始于13世纪20年代,雨果编索引时尚未分“节”,到16世纪中期才开始分“节”。雨果的索引只有语词出处,没有摘引书中的用例。有史料记载,3个英国多明我会修士后来在1250-1252年加以改编,增添了索引条目,并加了用例,地点可能也在圣雅克修道院,但没有抄本保存下来。
《圣经》及《圣经》以外的名著语词索引,大都未能做到把全部著作中的每一个不同的词立为条目,原因或者是工作量太大,或者是受印刷书籍篇幅和财力的限制,或者由于编者认为不必要。手工编制大作家的语词索引往往需要一个人毕生的精力,20世纪中期以前的做法通常是由一大帮志愿者分头来做,一人承担一小部分,把每个词抄在索引卡片上,再加上下文和出处,然后再加工整理,编成稿本发排。但是,如果工作组织得不好,速度也不会很快。1927年11月10日《时代文学》(增刊)曾报道,英国有一个编辑组在1870年着手编《乔叟语词索引》,从字母A开始,45年后才编到字母H。艾·多·扬(I.D.Young)个人从1940年开始全力以赴地编辑《拜伦诗语词索引》,耗时25年,至1965年才由美国彭伯顿出版社印行,共4卷,主要收编者认为重要的词。她在《前言》中自称这可能是最后一部手工编辑的语词索引。
《托马斯著作索引》的问世首次用事实证明,供语言学分析和学术研究使用的语词索引有必要把某种文献或文集所用的词全部收进去。《托马斯著作索引》的创新不仅仅在这一点,还表现在把索引条目词目化,使它具有词典的某种功能。它分类的系统性、精确性、详尽性超过任何一部索引,还没有一部中世纪拉丁语词典能对每一个词的形态变化能提供如此详尽的语法解释。把索引条目词目化,同时推动了词目化软件的开发,使词典编纂从中受益。《托马斯著作索引》只读光盘版并不是单纯的数字化印刷版,它使印刷版增值,增添了印刷版所没有的功能——具有超文本性和互动性。文本可以用线形和非线形两种方式阅读,文本的结构编排也发生变化:正文像印刷本那样横排,在页面上显示出来;但是,对正文每一个语词的注释或其他附加信息则隐藏起来,以“内部超文本”的方式链接,要点击到它才与读者见面,这样做的好处是避免打断读者的思路。
在电子计算机处于初创时期,布萨以非凡的远见卓识、坚忍不拔的毅力,从研究中世纪拉丁语作家的词汇以及人工智能的语言学和哲学基础入手,率先借助信息技术编纂语词索引,向学术领域的深度和广度进军,用半生时间编成一部大型工具书,用新形式表现死语言,揭示了人类语言和思想最简单的范畴和最深的层次。《托马斯著作索引》分类的系统性、精确性、详尽性无与伦比,不仅对了解托马斯原著内容不可缺少,对促进计算语言学、词典编纂学和西方中世纪学术研究也十分有用。在拥有大规模的计算机语料库之后,学术研究和编辑工作再也不会像传统的做法那样仅仅凭有限的语料样品和直觉地观察了,布萨的开拓性贡献预示了未来的学术著作特别是古籍和工具书的编辑出版工作的发展方向。
由于布萨的影响和计算机技术的进步,在上世纪50年代已有一些用计算机编辑的语词索引问世。1959年美国康奈尔大学出版的斯·帕里什(S.Parrish)编的《马修·阿诺德诗集语词索引》是第一部用计算机编辑的非宗教的文学作品语词索引,共995页,打印出来只用了38个小时,采用照相复制的方式印刷出版。20世纪60年代以来出版的机编语词索引就更多了。1965年用计算机研究和编辑莎士比亚著作的项目已达50个。
1956年布萨在加拉腊特市“阿洛伊斯阿努姆”(Aloisianum)哲学学院建立“语言学分析自动化中心”(CAAL,又称“文献分析自动化中心”),用来培训学者给托马斯著作等古代文献编制索引,研究文本分析方法和计算机编辑程序。他特别重视编辑方法论的研究,因为语料库构建和程序设计是基于演算法模式、逻辑和规则的,需要有科学方法论的支持。在托马斯著作词汇之外,他还处理过使用9种字母表的20种古今语言的其他文献(包括从右向左书写的希伯来文《死海古卷》等)的1100万个词,以检测自己采用的编辑方法和程序是否适当。1983年他把该中心改建为新的“诠释学和词汇学分析计算机化协会”(CAEL)。随后在1985年于米兰天主教大学语言学研究所建立语词符号计算机化跨学科研究组(GIRCSE)。1992年又在罗马教皇格列高利大学哲学系建立了“词汇学和诠释学讲习所”,使学生通过检测词典编纂方法、系统思考语言生成本体论、研究中世纪拉丁语词汇特别是托马斯词汇构建方法论,掌握基于语言学信息技术的文本诠释、词典编纂知识和技能。他在罗马、加拉腊特、米兰等地的大学讲授的课程包括本体论、科学方法论、人工智能的语言学和哲学基础、托马斯著作词汇学和诠释学、计算机文本分析、电子词典编纂学等。
机编语词索引的技术和一个作者全部作品的语料库的建立为分析作者的文字风格创造了有利条件。在上世纪50年代末期有学者开始利用计算机,根据句子的长度、语词用法、文本的词语构成、修辞模式等来考辨文本和作者的真伪。在20世纪60年代初已有第一批研究成果问世。1964年在英语中出现了“computational stylistics”(计算风格学)这一学科名称。有了机读文本,学者可以从多种角度加深对文本的了解。英国学者杰勒德·莱杰(Gerald Ledger)在20世纪80年代不用传统的考证方法,而用计算机的多元统计分析法对古典希腊语拼写法的变化进行分析,以确定柏拉图各篇对话写作时间的先后,重新编制了柏拉图对话集的年代表。
布萨为意大利培养了第一代把信息技术创造性地应用于人文科学和文本分析及编辑工作的人才,安东尼奥·赞波利(Antonio Zampolli,1937-2003)是其中最杰出的代表之一,意大利和国际计算语言学和计算词典编纂学的创立和发展过程的许多决策性的重大创议都出自他手。赞波利在大学统计语言学专业毕业后到布萨创立的语言学分析自动化中心从事托马斯著作电子文本制作和编辑工作,用统计方法分析托马斯《神学大全》,获人文科学博士学位。他参加克鲁斯卡(Crusca)学会意大利标准语电子语料库的构建,从而熟悉文本数据的制作,谋求语料库最佳设计方案和技术的解决办法。他一直同皮萨IBM公司保持联系,1968年出任皮萨国家计算学术研究中心(CNUCE)新建的语言学部主任,随后首次在意大利的大学——皮萨大学开设计算语言学课程。纽约城市大学昆斯学院英语教授约瑟夫·拉本(Joseph Raben)在1966年创办美国第一家把计算机和人文科学结合起来研究的专业刊物《计算机和人文科学》(Computers and the Humanities)并担任主编。拉本在1968年特地到意大利皮萨登门拜访布萨,在他的工作场所目睹键控穿孔机操作员给托马斯著作制作穿孔卡的过程,在那里结识布萨的高徒赞波利。赞波利接受拉本的建议,从1970年起在皮萨成功地举办了多期国际计算语言学夏季学习班,邀请美、英、德、法等国代表这个领域各个新兴学派的一流专家前来授课(例如,有美国约瑟夫·拉本和法国的贝尔南·克马达等),吸引了世界各国的教师和学生前来接受培训。
1956年10月布萨曾在德国文献工作协会于巴特瑙海姆举行的年会上作过有关机编托马斯著作索引情况的报告。布萨和他领导的加拉腊特语言学分析自动化中心主动联合德国蒂宾根大学数学研究所的计算机应用中心和IBM德国公司于1960年11月24日在该校召开“文献分析和词典编纂机械化国际研讨会”,这是研究计算机在人文科学和工具书编辑工作中应用的最早的国际研讨会之一。布萨在会上作了题为《“阿洛伊斯阿努姆”文献分析自动化中心经验总结》报告,这次研讨会在意大利境外有力地推动了德国、英国、法国等西方国家在这个领域的研究工作的开展。
蒂宾根大学从1973年11月起首次举办国际性的“电子数据处理在人文社会科学中的应用研讨会”,简称“蒂宾根电子数据处理研讨会”(Ttibinger EDV-Kolloquien),所谓“电子数据处理”也就是电子数据编辑加工。一年通常举办两三次,最多4次,至2005年2月已连续举办了90次。参加研讨会的除德国各大学和科研机构的学者外,还常有英、法、奥、意、美、加等西方国家的学者。探讨的问题涉及的方面很广,大都是报告自己参加编辑、开发的项目。
研究中古德语的剑桥大学讲师、英国现代人文科学研究协会(MHRA)义务秘书罗伊·威斯比(Roy Wisbey)在20世纪50年代末60年代初从报刊的报道中了解了布萨用计算机编辑托马斯著作语词索引的进展情况,得知自然语言分析研究和编辑工作已拥有强有力的新工具。他借鉴布萨的经验,在1960年6月开始把计算机应用于12世纪德语资料的收集、编辑和研究,1960年11月参加布萨联合德国蒂宾根大学召开的国际研讨会,提交了有关用计算机编制中古德语索引的论文。剑桥大学的“文学和语言学应用计算机研究中心”(现用名称)是威斯比在1960年建议创办的,1964年10月正式成立,由他负责领导。后来威斯比担任伦敦大学国王学院德语系主任和教授,在1973年参加创办以英国为基地的国际性学会——“文学和语言学应用计算机研究协会”(ALLC)。协会每年举行一次国际研讨会,1982年在皮萨举行的第七届国际研讨会讨论的主题为文学和语言学应用计算机研究的理论、方法、实践和问题,包括词汇学、词典编纂学、术语学、词汇数据库、机编词典、语词索引及其他索引编辑、文本处理、内容分析、作者考证研究、写作风格分析、文本考证学、文献统计学、韵律学、定量语言学、历史语言学、自然语言处理、文学和语言学应用的计算机软件开发等。威斯比从2003年起任现代人文科学研究协会会长。
法语辞书编纂具有悠久的历史传统。在贝桑松大学文学和人文科学系任教的法国著名词典编纂家贝尔南·克马达(Bernard Quemada)1957年在学校建立配备有穿孔卡机等电子设备的实验室,进行用电子技术编纂词典的研究。他主编的《词汇学手册》(Cahiers de lexicologie)杂志1959年创刊,最初每年出1卷。他筹办的词汇学研究机械化国际研讨会1961年6月在贝桑松大学举行,与会的都是法国国内外研究词汇分析自动化的带头人。布萨应邀参加会议,在会上作了题为《加拉腊特文献分析自动化中心工作情况》的报告。这次会议的论文集由克马达主编,作为《词汇学手册》第3卷在巴黎出版。
罗伯托·布萨被认为是把电子编辑技术应用于人文科学的先驱者和相关的新学科的创始人。他经历了信息技术发展的各个阶段(穿孔卡—磁带-光盘-互联网),曾参加过100多次国际研讨会来推动电子文本编辑的研究。据1998年底的出版目录统计,他撰写的论著达350种(其中90种为书,其他为论文),约7.5万页。布萨是国际公认的在1949年把计算机应用于自己的工作——编制托马斯著作索引——的第一位人文科学学者。美国的计算机和人文科学协会(ACH)和英国的文学和语言学应用计算机研究协会(ALLC)联合设立罗伯托·布萨奖,奖励在人文科学应用计算机研究方面作出杰出贡献的人,每3年颁发一次,第一次在1988年授予布萨本人。ALLC的第一荣誉会员就是布萨,他被称为“文学和语言学应用计算机研究的创始人”[8]。拉特格斯大学和普林斯顿大学联合建立的人文科学电子文本中心(CETH)在所写的《人文科学应用计算机研究和电子文本简介》[9]一文中讲人文科学应用计算机研究的开端是以布萨用计算机编辑语词索引为起点的,并说大多数人文科学家都这么看。伦敦大学国王学院人文科学应用计算机研究中心威拉德·麦卡蒂在2002年为《图书馆和信息科学百科全书》(纽约2003年版)撰写的《人文科学应用计算机研究》(Humanities computing)条目稿说:“人文科学应用计算机研究,据称始于1940年代末期意大利耶稣会学者罗伯托·布萨神父着手编辑圣托马斯·阿奎那著作的语词索引详编——《托马斯著作索引》。布萨的开发项目及随之而来的深入考察被广泛认为是带有奠基性的,对语文学、语言学和文学应用计算机研究来说尤其如此。”[10]西方国家许多大学都招收“人文科学应用计算机研究”、“数字人文科学”研究生,美国波士顿大学艺术与科学研究院编辑研究所在2000年还开始招收和培训攻读编辑学硕士(MA in Editorial Studies)和编辑学博士(PhD in Editorial Studies)学位的研究生。学术编辑是这些研究生必修的课程,讲授电子学术编辑史一般都要从罗伯托·布萨在1940年代末策划和着手编辑《托马斯著作索引》讲起,用电子手段编辑自然科学著作的学术版,起步要晚一些。圣托马斯著作内容广博,涉及地中海地区4000年的历史和文化,意大利有关的学术团体在2002年计划用10年时间把布萨主编的这部《托马斯著作索引》从拉丁语翻译成现代语言,以便更多的读者利用。