语音学与信息技术,本文主要内容关键词为:语音学论文,信息技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
引言
语言是人类最重要的交际工具,它也是人类思维的工具。人类的发展进步始终和语言是密切相关的。从人猿能直立行走随之产生了言语起,文字的发明、纸和笔的发明,无不将人类社会推向了一个又一个新阶段。印刷技术的发明使得人类的思想交流、文化传播、历史记录进一步打破时空的限制,知识和经验得以世代相传。我们中国人在这一发展历程中作出了重大的贡献。这是我们一向引以为骄傲的。
当人类进入工业化社会以后,一种新的语言机器——打字机发明了(最早是由英国人Henry Mills设计并于1714年取得专利, 但是实用化却在一百年以后。1873年才开始在美国生产出售)。他给人们带来了方便,节约了时间。在西方社会几乎人人都用打字机。可是,对于我们汉语,打字是一种专业,打字机是庞大昂贵的设备,没听说有哪个家庭使用的。中国人失去了一个打字机时代!
当今人类进入了信息社会,语言作为交际工具的作用更加重要,其职能也在不断扩大。计算机科学与技术的发展,不但对语言研究提出了新的要求,同时也给它带来了新的方法和工具。80年代初日本人首先提出“第五代计算机”,便是以具有自然语言输入/输出能力为主要目标的。虽然没能实现,可是却大大地促进了语言和言语研究。
语音是语言的物质外壳。人们早就致力于语音的研究与应用。中外文献中都可以看到,人类采用语音与外部世界交往(或对它进行控制)的奇妙幻想和美好愿望。《天方夜谭》中阿里巴巴用口令“芝麻开门”的故事;《封神演义》中,更不乏“口中念念有词”来控制法宝的叙述。在过去很长时间,这些也都只能停留在幻想上,而无法真正实现。时至今日,信息社会和计算机时代,高科技手段已经有可能把它付诸实现了。人机语言通讯已经成为必需的手段,接纳机器作为语言集团的成员也是不可避免的。语音学也随着人类社会的进步而不断地发展着。它从过去主要研究语音分类,改进语言教学的分类语音学,发展成为今天的从研究语音的发生到语音感知,也就是从说到听整个言语链条中各个环节的科学语音学。语音学是与语言学、声学、心理学、生理学(特别是神经生理学)、逻辑学、计算机科学等密切相关的一门跨学科的学问。因而,在今天什么是语音学?谁是语音学家?已经成为颇难给出准确回答的问题了。
本文试图从语音学的历史、现状以及未来发展,作一些简要的叙述和讨论,以便认识我们汉语语音学研究所处的位置和看到应努力的方向。
一 史的叙述
西方早期的言语研究,大多是由医学界人士进行的。早在公元2 世纪希腊的医生便说明了言语的呼吸。到了17世纪末就认识到,嗓音是由于声带振动,对通过声门的气流所产生的调节作用。最值得一提的是,一位匈牙利工程师Wolfgang von Kempelen(1734—1804), 曾设计制造了一架会说话的机器,并著有《人类言语机制》一书。〔1 〕在当时产生了巨大的影响。他对同时代的有关言语和语言的知识和推测都作了深刻的评述。他还讨论了聋人的符号语言,言语和语言起源问题,还对不同语言之间作了音系学的对比。在1779年俄国圣彼得堡皇家科学院还曾以下列问题作为年度悬赏:(1)五个元音A,E,I,O,U彼此不同的性质和特点是什么?(2)能否做出一个像风琴管一样的装置, 准确地产生这些元音?一位叫Kratzenstein的人获了奖。他设计了一组模仿人嘴的共鸣腔的管子。管端有簧片,吹气便可发出相应的元音。著名生物学家达尔文的爷爷Erasums Darwin (1731 —1802 )也曾按照vonKempelen的方法,做出了一台言语合成器。他还用锡箔卷成圆筒放进嘴里发音,通过牙齿咬出的印记,找出该元音是在嘴里的什么位置上发出来的。可见当时语音研究是很受注意的。
到了19世纪,伟大的电话发明者Alexander Graham Bell(1847 —1922)的父亲(Alexander Melville Bell,1819—1905 )从事教聋人说话。Graham Bell从小便受到他父亲的影响, 十几岁的时候便曾经按照von Kempelen想法做语音合成器。他还在爱丁堡大学和伦敦大学受教育。当时电报已经使用,1851年电缆跨越了英吉利海峡。 这就促进了Bell想把语音的声波变成相应的电波,像电报一样沿电线传送到远处的想法。1873年起他还曾在美国波士顿大学教发音生理学。1876年电话终于发明了。有了电话,言语交际便超越了空间限制,从面对面交谈一直扩展到跨城市跨国家,乃至跨越遥远的空间。
电子器件诞生后,给语言机器提供了新的手段,同时也产生了新的要求。1939年在美国的纽约世界博览会上,一台由H.Dudley等人实际建造的发音演示器(Voder),〔2〕可发出能听懂的句子。这是一架类似电子琴一样的装置,有十几个键用以控制电子共振回路,还有一个脚踏板控制音高(由弛豫振荡器产生),以及一个腕杆控制声音强弱。一个操作人员要经过一年多的训练才能演奏。
第二次世界大战期间,由于言语通讯的发展和部队进入不同语言地区的需要,有关言语和语言的研究得到了迅速的发展。不论是语言学还是语音学都在解决实际应用问题中得到了提高。在美国的贝尔实验室(Bell Labs), 原本是为了使电话这个现代通讯工具也可以惠及聋人(这是贝尔父子一直从事的事业),研制了一种把人说话变成可见图形(三维频谱)的装置。这就是声谱仪(Sound Spectrograph),后来形成一种商品叫语图仪(Sonograph)。 这种仪器把语音变成图形(最初显示在磷光带上,以后又烧灼在记录纸上),根据不同语音产生的图形不同,来训练聋人识图,进而理解电话中的言语。由于这种仪器可以把转瞬即逝的语音,变成永久存留的图形,这无疑对语音进行仔细研究是很有帮助的,因此,美国的R.K.Potter等人便搜集了大量英语发音和其它语言的发音,经过分析作图后编辑成书《可见言语》(Visible speech)。〔3〕*书名取的与老贝尔(A.M.Bell)在1867年出版的有关音标的书同名。
这种仪器战后一问世,便迅速被新一代语音学家广泛应用,从而推动了一门新的学科——声学语音学。利用三维语音频谱得出了许多有关语音知识的很有价值的结果。有些是单凭耳听口读无法发现的,比如塞音的重要音征——音轨(locus)。 音轨是塞音后的元音第二共振峰走势所指向的位置,它基本上是该辅音的能量集中区。除了使用仪器以外,这是感觉语音学无法得到的。
与此同时,在美国的哈斯金斯实验室,采用频谱图模式还音 (spectrogram play-back)的方法进行语音合成。〔4 〕研究人员可以根据需要,自己改动某些部分,以考察合成语音的变化。这也叫作用合成来分析,从而获得了不少有价值的结果。这更是传统语音学研究所没办法办到的。我们也在70年代,利用分析—合成的方法,系统地研究了汉语声调在不同语言学层面上对言语可懂度的贡献,〔5 〕从而定量地证明了声学语音学奠基者之一G.Fant对声调语言的推测。
人们长期幻想的用口语控制机器,在50年代也取得了惊人的结果。美国的K.H.Davis 等人,〔6〕在1952年发表了他们口呼数字自动识别装置叫Audery。他们利用第一共振峰和第二共振峰的时变模式,进行模式匹配识别。当对一指定发音人的嗓音调整好系统以后,其识别率可高达97%以上。这似乎十分令人鼓舞,于是一位美国声学家H.F.Olson〔7〕连续研制了三型“语音打字机”(phonetic typewriter)。 敏感的语音学家也加入到这一行列中来。英国伦敦大学学院的D.B.Fry〔8〕首先提出了利用语音的统计资料来帮助语音识别。可惜当今热衷于采用统计方法进行言语识别的许多来自其他领域的工程师们,恐怕已经数典忘祖,记不得这些语音学先驱了。
也正是在这一语音学划时代发展的辉煌时期,中国科学院电子学研究所(现声学所)和语言研究所(现中国社会科学院语言所)开始了汉语言语工程——语音识别和语音编码的研究工作。当然汉语的仪器语音学研究,当首推刘复和赵元任。他们对声调研究做出了开创性的贡献。罗常培、王均的《普通语音学纲要》〔9 〕则是我国语音学研究的代表作。这是十分难能可贵的。因为,正如王力〔10〕所指出的:“…重形不重音的观点,控制着一千七百年的中国文字学(从许慎时代到段玉裁、王念孙的时代)。”“文字的价值的评估,直到民国初年还没有完全改变过来。”正像古代语言学不以语法为对象而以文字为对象一样,我国的语音学研究长期处在不受重视的落后状态。
在信息论的影响下, 加上声学语音学所获得一系列成果的支持,Jakobson,Fant和Halle〔11〕1952年提出了语音区别特征系统。 这是语音学发展中的重大里程碑。这一系统的建立对以后的语音分析、合成、识别和感知研究,都起了很大的推动作用。
到了60年代初期,G.Fant发表了他的著名论文《语音产生的声学理论》。〔12〕随后J.L.Flanagan的名著《言语分析、 合成和感知》〔13〕出版。至今它们仍是经典之作。与此同时,A.M.Liberman等〔14 〕在言语感知领域里提出了范畴知觉和动觉理论(motor theory)。可以说面对言语工程的挑战,言语科学的武库,在80年代以前,一直是游刃有余的。因为语音学研究一向是以实验论证作为新理论的基础的,而语音实验又需要大量的搜集言语事实并进行反复的仪器分析。这在80年代以前,在技术手段上还有相当的难度。
到了80年代后期,特别是进入90年代,微电子技术和计算技术的发展,使得计算机无论在存储容量还是运算速度上都取得了巨大进展。语音信号处理用的各种应用软件也日臻完善。搜集材料建立音档、频谱分析、特征提取、参数变换、编辑合成与图形显示等一系列技术处理都变得轻松容易了。以前是人的想法很多,要等待机器来处理验证,现在反而常常是机器处理得非常快,要等待人能不断地给出新想法新思路来。因而,一时间大量搜集材料不断进行统计分析(有的人甚至主张数据就是一切)的经验主义方法占了上风。隐马尔科夫模型(HMM )和人工神经网络(ANN)已经成了到处可用的“万金油”了。 理性主义的成果正在被召唤和孕育之中。
二 当前状况
从历史的发展,我们已经看到了,语音学和通讯技术,信息理论的相互促进的关系。当前随着全球化信息高速公路的沟通,言语信息的传递和处理更加重要。传统语音学的研究范围已很难适应客观的需求。近年来便出现了言语科学(speech sciences ) 和言语技术 ( speechtechnology)这样的提法,用来涵盖这个多学科交叉和几乎无法界定的领域。在1989年以前,本来只有两个较大的国际会议是语音学界学术交流的公共场所。一个是侧重语音学基础研究的国际语音科学大会 (In-ternational Congress on Phonetic Sciences 简称ICPhS), 每四年开一次,已经开了13次。另一个是侧重应用的国际声学、言语和信号处理会议(International Conference on Acoustics, Speech andSignal Processing,简称ICASSP)是美国电子电工学会(IEEE) 下属的会议,每年开一次,一年在美国,一年在美国境外。由于言语科学和技术发展很快,1989起欧洲言语通讯协会组织召开了欧洲言语通讯与技术会议,简称Eurospeech,每两年开一次,都在欧洲开,但参加者来自全世界。1990年又在日本的藤崎博也教授的倡导下,组织召开了国际口语处理会议(International Conference on Spoken Language Processing,简称ICSLP),也是每两年开一次。会名定为“口语处理”,意在强调言语和语言密不可分的关系。这两个系列会议,很快就吸引了跟言语科学与技术相关的各个领域的研究人员。最近两次会议,ICSLP’96(Philadelphia)和Eurospeech’97(Rhodes,Greece )参加者都超过了千人,可以说盛况空前。
Eurospeech会议虽然偏重技术内容,但是对语音学基础理论颇为尊重。这可以从该会的授奖情况看出来。自1989年以来,每次会上都要选出一位对语音学有突出贡献的人授予ESCA(欧洲言语通讯协会)奖。获奖者有: G.Fant, 1989; J.Flanagan,1991;A.Fourcin,1993;K.Stevens,1995;M.Rossi,1997。这些都是现代语音学界的大师。今年(1997)Rossi 教授获奖后的大会报告是“在韵律上能找到句法结构吗?”, 十足的语音学研究。
Eurospeech’97大会是很有代表性的。本次大会共收到论文1076篇,录用717篇,到会人数近1100人,来自47个国家和地区。 论文覆盖言语识别、言语合成、对话系统、言语分析、言语感知、语种辨认、语音编码、韵律特征、语料库、言语质量评价、发音模型和听觉模型、语音学和音系学等。参加人数超过百人的国家就有美国、英国、德国,我国大陆只有四人参加,台湾有17人、香港有4人参加。
从近年的国际会议来看,下述情况是值得注意的:
1.言语资料库和评价方法:
言语信息的统计处理方法是需要大量的言语事实来做基础的,因而就要广泛搜集大量说话人在实用情况下的言语录音。这种言语材料已经从经过设计的在实验室里的朗读言语(read speech或lab speech )向不加限制的天然言语(spontaneous speech)发展。有了录音,又要对其进行切分(分词、分音节、分音段)和标注(音段和超音段的)。标注可以是自动的、半自动的或是人工的。当前还是以人工标注精度较高。
为了对同一语种的和不同语种的各种语言机器的性能进行比较,就要采用标准化的测试材料和使用标准化的测试方法。这方面工作受到各国的普遍重视,因为语言是有民族特点的。为此在1991年成立了国际言语资料库和语音输入/输出系统评价协调委员会(International Coo-rdinating Committee on Speech Database and Speech I/O SystemAssessment,简称COCOSDA)。每年开会一次,各自报告本国情况, 互相讨论共同关心的问题。我国也是该委员会成员。中国科学院声学研究所和自动化研究所在国家自然科学基金重点项目支持下,用了五年时间初步建立了一套供汉语科学研究和技术应用的资料库。内容包括:45000单词、1200有调音节、数字串、轻声词、儿化词、 双音子和三音子以及单句、短文和对话。发音环境既有严格控制的消声室,也有一般办公室。发音人最多可达120人。 这也算是为汉语语音学研究和汉语信息处理研究建立的一项基础设施。
2.语音(声学)模型和语言模型:
在言语工程中应用最广的统计模型,就是隐马尔科夫模型(HMM )。这种模型是基于概率的一种状态链,在言语识别过程中,可以用在不同的语言学层面上。当前最基本的是在两个层面上,一个是在音段层面上,一个是在单词层面上。前者是根据待识音段的声学特征(特征又借声学参数来表达,一般取以美为标度的线性预测倒频谱,美是音高的单位)与已存音段的模板相匹配来做出判断的。用什么作言语底层的基本单位,是音素、音位、双音(diphone)、 半音节还是音节各自不同。IBM的两万词识别系统Tangora20 用的是比音素还小的音段, 他们叫它fenone。卡内基—梅隆大学(CMU)的识别系统则用更小的音段叫senone,整个英语用了7000多个senone。似乎离语音学的知识越来越远了,所以管它叫声学模型更好一些。我们汉语的语音识别系统则多用声韵母或音节。
在单词层面上则根据前端声学模型识别的结果,利用经过统计得到的单词结合概率,再对单词进行识别。
前几年常用的都是二联词 (bigram)或三联词(trigram)模型。今年在Eurospeech’97 会议上卡内基—梅隆大学和剑桥大学联合推出了建立六联词模型的工具软件。
这些模型工作得好坏主要靠的是对它进行训练。要是只用一个发音人训练声学模型,那换一个别人去使用机器,效果就很差,所以训练用的发音人数量要足够多,一般在100名以上, 并且还得给系统加上发音人自适应能力,才能做到任意人的语音识别。语言模型也是如此,基元越多,要求训练的语料数量成指数增长。即便把模型做得如此复杂,一遇到一个训练集中没有的生词,系统还是束手无策。
3.模拟发音与波形拼接:
在80年代以前做语音合成无不采用模拟人的发音过程的方法。当然有的是从发音生理,如声道构形的面积函数也可以用传输线即分段的四端网络来近似,更多的是在声学上模拟,而不管声道构形。最流行的方法便是利用元音的共振峰参数和辅音强频区。一般选用三四个共振峰,有用串联方式的,有用并联方式的,也有用串并联方式的。最有名的一种是美国D.Klatt研制的合成器,性能较好。 尽管已经产生了几种文语转换系统(如:美国MITALK、KLATALK和瑞典的KTH多语种文语转换INFOVOX),可是都免不了合成出来的语音带有明显的机器味儿。
这种音质问题主要是激励声源处理不当,所以有人便又采用多脉冲激励线性预测编码参数合成。实际上是尽量利用代表激励声源的残差信号。照我来看,根本原因在于语音合成采用的言语产生模型过于简单,只用线性的声源——滤波器模型,特别是在声源上,对声带振动在周期上的颤动(jitter)和振幅上的波动(shimmer)都很少考虑。 至于在声源和滤波器,即声源和声道之间的相互作用(Fant已经证明需要考虑非线性效应),〔15〕就更没有加以考虑了。
可是正当这些问题有待深入研究的时候,一种新的基频同步波形叠加(PSOLA)的合成方法应运而生。 其方法是把适当的语音单元(对汉语来说多用音节)的发音波形数字化存储起来,根据合成语音的需要再把它们拼接起来。为了弥补接缝处的不连续和协同发音,拼接时可以把两个语音单元的基音周期和振幅作适当调整。这样得到的合成言语在可懂度上已相当高,但在自然度方面仍然存在问题。而改善自然度,主要靠韵律特征的把握上,要比提高可懂度更难。PSOLA 方法在韵律特征的调节方面就没有参数合成的模拟方法那么灵活了。所以,言语合成技术也不能认为是已经完全成熟了。
4.听写机与对话系统:
从50年代Olson提出语音打字机的时候起,一直到90年代初, 各国的言语技术工程师都把建造听写机作为言语识别的重要目标之一。 IBM在80年代中研制出的Tangora 5和Tangora20都是以可口授文件的办公自动化为追求目标的。取名Tangora就是由于Tangora乃是创造打字速度最快而被列为吉尼斯世界记录的一位女士。至今十几年了,言语识别率也都可达到95%(单词)以上,可是始终未见付诸实用。新词(未存储或没训练的)处理、环境的影响(噪声、混响)、说话方式的变化、传声器的不同等因素都会使识别率大幅度下降。
实际上从语言学家的角度来看,听写实在是初级的语言能力,也是很容易出错的,因为听音人或听写机完全处在被动状态。这不符合言语交际过程的实际。要想使机器成为语言集团的成员,就必须使它从完全被动的地位变得主动起来,那就是让它既具有语言理解能力又具有语言生成能力。当它不能作出准确的判断时,它可以反过来询问,即在与人的言语交往中消除歧义,纠正错误。因而近年来各国纷纷研究言语对话系统。这就要求把语音学和语言学更加紧密地结合起来。这不但要在语音、词汇和句法三方面都要有有效的处理方法,而且在语用方面和话语(discourse)分析方面还要做许多研究工作。
语音作为当前流行的多媒体技术中的一种媒体,自然不能等到所有基本问题都研究清楚了再开始广泛应用。实际上现在已经在有限范围的具体任务之下,言语技术得到了很好的应用。例如,美国电报电话公司(AT&T)把言语识别技术用在电话接线上,可少用很多电话员。加拿大和意大利把言语合成和文语转换用在电话自动查号上,取得了很好的效果。日本、美国、德国正在联合研制日、英、德语电话自动翻译系统,以图打破言语交际中的语言障碍。现在已建成了实验系统。
三 未来发展
近年来语音学研究领域不断扩展,其主要原因与其说是语音学家主动的开拓,倒不如说是由于相关学科的浸润。当今许多知名的语音学家是来自其他专业的,比如,电机工程、声学、心理学、计算机科学、信息科学等。这是由于社会发展的需要促成的多学科广泛的融合,同时也反映出语音学本身的旺盛的生命力。如果说第二次世界大战对语言学和语音学研究给予了巨大的推动力,那么今天和平与发展的时代将会对语言学和语音学发展提供十分广阔的天地。
信息社会的主要特征之一,就是人与人之间的交往和人与机器之间的交往更加频繁,更加容易,更加有效和更加及时。目前的言语通讯手段正在实现着任意时间、任意地点的通讯,时间和空间已不成为障碍。但是,不同语言集团的成员之间的语言通讯(口头的和书面的),语言隔阂仍是一道难以越过的壁垒,所以,机器翻译和电话自动翻译便成为当今亟待研究的问题。比如,联合国和欧共体都有多种工作语言在使用,文件翻译是一件工作量极大的事。当今国际会议频繁,旅游行业兴旺,但是跨国间的活动常因语言不通带来诸多不便。这与高速的交通工具和快速的通讯手段形成了鲜明的对照。
此外,当我们接受信息机器作为语言集团的成员的时候,显然要对机器进行语言教育。这种教育(训练)是与对人的第一语言或第二语言的教育不同的。无疑这是语言学家和语音学家的新任务。当然在人与机器之间要有一个主从问题。无论在任何情况下,人都应该是主人,而机器只是我们的“仆人”和工具。唯其如此,才更加需要对机器进行良好的教育,这样他们才能对人—主人提供更好的服务。即使是今天的计算机,主要也还是人服从机器。要使用机器,人要接受足够的训练。人机关系是影响信息服务自动化的关键问题。具体到语音学来说,我个人以为下列问题是值得研究的。
1.声学的不变因素(acoustic invariant):
探索语音特征的不变音素,几乎是从声学语音学诞生起,一直持续至今,而且还将继续下去。一个人听另一个人以不同的方式或在不同的状态下说的话,或者听不同人说的话,都是很容易的。显然在语音当中存在着某种不变因素在起作用。可是当机器根据声学参数来完成上述对人来说很简单的任务时,却变得非常复杂而且很不成功。我们在动态的语谱图上也可以看到,同一个语音在不同的语境之下,谱图有很大变化(受协同发音的影响),所以似乎又没有什么不变音素存在于语音特征之中。特别是协同发音的影响,不仅限于相邻音素之间,它可以跨两元音间的辅音而发生作用。
Stevens 为探索声学的不变音素孜孜以求几十年。他还提出量子化学说,用来解决语音的发音参数与声学参数间的不一一对应的非线性关系,并对语音变异问题作出解释。1995年Stevens 获得了欧洲言语通讯协会的ESCA奖,会上报告了他的新成果。〔16〕他采用Halle 提出的把语音特征分成两类:发音器官自由特征和发音器官受限特征。前者是有一类音段其发音方式与发音的时候要加以控制的器官无关,比如像(+辅音性)就是那些在口腔中由狭缝而产生的一些音段所具有的特征,(-连续性)乃是由一处完全阻塞形成的音段特征。发音器官受限特征,则是指定一个或多个发音器官和他们的部位为自由特征提供条件,同时也可能使某些发音器官同时处于主动状态。比如,(+唇音)则表明狭缝是在双唇处形成的;(+高)表示舌体处在高位。Stevens 认为发音器官自由特征的声学相关体现,是比较简单的也是容易确定的,因此可以在语音中先确定发音器官自由特征并加以标记,以此为出发点,然后再去找发音器官受限特征。他采用这种思想对传统上难以处理的唇塞音/b/和舌尖塞音/d/在后随非高元音而部位前后不同的语境下进行观察。他发现,采用三组参数便可以把双唇和舌尖这两个部位的浊塞音/b/和/d/分开。这三组参数是:(1 )辅音爆破在频谱上的最大振幅与后随元音起点处第一共振峰振幅之差。(2 )塞音后元音的第一个全声门波时的第一共振峰频率F1。舌尖塞音后的F1比唇音后的F1要低。(3)塞音除阻后20ms和50ms两处的第二共振峰频率之差△F2=F2[,5]0-F2[,2]0。对于唇音△F2为正值,对于舌尖音△F2为负值。 如此深入细致的工作在国际也是少有的,而对汉语则完全没有做过。
2.从连续到离散,从离散到连续:
人说话都是连贯的流畅的,语音是流出来的而不是迸出来的。从言语信息的载体—声波来看,它是连续的动态的,而不是离散的静止的。在口语变成书面语的时候,文字发明了,把连续的动态过程离散化了静态化了,产生了一次巨大的飞跃,使得人类可以把瞬态的信息永久保存下来。语音学家又把这种记录方式进一步精细化,发明了音标,并在一百多年以前(1888年)使之国际化。这套符号适用于记录各种语言的声音。这可以说是又一次飞跃。人们藉助音标可以分析言语和学习外语。要知道对任何一个连续过程的离散化,都要损失信息和引入噪声的。不论文字还是音标,对口语当中可以传送的言外之意、感情色彩和说话人的个人特征(性别、年龄、健康状况、文化背景、地域情况等)就无能为力了。但是语音学家能把它们归一化,从而利用音标,既可以对任何一种语言进行语音分析,又可以反过来进行合成。这在语言教学上做起来并不太难,可是,采用同样的方法来教语言机器,就很不成功。从电子时代算起,经过五十多年还没能实现预期目标。言语识别系统还不能做成听写机,即不能很好地把连续语音离散化,使之变成准确的音标序列,最终变换成书写文本。倒过来也是一样,给机器一个文本,要它念出来(文语转换),虽然可以做到大体上听懂,但仍然不够自然。至于要求表现出不同的语气和说话方式,那就还差得远哪。
何以如此呢?我想言语行为是集心理、生理、物理活动为一体的组织编码过程。言语信号是集语言学信息、副语言学信息和非语言学信息于一身的人类特有的传媒。在言语活动的背后存在一些心理学、生理学和物理学上的基本原理和特殊机制在起支配作用。就我个人所知,比如说,心理学上的瞻前顾后机制(Look-ahead mechanism),生物学上的省劲原理(Least-effort principle)(相当于物理上的最小作用原理),以及物理上的惯性原理等,就非常有用非常重要。这些原理的运用有些是生来就会的,有些是在不知不觉中习得的。所以,语音学家利用他的听觉提取出来的离散符号——音标,再通过发音器官加以模拟回放,在这个连续—离散—连续的过程当中,上述一些基本原理不知不觉之中便在语言编码和解码过程中起了作用。什么协同发音哪,连续变调呀,说得流利了,自然就出来了。人是活的,可是机器是死的。如何教会它们能掌握言语活动的基本原理,单凭统计方法恐怕是事倍功半的,也是不能根本解决问题的,因为言语事件是无穷的,是发展变化的,未登录词是经常出现的。对人来说不难识别,对机器来说就很困难。
3.音段和超音段:
正是由于言语信号是连续的动态的,所以在语音学家把它离散化,切分为音段以后,还要遇到一些在一个音段以上起作用的特征——超音段特征。比如,汉语的声调和英语的重音,就都是在音节上起作用的。除此之外,在单词、短语和单句上,还有重点(focus)、突出(prom-inance)和语调(intonation) 表现出来。 言语信号本是一个诸种特征的化合物,是你中有我我中有你的。要想把它们完全分开,分开以后又能拼装复原,实在是不那么容易的。语音学家们把它分解成音素。为了探索构成语音的“原子”,结构主义者又把音素分解成区别性特征,而音系学家为了构造简洁的语音系统又喜欢采用音位。对于言语工程应用,为了减少协同发音所带来的麻烦,把积木块又加大,提出了双音(diphone)和半音节(dysyllable)和词素(morpheme)。 究竟什么是语音系统底层的基本单元,是一个值得研究的问题。也许在不同的语言当中有不同的答案。对汉语来说,根据我们用心理物理实验方法和采用心理数学分析表明,声、韵、调是符合知觉特征的音位系统。〔17〕
尽管汉语音节数目较少(有调音节1200多,无调音节400多), 但是这并不包含语音现象的全部。在单词层面上还有轻声、儿化、连续变调等问题。再考虑到汉语没有形态特征、词序灵活、句法宽松,使用语言机器进行汉语信息处理并不那么容易。有些人仅据汉语音节数目少就下结论,汉语语音识别容易实现或者汉字难写、汉语易学,这是片面的。心理物理实验表明,在同样的言语传递条件下,汉语的音节清晰度可能比英语要高,〔18〕但是同样的音节清晰度,汉语的单句可懂度却比英语要低了。〔19〕因此我们在语言学的较高层面上将会遇到更多的麻烦。
国际音标使用一百多年来,经过了不断的补充修改,才得以更加完善与实用。可是韵律特征,也就是超音段特征的研究和标记还处在初始阶段。特别是我们汉语这方面的工作做得很少,亟待加强。
4.机器语音学(科学语音学):
机器语音学的提法虽未见诸文献,我也不想耸人听闻,确实有不少工作正在做着。 比如, 英国伦敦大学学院语言学和语音学系主任J.Wills前几年负责欧共体的一个项目,就是把国际音标用键盘符号表示。利用这套符号就可以做到各种语言,不管文字如何,都可以直接用语音发送E-mail了。现已取得了成果,通称为SAMPA(与国际音标IPA相对,因为该项目简称SAM)。这不是完全为机器着想吗?Fant 的声源—滤波器模型更是带有十足的机器味儿。其实双音子的概念也是语音学家而不是工程师提出来的。显然语音学家现在需要更多的考虑怎样教会机器听话和说话了,因为单靠言语技术工程师们是做不好这项工作的。
四 结语
拉拉杂杂地说了一大堆,似乎又言犹未尽,这是见解不成熟的表现。语音学是一门既古老又年轻的学科。它与人类信息传递紧密相关,又受到信息技术发展的支持与推动。信息社会当中,语言机器已成为语言和言语交际对象,也是我们人类语言作为交际工具的延伸。作为口耳之学的传统语音学必然要成长为跨学科的兼顾人机关系的科学语音学。
* 有关汉语的材料, 参见吴宗济主编《汉语普通话单音节语图册》,中国社会科学出版社(北京,1986)