维吾尔语动词构形规则的形式化描述_复数名词论文

维吾尔语动词构形规则的形式化描述,本文主要内容关键词为:维吾尔论文,动词论文,规则论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

维吾尔语是黏着性语言,属于阿尔泰语系突厥语族,是一个形态变化非常丰富的语言。维吾尔语的构词、构形都通过在词干后缀接不同的词缀(词缀是附加在词根上,改变原词意义或词性的附加语素[1])、词尾(词尾是附加在词干后,表示各种语法意义的附加语素)来实现。而且按照一定的规则不断缀接,因此维吾尔语的形态变化非常丰富且复杂。对词干,维吾尔语语法学界有这样两种看法,第一种认为词干是能够接受构形附加语素(词尾)的部分,如ishchilar(工人们)中lar是名词复数词尾,对lar而言ishchi是词干。第二种认为能作构词附加语素(词缀)及构形附加语素的基础的部分叫做词干。如ishichilirimizgha(可以划分为ish_chi_lir_imiz_gha)(向我们的工人)中对chi而言ish是词干,对lir(lar的弱化形式)而言ishchi是词干,对inuz而言ishchilar是词干,对gha而言ishchilirimiz是词干。[2]我们比较认同第一种看法,词干就是能够接受构形附加语素的部分。如yewettim(含义为“我吃掉了”)中对体词尾_wet和动词时态词尾_tim而言ye-是词干。所谓静词化,是指动词通过一定的形态变化成为具有双重功能的形式,可分为名词化形式、形动词化形式和副动词化形式等。如动词之后附加“ghan,qan,gen,ken”(其中“ghan”之后的其他三个词尾是该词尾的变体,按照语音和谐规律附加在动词之后)等词尾,该动词变成既有动词功能又有形容词功能的双重功能动词,ghan型静词化形式是动词静词化形式的一个分支,即形动词形式。因为动词静词化形式是动词附加构形词尾而成,所以我们认为动词的静词化形式不属于词干而属于动词的构形形式。维吾尔语研究者们一直关注维吾尔语动词构形规则的研究,并有了一定的研究成果,[3]但是以往的研究是面向人的,面向机器的研究甚少,然而维吾尔语言信息处理研究的发展迫切要求我们寻找词的构词、构形规律,以便用于维吾尔语词干提取,用于词干提取中具有形态变化却未登录词的发现及其形态自动生成。因此研究维吾尔语的形态变化规则不仅有重要的理论意义,而且对推动当前的维吾尔语信息处理的研究与发展有重要的实践意义。维吾尔语中属于不同词类的词有不同的形态变化,其中形态变化最丰富、最复杂的是动词。此外动词词尾的连接层次不同,多则七层少则一层。因此在维吾尔语信息处理中,研究动词形态是一个重要课题。基于此,本文主要研究维吾尔语动词的“ghan”型静词化形式,按照上下文无关语法的理论和方法对维吾尔语动词“ghan”型静词化形式进行比较详细的描述,以便为编写计算机程序提供服务。

二、维吾尔语动词词尾概述

(一)维吾尔语动词词尾分类

维吾尔语中动词词尾数量多,词尾变体多样,连接复杂,动词之后不但可以连接动词词尾,还可以连接名词词尾(动词连接名词词尾的前提条件是动词必须以静词化形式结尾)、语气词等。因此我们把动词之后可以缀接的词尾按照位置分为一级、二级和三级词尾。一级词尾是指即可直接于动词之后,又能做动词构形的结尾形式。如“bardim”(我去了)中词尾“dim”(“dim”是动词直接陈述式一般过去时第一人称单数词尾)可直接动词之后,也可作动词结尾。二级词尾只直接于动词之后,但不作动词构形的结尾形式。如:“barat-”中的“at”(“at”是动词反复过去时词尾)可直接动词之后,但不能作动词结尾,之后附加动词过去时词尾,才可以结尾的形式,如“baratti”(她(们)曾经常去),(“ti”是动词直接陈述式一般过去时第三人称单(复)数词尾)。三级词尾不能直接于动词之后,但能作动词构形的结尾形式。如:“barghanlar”(去过的(人们))中的“lar”不能直接动词之后,而通过一级词尾才能连接动词词干(“lar”是名词复数形式)。

(二)维吾尔语动词的构形规则

我们在新疆多语种重点实验室手工标注的《维吾尔语百万词词法分析语料库》上进行了统计分析。此语料库包括67114个完整的句子(包括单句和复句),出现动词88438个(包括动词的各种构形形式),其中不重复动词有37220个。动词之后可以缀接的词尾有255个,其中动词词尾有194个,名词词尾有50个,语气词有11个。194个词尾涵盖动词的所有范畴,如态、体、否定、时态(时+人称+数)等。在维吾尔语中,并不是所有动词都有语态变化,因此维吾尔语信息处理研究一般在词汇层面上解决动词的语态范畴。[4]这样可以减少动词的形态结构层次并简化动词构形变化形式。

(公式中的a表示词干,b表示体,c表示否定,d表示形动词,e表示数,f表示人称,g表示格,h表示语气词,j表示时态(时+人称),i表示某个i个单词)

公式1表示的连接层次是词干+体+否定+时态+语气词。这是动词的谓语形式,最多有四层。如alalmidimu(含义为“他(她)没有买上吗”)中al_(买)是动词词干,_al是能动体词尾,_mi(ma的弱化形式)是否定词尾,_di是动词过去时第三人称单(复)数词尾,_mu是疑问语气词。在37220个动词中属于公式1的动词有17268个。公式2表示的连接层次是词干+体+否定+“ghan”型形动词+数+人称+格+语气词。如alalmighanlirinimu(含义为“连对他没能买上……”)中词干之后的第一、第二层与上面公式1一样,从第三层开始计算,_ghan是动词静词化词尾即形动词词尾,_lir(_lar的弱化形式)是名词复数词尾,_i是名词第三人称单(复)数词尾,_m是名词的宾格词尾,_mu是语气词,共有七层。本文讨论的主要是动词多层形态形式即公式2中的形式。在37220个动词中属于公式2的动词有19952个。产生这种多重连接层次的关键因素是动词的静词化形式,它起枢纽作用。名词的“数”、“人称”、“格”等范畴的词尾不能直接动词,但“ghan”型形动词形式在中间起到连接作用,在句中作定语、主语或宾语。虽然该形式是从动词变来的,但在句中能起形容词的作用,兼有动词和形容词两者的特征。它像动词一样支配论元,像形容词一样表示事物的特征,可以修饰名词,也可以附加名词词尾。“ghan”型形动词有4个变体(为了叙述方便本文只列其中的一个变体),它们属于一级词尾。其使用频率高,构形能力强,连接位置稳定,是一个起链条作用的词性半转化词尾,即能与动词词尾连接又能与名词词尾连接,它是维吾尔语动词中连接层次最复杂的结构。因此,从这个连接枢纽入手,就可以抓住关键,做到纲举目张。

三、维吾尔语动词构形规则的形式化描述

(一)上下文无关语法在维吾尔语形态描述中的应用

维吾尔语动词的构形结构可以分为三个层次:第一层是动词本身即词干,第二层是组成构形结构的词尾,第三层是组成词尾的连接顺序。在动词构形结构中,词尾的连接顺序是整个构形形式的核心,处于枢纽地位,它使词尾与动词词干连接。词尾的总数只有几百个,将词尾按照一定的规则顺序连接动词,就可以得出动词构形结构。如果不按规则连接,所得到的构形结构可能是一个错误形式,而且说不清楚其间的序列关系。因此词尾连接顺序是动词构形结构研究的中心内容,必须予以充分重视。

词尾不能再分解为更小的词尾(再分解就成为单个音),这样的词尾叫作终极词尾,例如:barghanda(含义为“当去的时候”),可以分解为bar+ghan+da,其中ghan和da属于终级词尾,再分解就成单音gh,a,n和d,a。

动词构形结构可以分解为树形图,以显示其结构层次,这对动词形态的信息处理和维吾尔语教学,都有非常好的用途。

乔姆斯基的上下文无关语法是自然语言信息处理中应用最为广泛的一种形式语法,这种语法在数学上间接、清晰,在语言的形式化描述上具有比较好的解释力,在程序的实现上有比较成熟的算法。根据乔姆斯基的理论,一个上下文无关语法可以用四元组来表示,这个四元组可以定义如下:

这里,A是单独的非终极符号,ω是符号串,它可以由终极符号或非终极符号组成。在图1中,出现在树形图的叶子结点上的“bar,ghan,da”(bar是动词词干,ghan形动词词尾,da是名词的时位格)相当于上下文无关语法的终极结点,不出现在树形图叶子结点上的“barghanda,ghanda”相当于上下文无关语法的非终极结点,“barghanda”出现在树形图的根结点上,而根也是非终极结点。由于“barghanda,ghanda”不出现在树形图的叶子节点上,它们的结构表示某种信息,“barghanda”是由“bar”和“ghanda”词干词尾相接而组成的,这种结构方式成为主附结构(“主”表示词干串,“附”表示词尾串)。“ghanda”是由“ghan”和“da”两个不同词尾相接而成的,它表示附附结构方式。因此我们可以写出如下重写规则:

barghanda(主附结构)→bar+ghanda

ghanda(附附结构)→ghan+da

由于barghanda和ghanda不出现在树形图的叶子结点,所以,在重写规则中,我们只需要写出它们所代表的结构方式,这样,上述重写规则可以改写为:

主附结构→bar+附附结构

附附结构→ghan+da

这两个规则的左侧是“主附结构”和“附附结构”,它们都是单独的非终极符号,与上下文无关语法的重写规则A→ω中的左侧A对应,第一个规则右侧是“bar+附附结构”,“bar”是词干,属于终极符号,“ghanda”是非终极符号,它们是由终极符号和非终极符号组成的符号串,与上下文无关规则A→ω的右侧ω对应。

这个上下文无关语法可以这样写:

S={bar,ghan,da}

主附结构→bar+附附结构

附附结构→“ghan形动词+格

为简洁起见,下面我们用特定符号来表示上述范畴概念,例如,我们用符号L来表示主附结构,用符号K来表示附附结构,那么上面的上下文无关语法可以这样写:

L→bar+K

K→“gha+g

(二)基于上下文无关语法的维吾尔语多层形态层次描述

在图2中,出现在树形图的叶子结点上的“bar,al,ma,ghan,lar,im,gha,mu”相当于上下文无关语法的终极结点,不出现在树形图叶子结点上的“almighanlirimghimu,almighan,lirimghimu,almi,lirimghimu”相当于上下文无关语法的非终极结点,“baralmighanlirimghimu”出现在树形图的根结点上,而根也是非终极结点。由于“baralmighanlirimghimu,almighanlirimghimu,almighan,lirimghimu,almi,lirimghimu”不出现在树形图的叶子节点上,它们的结构表示某种信息,“baralmighanlirimghimu”由“bar”和“almighanlirimghimu”词干词尾相接而成,成为主附结构。“almighanlirimghimu,almighan,lirimghimu,almi,lirimghimu”是词尾接词尾的结构,属于附附结构。其中“almighanlirimghimu”是由“almighan”等动词性词尾和“lirimghimu”等名词性词尾组合而成的,属于附附结构。因此我们可以写出如下重写规则:

baralmighanlirimghimu(主附结构)→bar+almighanlirimghimu

almighanlirimghimu(附附结构)→almighan+lirimghimu

考虑到baralmighanlirimghimu和almighan-lirimghimu不出现在树形图的叶子结点,按照上述方法,该结构可以改写成:

主附结构→+bar+附附结构

附附结构→almighan+lirimghimi

根据这样的分析,在表示维吾尔语动词构形规则的上下文无关语法中,非终极符号就是a,b,c,d,e,f,g,h等8个符号,它们表示维吾尔语动词构形词尾,这两个规则的左侧部分是“主附结构”和“附附结构”,它们都是单独的非终极符号,与上下文无关语法的重写规则A→ω中的左侧A对应,第一个规则的右侧是“bar+附附结构”,“bar”是词干,是终级成分(不能再分的部分),属于终极符号,“almighanlirimghimu”是非终极符号,它们是由终极符号和非终极符号组成的符号串,与上下文无关规则的A→ω中的右侧ω对应。

这样一来,我们可以用上下文无关语法来描述“baralmighanlirimghimu”:

S={主附结构}

主附结构→bar+附附结构

附附结构→“体,否定,ghan形动词,数,人称,格,语气词

否定→ma

形动词→ghan

数→lar

人称→im

格→gha

语气词→mu

按照上述规则,上面的上下文无关语法可以简化为:

S={L}

L→bar+K

K→b,c,d,e,f,g,h

显而易见,从上下文无关语法的角度来看维吾尔语动词构形规则,是动词构形规则形式,是非终极符号的集合,是构成构形规则的终级成分,S是需要分解的构形形式的最顶一级的结构方式,P就是分解的规则。

(三)维吾尔语ghan型静词化形式的统计分析及其形式化描述

维吾尔语动词构形形式究竟有几层,有几种?我们对新疆多语种重点实验室手工标注的《维吾尔语百万词词法分析语料库》进行了统计分析,统计结果表明,在37220个动词当中属于ghan型静词化形式的动词有7375个。经过统计分析实证,维吾尔语是有限的,一共有一层、二层、三层、四层、五层、六层和七层。其中一层和七层只有各一种构形形式,二层和六层各有六种构形形式,三层和五层各有十五种构形形式,四层有二十种构形形式,共计六十四种构形形式(层次是从词干a之后计算)。在7375个动词中一层动词有1169个,二层动词有3049个,三层动词有2318个,四层动词有721个,五层动词有104个,六层动词有13个,七层动词有1个。ghan型静词化形式中,出现构形形式最多的是二层,最少的是七层,其顺序为:二层>三层>一层>四层>五层>六层>七层(“>”表示先于)。我们以统计结果为基础,再对上述层次形式进行如下描述:

1.七层记为Q,只有一种构形形式。

2.六层记为R,有六种不同的构形形式。

3.五层记为O,有十五种不同的构形形式。

4.四层记为W,有二十种不同的构形形式。

5.三层记为X,有十五种不同的构形形式。

6.两层记为Y,有六种不同的构形形式。

7.一层记为Z,只有一种构形形式。

=a+d;如:bar+ghan

根据这样分析,在表示维吾尔语动词构形规则的上下文无关语法中,非终极符号就是Q,R,O,W X,Y,Z等几个符号以及其包含的不同种类。它们表示维吾尔语动词构形形式的基本层次关系,终极符号就是可以在动词之后附加的255个终级成分,包含动词词尾194个,名词词尾50个,语气词11个。这些终极成分可记为N,最后得到的维吾尔语动词构形规则的上下文无关语法是:

总而言之,采用上下文无关语法的形式描述维吾尔语动词构形规则的连接层次,能够满足维吾尔语词干提取及其形态自动生成要求,从而推动维吾尔语的信息处理研究和实践。但是维吾尔语动词构形形式还存在不规则情况,如chiqiriwilinidu(汉译为“将被取出来”)中chiqar_是词干,_iwil(_iwal的弱化形式)是体词尾,-in是被动语态词尾,_idu是动词将来时词尾。一般情况下语态出现于体范畴之前,上述情况是个例外,这种情况需要我们更进一步的深入研究。

标签:;  ;  

维吾尔语动词构形规则的形式化描述_复数名词论文
下载Doc文档

猜你喜欢