“早年”语义指向的计算机识别_语义分析论文

“从小”语义指向的计算机识别,本文主要内容关键词为:语义论文,计算机论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:H08

文献标识码:A

文章编号:1671-7023(2004)04-0087-04

一、引言

在中文信息处理中,当前迫切需要解决的问题是句处理的问题。要让计算机正确处理、理解自然语言中句子的意义,生成符合自然语言规则的句子。这是句处理的目标。要实现这样的目标,必须解决好词本身的意义以及词与词之间的关系义[1],其中包括具体词语的语义指向。本文探讨“从小”句式中“从小”的语义指向,以期对中文信息处理提供帮助。

二、句式构成和语义指向

(一)“从小”在现代汉语中通常被看作是一个能作状语的复合词,常用来表示动作、行为、性状的时间,语义指向某动作、行为或性状,即谓词性成分。“从小”的意思是“年纪小的时候”[2],所以它也必定同时指向具有[+动物]特征的某体词性成分。“从小”指向的谓词性成分往往紧随其后,很容易识别,而体词性成分则位置不固定情况较复杂。如:

(1)他从小就爱运动。(《现代汉语词典》)

(2)我希望每个人从小就开始懂得,学好祖国的语言是我们肩负的历史使命。(初中语文课本第3册)

(3)父亲从小就教育我要做个诚实的人,要对得起自己的良心。(中央电视台《演艺竞技场》)

以上三例“从小”指向的体词性成分分别是“他”、“每个人”、“我”,在句中作主语、小主语和兼语,有的位于“从小”前,有的位于“从小”后。

(二)“从小”在现代汉语中可构成以下十五种句式,根据句式之间可能的相互变换关系,可将其分成六组(注:各组的变换条件与语义指向没有必然联系,本文不作讨论,将它们分成六组只是为了行文方便。)。

1.:NP+从小+就+V←→:从小+NP+就+V。如:我弟弟从小就捣乱。从小我弟弟就捣乱。“从小”语义指向“弟弟”。

2.:NP+从小+就+V+了←→:从小+NP+就+V+了。如:张海迪从小就瘫了。从小张海迪就瘫了。“从小”语义指向“张海迪”。

3.。如:奶奶从小就瞎了眼睛。从小奶奶就瞎了眼睛。奶奶眼睛从小就瞎了。从小奶奶眼睛就瞎了。“从小”语义指向“奶奶”。

4.。如:她从小就喜欢花。从小她就喜欢花。花她从小就喜欢。花从小她就喜欢。“从小”语义指向“她”。

5.。如:弟弟从小就帮我砍柴。从小弟弟就帮我砍柴。“从小”语义指向“弟弟”。

6.。如:父亲教育我们从小就要好好学习。“从小”语义指向“我们”。

三、语义指向的计算机识别

(一)从“从小”可构成的句式可以看出,跟“从小”组合的体词性成分有两种:一种是只有一个体词性成分(NP),另一种是有多个体词性成分()。NP、都可能是由多个具有[+动物]特征的名词或代词构成,它们之间具有某种结构关系或语义关系。这就使得“从小”语义指向的计算机识别虽然复杂但有章可循。冯志伟指出:“计算机对自然语言的处理,最根本、最关键的问题,是要指出各种语言形式出现和变换的条件。”[3]具体到“从小”的语义指向,就是在什么条件下指向哪一个具体的名词或代词的问题。计算机识别就是要找出NP中具体的某一个词。“从小”从语义上讲必定要和[+动物]名词或代词相匹配,所以,计算机首先要排除[—动物]成分的干扰,识别[+动物]成分,然后再根据语义指向的具体条件进行正确识别。为了行文的方便,我们将具有[+动物]特征的名词或代词直接记为[+动物]。

(二)从理论上讲,“从小”句式中的[+动物]可以有很多个,我们先考察“从小”句式中[+动物]不超过3个的情况。

1.全句只有1个[+动物],则指向该[+动物](注:计算机识别应是完全句,若是省略句则应补足后再进行识别。)如例(1)。

2.全句有2个[+动物]。找标志词。在“从小”出现的句式中一般都会出现副词“就”,我们可以用“就”为标志词。识别这两个[+动物]的具体位置。

1)2个[+动物]都在“就”前,则它们可能构成某种结构关系。构成并列或同位关系,“从小”语义指向这2个[+动物]。如:我和小王从小就爱唱歌。构成其他关系:第一种定中关系,指向中心语,如:我弟弟从小就捣乱;第二种分别是某一动词的主语和宾语,指向宾语,如:父亲教育我们从小就要好好学习;第三种不在同一个结构层次上,指向较低层次上的[+动物],如例(2)。它们共同的特点是都指向全句第2个[+动物)。

2)1个在“就”前,1个在“就”后。这2个[+动物]可能具有某种语义关系。“从小”含有明显的“从小到大”的意思。与语义指向有关的就是这2个[+动物]的辈分关系。“就”前[+动物]辈分高于“就”后[+动物],指向“就”后[+动物],如例(3)。“就”前[+动物]是“就”后[+动物]的同辈、小辈或辈分不明,指向“就”前[+动物],如:弟弟从小就帮王大爷/我/王三砍柴。

3.全句有3个[+动物]。找标志词“就”。

1)“就”前只有1个[+动物]。识别“就”前[+动物]与“就”后2个[+动物]的辈分关系。“就”前[+动物]是“就”后2个[+动物]的同辈、小辈或辈分不明,指向“就”前[+动物]。如:弟弟从小就帮我和王三砍柴。“就”前[+动物]辈分高于“就”后[+动物],识别“就”后[+动物]的结构关系。构成并列或同位,指向这2个[+动物]。如:父亲从小就教育我和弟弟要好好学习。构成定中,则指向中心语,即全句第3个[+动物)。如:父亲从小就教育我弟弟要好好学习。其他关系,则指向“就”后第1个即全句第2个[+动物]。如:父亲从小就教育我要好好孝敬长辈。

2)“就”前有2个[+动物]。识别“就”前2个[+动物]与“就”后[+动物]的辈分关系。前者是后者的小辈、同辈或辈分不明,识别前者的结构关系:构成并列或同位,指向前2个[+动物];构成其他关系,指向全句第2个[+动物)。前者辈分高于后者,指向后者,即全句第3个[+动物)。

3)“就”前有3个[+动物]。识别“就”前[+动物]的结构关系:构成并列或同位,则指向这3个[+动物];构成其他关系,则指向全句第3个[+动物]。

(三)从以上的分析可以看出,无论全句有多少个[+动物],按位于“就”前、“就”分后只有两种情况:都在“就”前和有的在“就”前有的在“就”后。都在“就”前则识别“就”前[+动物]的结构关系。有的在“就”前,有的在“就”后,则识别“就”前[+动物]和“就”后[+动物]的辈分关系、“就”前[+动物]的结构关系、“就”后[+动物]的结构关系。我们把“从小”句式中出现的[+动物]总个数记作a,“就”前[+动物]个数记作b,则a≥b≥1。[+动物]都在“就”前,则a=b≥1;有的在“就”前,有的在“就”后,则a>b。

1.a=b≥1,识别“就”前b个[+动物]的结构关系:并列或同位,指向该b个[+动物];①其他关系,指向第b个[+动物)。

2.a>b,识别“就”前b个[+动物]与“就”后(a-b)个[+动物]的辈分关系。

1)前者是后者的同辈、小辈或辈分不明。“就”前[+动物]之间构成并列或同位关系,指向该b个[+动物],其他关系指向第b个[+动物]。

2)前者辈分高于后者。“就”后[+动物]之间构成并列或同位关系,指向该(a-b)个[+动物];构成定中关系,指向第a个[+动物];其他关系指向第(b+1)个[+动物]。

(四)由此我们得出计算机识别“从小”语义指向的流程图(以下Y代表“是”,N代表“否):

“从小”语义指向流程图

四、结语

以上从中文信息处理的角度,探讨了“从小”各种语义指向的条件,得到了“从小”语义指向的流程图。这将使计算机有可能根据有关的条件,执行相应的动作,从而使整个系统成为一个可以动态地执行的过程。然而,自然语言是人类历史长期发展而约定俗成的产物,它带着人类历史几千年的发展痕迹,因而用计算机处理起来相当困难。人工智能目前面临许多重大难题[3],而“从小”语义指向的计算机识别又将许多具体问题凸显出来。

(一)计算机要正确识别“从小”句式,必须要把“从小”的一般句式同以下句式区分开:

④他从小王那里借了五万块钱就走了。

⑤你要是听从小队长的建议就好了。

以上两例“从小”都不成词。但形式上都构成“……从小……就……”。汉语书面形式实行连续书写,词与词之间没有必然的界限,要实现“从小”语义指向的计算机识别,必须首先解决“从小”及其他词语的切分问题。

(二)“从小”句式中往往有多个动词,构成复杂的连动式或兼语式。由于若干个动词或动词词组相互连接时没有明显的形式标志,主要动词淹没在一大堆动词之中,计算机往往难于确定其中的主要动词,而如果主要动词的判定有误,整个结构的分析必定失败。在兼语式中,兼语又作主语,又作宾语,使得句子中除了原来的主语之外,又出现了一个兼作宾语的新主语,句子中出现一个以上的主语,与传统印欧语单纯由一个主语和一个谓语相互结合的方式有很大不同,这给计算机汉语识别带来了极大的困难。另外,“从小”句式中的多个名词可能构成定中、同位或并列等多种关系,不同的结构关系制约着“从小”的语义指向。所以必须对不同的结构关系进行形式化的区分,使之能以一定的数学形式,严密而规整地表示出来。

(三)汉语是一种分析型语言,语义分析在汉语研究中起着举足轻重的作用。一个句子,只要把词的意义和意义之间的关系弄清楚了,整个句子的含义也就十分清楚了。但是,目前我国对于汉语的语义研究还很不够,汉语义素分析法和汉语语义网络的研究才刚刚起步,汉语在自然语言理解方面还没有十分成熟的理论和方法。这也限制了语义指向的计算机识别。因为在“从小”句式中,“从小”前后名词性成分的辈分关系应能够进行形式化的描述。义素分析法在汉语分析亲属词、军衔词等方面获得相当可观的成绩,其应用范围正在扩大,然而,迄今为止,还没有见到应用义素分析法来分析某一语言整个词汇系统的成果。

(四)汉语中常常出现一些省略现象,“从小”句式中的NP、都有可能省略,要进行推理和判断才能理解。加上代词的所指和照应以及知识背景等语用学方面的问题,都对计算机的正确识别造成了较大的困难。所以,计算机识别问题不可能一蹴而就,给出流程图仅仅是迈出了一小步,需要进一步研究的问题还很多。总的来说,要最终解决“从小”语义指向的计算机识别问题,还要完成以下的前期工作:第一,“从小”及“从小”前后的词切分问题;第二,“从小”前后名词性成分的辈分关系的形式化描写;第三,定中、同位和并列等结构关系的形式化描写;第四,句子成分省略的正确识别。另外,要使计算机能够真正运作起来,还须根据流程图编写程序,使之在计算机上加以实现。这有待今后进一步地研究和探讨。

收稿日期:2004-04-27

标签:;  ;  

“早年”语义指向的计算机识别_语义分析论文
下载Doc文档

猜你喜欢