中文信息界的语义研究谭要,本文主要内容关键词为:语义论文,中文论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一基于信息处理的语义分类
1.如何处理语义分类和语义特征?目前,中文信息界对如何建造电子语义词典的问题,大家的看法不一致。但其中有两个部分大家都认为必须描写:一是事件内的关系,即动词为中心的事件框架,一般采用格框架的描述方法;一是动词前后所联系的名词语的语义分类和语义特征。这语义分类和语义特征如何处理?大家的看法和作法不统一,有三派:(1)语义分类派。目前已有的电子语义词典框架,对动词前后所联系名词语的描述大都采用语义分类的方法。(2)语义特征派。有个别有影响的机器翻译专家,如董振东先生提出“要摈弃‘分类’的观念,代之以属性给定的概念。”(3)结合派。多数学者主张将语义分类和语义特征描述这两种方法结合起来,以语义分类为主,用语义特征的描写来补充分类体系的不足。如说女人是“人物”类,这是语义分类;但女人又并非全部的人,所以只靠语义分类还不行,需在“人物”类之后标上“+女性”这一语义特征。又如说轮船、火车、飞机是“交通工具”类,这是语义分类;同时在轮船之后标上“+水上”这一语义特征,在火车之后标上“+陆地”这一语义特征,在飞机之后标上“+空中”这一语义特征。清华大学计算机系和中国人民大学语言文字研究所联合开发的《现代汉语述语动词机器词典》就是采用这种语义分类和语义特征描写相结合的方法。
2.语言信息处理对语义分类的要求。根据计算机识别语言的需要,语义研究务必形成系统。这系统可以表现为语义分类“树”,也可以表现为语义网络。语义分类“树”和语义网络的同与异在于:一个上位节点可以有几个下位节点,这是语义分类“树”和语义网络相同的地方。一个下位节点只能有一个上位节点,这是语义分类“树”;一个下位节点可以有几个上位节点,这是语义网络。由此可见,在计算机中,反映上、下位语义关系的层级结构需用一种特殊的语义分类“树”来表示,而语义分类“树”上的节点之间有种种关系,其中有一种是上下位关系。上位是父节点,下位则是子节点。父节点下可有若干个子节点,子节点上只能有一个父节点。子节点具有父节点所具有的全部属性,但还必须比父结点至少增加一个属性。
使语义分类形成“树”型的语义分类系统存在着许多难以克服的困难。尽管计算机急需语义分类成为概念“树”,但迄今为止未见有人把一种自然语言的语义分类系统完全用“树”形结构表达出来。语义分类在语言信息处理中占有十分重要的地位,它具有使描述简洁和可以揭示概念之间的蕴含关系等优点。
3.《九○五工程》的语义分类系统。《九○五工程》是著名语言信息处理专家陈力为院士主持的国家“八五”重大科研项目,其中有一个语义小组,这个语义小组的语义研究内容之一是语义分类。其语义分类系统是二分:运动类、事物类。他们认为,计算机识别句子首先是抓住句子的核心,即谓语动词,然后考虑动词所连带的前后名词语,因此一是运动,一是事物。
(一)运动类。运动类即动词的分类。《九○五工程》根据动词在组合框架中的语义特征加以分类。语义单位组织起来便发生语义关系,语义关系一方是语义角色。语义角色分中枢角色和外围角色。中枢角色即为运动类,代称为V。对中枢角色进行分类也就是对动词及“可谓形容词”(不包括“非谓形容词”和“区别词”)进行分类。外围角色由名词、代名词充当,代称为N。动词能搭配名词的性能叫带N性。具体一个动词能具有哪些带N性取决于该动词的“语义特征”,反过来说,考察一个动词的“语义特征”则从该动词具有什么带N性的角度进行考察,也就是从该动词具有什么外围角色的角度进行考察。
从主体涉及客体的“及物性”的角度考察谓词的语义特征,再根据谓词的“语义特征”对谓词(包括动词和可谓形容词)分为四大类、24小类。第一大类“状态”和第二大类“关系”属于静态,第三大类“变化”和第四大类“行动”属于动态。静态和动态上面就是“运动”。所以整个分类系统包含四个层次:第一层次是“运动”;第二层次是“静态”和“动态”;第三层次是“状态”“关系”“变化”“行动”;第四层次是24类:“存在”“性状”“心态”“感知”“引起”“类属”“领属”“包括”“关联”“自变”“促变”“自进”“促进”“自移”“搬移”“自为”“支配”“给予”“获取”“创造”“对待”“考察”“传信”“遭遇”。这24类的分类依据是句模。何谓句模?为了说清楚句模,试结合句型、句式来说。句型也罢,句式也罢,句模也罢,都属于句类。句法学对句子的分类叫句型,语义学对句子的分类叫句模,语用学、修辞学对句子的分类叫句式。根据谓词所能连带语义角色的能力可以分出若干的句模,能进入同一句模的谓词是一类。句模是谓词分类的测试框架。
(二)事物类。《九○五工程》的事物分类系统将“事物类”分为5类:事;物;时间;空间;属性。每一类都是一棵多叉层级结构树,树上的节点分叶节点和非叶节点。树的各个枝杈深浅不等,有的枝杈节点多,有的枝杈节点少。下面是事物5类的纲目(省略了“甲、乙……”下的分类细目):
(1)事:主要在时间上延展的事物。甲、领域:较为概括的事情。乙、事情:较为具体的事情。
(2)物:主要在空间上(包括思维空间)延展的事物。甲、具体物:有形、有色、有质量的物。乙、抽象物:无形、无色、无质量的物。
(3)时间:事物及其运动存在的基本方式之一。甲、时间单位;乙、历史性时间;丙、气象性时间;丁、事件性时间:戊、序化时间:巳、相对时间。
(4)空间:事物及其运动存在的基本方式之一。甲、空间层次;乙、线形空间;丙、区域;丁、方位;戊、抽象空间。
(5)属性:人们观察认识事物的角度。甲、一般属性;乙、时间属性;丙、空间属性;丁、物质属性;戊、性能;巳、生理属性;申、心理属性;酉、社会属性;戌、认知属性;亥、事情属性;壬、性状属性。
这个“事物分类系统”比较科学。但它的不足之处是对“抽象物”的分类过于简括和笼统。
二 基于信息处理的句义研究
计算机要处理句子必须掌握句子的全部信息。句子的全部信息包括句法平面信息、语义平面信息、语用平面信息。语义平面的句子信息=情态(modality)+命题(proposition)。情态代表与说话者有关的主观信息(包括信念、观点、情绪、态度、观察角度、意图等),命题代表与说话者无关的客观信息(指实词所反映的客观事物)。情态主要由虚词来表示,解决信息处理上的得体问题;命题主要由实词来表示,解决信息处理上的正确问题。只有让计算机把握句子语义平面的主观信息和客观信息,才能达到正确而得体地处理句子的目的。
作为代表句子语义平面客观信息的命题,包含两种层次不同的语义关系,即格关系和槽关系。要了解什么叫格关系和槽关系,就要先了解什么是语块。什么是语块呢?语块是组成句子的元素。如“人民大学的教师广泛开展教书育人的活动”,这个句子有三个语块:“广泛开展”“人民大学的教师”和“教书育人的活动”。语块分为两种类型:一类是谓词性语块,如前面这句话的“广泛开展”;一类是体词性语块,如前面这句话的“人民大学的教师”和“教书育人的活动”。谓词语块和体词语块之间的语义关系是格关系,如“人民大学的教师”是“广泛开展”的施事,“教书育人的活动”是“广泛开展”的受事。语块内部的语义关系是槽关系。如“广泛开展”这个语块中,“广泛”和“开展”之间的语义关系是槽关系;“人民大学的教师”这个语块中,“人民大学”和“教师”之间的语义关系是槽关系,“广泛开展”这个语块中,“广泛”和“开展”之间的语义关系是槽关系。槽关系有两种类型:一种是以动词为中心的,如“广泛开展”;一种是以名词为中心的,如“人民大学的教师”和“教书育人的活动”。以名词为中心的槽关系,是槽关系研究的重点。
研究情态、格关系、槽关系,是基于信息处理的三大语义研究工程。这三大语义研究工程可统称为基于信息处理的句义研究。
三 基于信息处理的理论框架
中国科学院声学研究所研究员黄曾阳创立了一个基于信息处理的理论框架HNC。HNC是概念层次网络的英文表述(Hierarchical Network of Concept)的简称,这种理论框架以概念化、层次化、网络化的语义表达为基础,所以称它为概念层次网络理论。(关于HNC的详细介绍请参见《语言文字应用》1998年第2期)。
自然语言理解的发展主要围绕着三个方面:1.自然语言的表述和处理模式;2.自然语言知识的表示、获取和学习;3.研制开发自然语言的应用系统。其中,自然语言的表述和处理模式是根本,它决定着整个自然语言理解的方向和进程。黄曾阳提出了三大理论要点:(1)要把自然语言所表述的知识划分为概念、语言和常识三个独立的层面,对不同层面采取不同的知识表示策略和学习方式,形成各自的知识库系统。知识库建设的首要目标应定位于自然语言模糊消解,这是HNC理论对迄今为止的知识库建设进行总结后得出的论断。(2)建立网络式概念基元符号体系,即概念表述的数学表示式。这个符号体系或表示式应具有语义完备性,能够与自然语言的词语建立起语义影射关系,同时,它必须是高度数字化的,每一个符号基元(每个字母或数字)都具有确定的意义,可充当概念联想的激活因子。这个符号体系就是HNC理论设计的三大语义网络及五元组和概念组合结构等,它是计算机把握并理解语言概念的基本前提,称为局部联想脉络,是HNC理论的基本内容之一。局部联想脉络的基本思路和做法是:把概念分为抽象概念和具体概念,对抽象概念用语义网络和五元组来表达,对具体概念采取挂靠展开近似表达的方法。(3)建立语句的语义表述模式,即语句表述的数学表示式。这一模式的完备性应表现为可表述自然语言任何语句的语义结构,即乔姆斯基所提出的语言深层结构。为表述自然语言语句的语义结构,HNC理论提出了语义块和句类的概念,在此基础上形成的句类格式就是语言的深层结构,它是语句分析的基点,称为全局联想脉络,是HNC理论的另一基本内容。以上三大理论要点,正是HNC理论在自然语言表述和处理模式上赢得突破性进展表现。
HNC理论具有巨大的应用潜力和广阔的应用前景。HNC理论走向应用的第一步是语义块感知和句类辨识。语义块感知就是找出一个句子中的各个语义块,句类辨识就是通过感知得到一个句子的E语义块(述语动词),进而确定这个句子所属的句类。计算机能否感知到语义块关系到HNC能否指导实践、是否有应用价值的问题,几年来的工程实践对此作了肯定的回答。感知到语义块、辨识出句类以后,就可以运用句类知识对句子进行理解处理,这称为句类分析。句类分析是对大脑语言感知过程的初步模拟。在模糊消解方面,理论上,句类分析应能接近甚至超过常人的水准,这一点已在汉语无声调拼音—汉字转换方面得到了验证。这使计算机向真正的理解迈出了坚实的第一步。在这第一步的基础上,HNC理论设计了由9个模块组成的自然语言处理系统的基本框架。目前,部分模块已在计算机上得到实现。令人可喜的是,在中国工程院院士陈力为教授等学术前辈的推动下,为了全面实现HNC理论,近一年来组成了“HNC联合攻关队伍”。这一联合攻关队伍包括中科院声学所、中国人民大学对外语言文化学院和北京语言文化大学信息所等三家单位。“HNC联合攻关队伍”在过去一年里的一个重大成绩是,使HNC理论体系的完善从个人思考模式转向集体创立模式,这表明HNC理论的发展和应用存在着巨大的潜力和广阔的前景。
HNC理论的创立为我国开创自己的语言信息产业创造了良机。有人说,中国当前的信息产业面临的是八国联军入侵的局势,外国有关的大公司早已看到了中文信息处理的巨大市场,他们在向中国进军,凭着雄厚的经济实力,大事“收买”中国的人才、技术和成果,如此长久下去,中国人还哪有自己的信息产业。我们国家正面临丢失中文信息处理软件这块我国计算机产业仅存的软件阵地的危险。HNC建立的语言表述和处理模型目前是无人可比的,它应该成为中国人的财富,应该以它为基础开创中国的信息产业。