布拉格学派的功能生成描述理论
冯志伟1,周 建2
(杭州师范大学 外国语学院,浙江 杭州 311121)
摘 要: 功能生成描述理论不但是布拉格学派在信息时代的继续和发展,而且是少有的将理论和实践完美地结合起来的语言学理论。通过着重介绍布拉格依存树库(PDT)和捷克语动词配价词表(Vallex),来探讨功能生成描述理论在自然语言处理中的应用价值。布拉格依存树库采用三级标注体系,由词汇层、形态层、句法层和语义层四个层级构成。捷克语动词配价词表内容丰富,信息量大,便于使用。布拉格依存树库和捷克语动词配价词表有助于验证功能生成描述的理论主张,对自然语言处理也是大有用处的。
关键词: 功能生成描述;布拉格树库;动词配价词表
“功能生成描述”(Functional Generative Description,简称FGD)理论是由捷克语言学家斯加尔(Petr Sgall)等人创立的一种形式化的语言理论,它是布拉格功能主义语言观在信息时代的反映。这种理论的目标,是从功能主义和语言生成的角度出发,使用形式化的方法来描述语言,具有强烈的方法论色彩,因此叫做“功能生成描述”。
1.2.2 覆膜对啤酒大麦生长的影响测定 采用全膜覆盖种植方式,于2017年3月27日种植。用0.006mm厚规格的超薄膜,穴播,每带6行,行距15 cm,穴距8~10 cm,每穴7~8粒,播种量75 000穴/hm2,525万~600万粒/hm2,种植小区面积20 m2,设3个重复,以露地种植方式为对照(CK),7月上旬收获。
这一理论的代表作是捷克布拉格查理士大学的斯加尔、哈吉科娃(Hajicová)和帕内沃娃(Jarmila Panevová)合著的The Meaning of the Sentence in Its Semantic and Pragmatic Aspects(《句子意义的语义及语用研究》,1986)以及斯加尔和哈吉科娃共同撰写的论文Dependency Syntax in Functional Generative Descriptions(《功能生成描述中的依存句法》,2003)。限于篇幅,本文仅介绍了功能生成描述理论的部分内容,建议感兴趣的读者阅读原文。
一、功能生成描述理论
功能生成描述理论是一种分层次、基于依存原则的语言学理论,同时也是一种源于自然语言处理(Natural Language Processing,简称NLP)实践的语言学理论。因此,功能生成描述理论非常注重语言的形式化描述和计算机实现。
功能生成描述理论认为语言是一种层次性的功能结构,在语言意义和语音表达之间存在着如下五个层次:
·语义层
·表层句法层
V Theory of toothpaste raw material (To be continued) 3 68
布拉格依存树库中句子的标注及四个层级之间的联系,如图2所示:
·音位层
·语音层
在功能生成描述理论中,语义层占有重要的地位。在语义层表示中,最重要的概念是基本依存结构(Basic Dependency Structure,简称BDS)。基本依存结构是在词表和表示依存关系种类的特征结构时所形成的字母表上的字符串。
由于基本依存结构是一个字符串,可以很方便地将它转换为树形结构。
比如,下面的字符串就是一个基本依存结构:
〈F〈H〉D11〈I〉D13〉D4 E 〈〈J〉D6〈〈M〉D1 L 〈N〉D2〉D2 K 〈Q〉D1〈O〉D4〉D3
冠心病是一种进展缓慢但危害度极高的疾病,其病理生理基础是冠状动脉粥样硬化,FH是一种常染色体显性遗传性疾病,临床上主要表现为TC和LDL-C水平显著升高,同时因为血脂尤其是LDL-C水平的显著升高引起机体动脉粥样硬化早发,从而在临床上促进了早发冠心病的发生。因此,FH的早诊断和早治疗对冠心病的预防和治疗起到积极的作用。
3.可以帮助生成输入句子的语义结构表示;
图1 基本依存结构对应的依存树
功能生成理论的这种形式化描述是现代语言学理论所必要的。这样的形式化描述,一方面发展了布拉格传统的语言学理论,另一方面,也有助于该理论在自然语言处理领域的应用。
图2说明了捷克语句子“Byl by šel dolesa”的标注情况。“Byl by šel dolesa”对应的逐词英译为:“He-was would went to forest(他想到森林中去)”。
语义层(t-layer)中的结点和输入句子中的词不是一一对应的,而且结点上的词还使用了配价词典中的形式标记。结点下面的标记表示该词与其支配词之间的语义关系,如:“ACT”表示“行动者”,“PRED”表示“谓词”,“DIR3”表示“趋向”,等等。在语义层中,全部的单词都是实词,不再有介词或其他虚词的位置。从这个角度来说,可以把语义层视为句子中心词的配价实例化之后的一种结果。由此可见,为了进行语义层的标注,配价词典是必不可少的。
白雪(2016)曾对功能生成理论作了较为系统地评介,并在配价的组织模式、层次上,将其与乔姆斯基(N.Chomsky)的最简方案进行了比较。本文从自然语言处理的角度,着重对布拉格依存树库(PDT)和动词配价词表(Vallex)作进一步的补充,以飨读者。
二、布拉格依存树库
布拉格依存树库(Prague Dependency Treebank① http://ufal.mff.cuni.cz/pdt2.0/ ,简称PDT)是在功能生成描述理论基础之上建立的,它是目前世界上规模最大的依存树库。布拉格依存树库是一个含有丰富的语言学信息的手工标注捷克语树库。它还有配套的树库查询、标注和分析软件,供使用者选用。
布拉格依存树库采用三级标注体系,除了形态层(morphological layer,简称m-layer)之外,其他的两个层次分别为表层句法(analytical layer,简称a-layer)和深层句法(tectogrammatical layer,简称t-layer)。表层句法层相当于我们一般所说的句法层,深层句法相当于我们一般所说的语义层。除了这三个标注层之外,布拉格依存树库还将那些没有标注的文本视为一个独立的层级,叫做“词汇层”(word layer,简称w-layer)。这样,一个句子在依存树库中的标注就有了四个层级:即词汇层、形态层、句法层和语义层。
·形位层
图2 布拉格依存树库的层级结构
可以说,围绕功能生成描述理论,布拉格的学者们不但构造了一系列的自然语言处理应用系统,也在像捷克语这样的自由词序语言的依存语法的形式化理论和计算机实现方面作了许多开拓性的工作。
2017年,基于政府政策支持、新闻产业和版权产业规模扩大、阅读习惯转变及技术升级等背景,数字报纸产业实现了各个层面的突破,获得快速发展。
在图2中,从下至上的四个层级是:词汇层(w-layer)、形态层(m-layer)、句法层(a-layer)和语义层(t-layer)。值得注意的是,原句词汇层中所含的输入错误“dolesa(to forest)”,在形态层得以恢复为正常的“do lesa”。
在形态层(m-layer)中,每一个词的下面有两行附加信息,其中的第一行为该词的词典形式(词目),第二行标明了该词在句中的形态特征。
服装企业运作模式多元,从产品设计开发源头到最终的销售层面,整个产业链的企业众多,有的企业专注产品企划与销售,有的企业负责生产加工,有的小型工作室只是专业打板制作样衣,众多大大小小的服装企业运作模式不同,对产品数据管理系统的需求就不同。
除增加了一个全句的支配结点外,句法层(a-layer)中的结点和形态层中所出现的词是对应的。在每个结点下面,标注该结点与其支配词之间的依存关系类型。依存树库中的句法层与其他依存句法理论得到的分析树基本相似,尽管这里没有采用箭头来标记词间支配关系,我们还是可以很方便地从一个词在句法结构树中的上下位置来判断该词的地位。
近年来,国家对基础设施建设工作非常重视。对于基建项目的档案移交工作都有明文规定,施工单位档案管理工作必须符合相关的规定和要求,树立员工档案管理意识,加强对档案资料的管理和监督。
总的来说,功能生成描述理论实质上是一种多层级的依存语法理论,配价在这种理论中占有重要的地位。按照功能生成描述理论的创立者哈吉科娃和斯加尔(2003)的说法:“如果将依存视为一种基本关系,那么词汇单元的句法特性就可以依据其可有或必有的从属成分来进行描述,这种描述可包括词汇组合的限制,它们与句子表层结构的关系等。……广义的配价框架包含了所有的补足语和说明语,狭义的配价框架只考虑补足语和那些必有的说明语。”因此,在功能生成描述理论的初创时期,另一位创立者帕内沃娃(Jarmila Panevová)就在Prague Bulletin of Mathematical Linguistics(《布拉格数理语言学通讯》)发表了题为On verbal frames in functional generative description(《功能生成描述中的动词框架》,1975)的长文,专门讨论配价框架的问题。
韩光曙进一步解释说,优质研究型人文医院是进一步明确人文理念的引领地位,是十几年人文医院建设的“升级版”,旨在更好地促进技术与人文共舞。
三、捷克语动词配价词表
2008年发布的捷克语动词配价词表(The Valency Lexicon of Czech Verbs,简称Vallex),共收有6460个词项,可能是目前最大的面向应用的配价词表。
除了语言研究的一般用途外,在自然语言处理中,捷克语动词配价词表(Vallex)还有以下用途:
4.可以帮助通过自动的方式来构造动词配价词典。
2.可以帮助进行自动句法分析;
其中,F、H、I、E、J、M、N、L、Q、O、K 表示依存树中的结点;D11、D13、D4、D3、D6、D1、D2表示结点之间的依存关系(Dependency)。这个基本依存结构所对应的依存树为:
1.可以保证语料库和布拉格依存树库(PDT)中配价结构的一致性;
我们不妨以捷克语动词配价词表中的具体词条“zřídit”(建立)及其构成为例① http://ufal.mff.cuni.cz/vallex/ ,来直观感受一下Vallex配价词典的格式,具体如图3所示:
图3 Vallex 配价词典的格式
图3中的词项(word entry)为含有某一动词所有义项的抽象单位。词项由一系列非空的框架项(frame entries)构成,其中每一项对应一个义项。框架项包含配价框架本身的描述、意义的解释及其他附加信息。配价框架是由一些框架槽(frame slots)构成的,每一个槽表示该动词要求的补足语。每一个槽是由其函子(functor,即句法语义关系的名称)和可能的形态形式来表现的。
在捷克语动词配价词表中,每一词条(entry)的内容非常丰富,主要包括:Headword lemma(中心词的词目)、aspect(体)、gloss(词条说明)、frame slot(框架槽)、functor(配价功能)、type of complementation(补足语类型)、morphemic forms(形态形式)、mark for idiomatic frame(成语框架的标示)、frame entry(框架条目)、valency frame(配价条目)、aspectual counterpart(体成分)等。
值得一提的是,捷克语动词配价词表不但提供了传统的印刷版,也构建了xml格式和html格式的电子版本,这对词表的共享、交流和使用,都是很有意义的。特别是建立在html格式之上的交互界面,非常便于人们使用,具体如图4所示:
图4 Vallex的交互界面
通过这个交互界面,用户可以按照不同的指标来浏览配价词表的内容,对各类动词的配价结构进行定量和定性的研究分析。例如,如果用户要查询单词“brát”的配价功能,可以点击functors,交互界面就会显示出它的各种配价功能,如ACT,ADDR,PAT,LOC,DIR等。
通过利用虚拟化的技术构建计算池、网络池、存储池和桌面池,最终形成一个可以共享和处理信息的统一的资源池。这是一种由服务器、存储和网络等设备构成的数据资源。正常办公人员、教学人员可以享受到应用层提供的体育教学系统和办公OA系统的应用程序。学生可以享受到用户层对于数据中心的访问权限和服务支持。移动教学桌面云和资源层的管理构成了管理层,最终形成管理体系。
总的来说,功能生成描述理论不但是布拉格学派在信息时代的继续和发展,而且是少有的将理论和实践完美地结合起来的语言学理论。本文着重介绍的布拉格依存树库(PDT)和捷克语动词配价词表(Vallex),不仅有助于验证功能生成描述的理论主张,而且对自然语言处理也是大有用处的。目前已有数种欧洲语言采用PDT的标注体系来构造相应的树库,这对功能生成描述理论的传播和进一步应用无疑是大有裨益的。
新经济时期,商业银行需要对金融产品和服务需求进行不断改善,需要不断提升产品的质量,提高服务水平,这是商业银行金融产品创新的内在推动力。目前,政府对三农问题也特别重视,出台了一系列的管理办法和法律法规,并且已经能够满足农村的金融需求。
参考文献:
[1]Jarmila Panevová.On verbal frames in functional generative description II[J].Prague Bulletin of Mathematical Linguistics,1975,(23).
[2]Petr Sgall,Eva Hajicová,and Jarmila Panevová.The Meaning of the Sentence in Its Semantic and Pragmatic Aspects[M].Dordrecht:D.Reidel,1986.
[3]Eva Hajicová,Petr Sgall.Dependency Syntax in Functional Generative Descriptions[A].In Àgel,Vilmos;Eichinger,Ludwig;Eroms,Hans-Werner;Hellwig,Peter;Heringer,Hans-Jürgen;Lobin,Henning (eds.).Dependenz und Valenz: Ein Internationales Handbuch Der Zeitgenösischen Forschung[C].Berlin:De Gruyter,2003.
[4]白雪.功能生成理论评介[J].现代语文(语言研究版),2016,(2).
Functional Generative Description of Prague School
Feng Zhiwei,Zhoujian
(College of Foreign Languages,Hangzhou Normal University,Hangzhou 311121,China )
Abstract: This paper introduces the Functional Generative Description(FGD)of Prague School,it concentrates to introduce the Prague Dependency Tree bank(PDT)and The Valency Lexicon of Czech Verbs(Vallex),and then the paper discusses the application of the Functional Generative Description in natural language processing.
Key words: Functional Generative Description;Prague Dependency Treebank;Valency Lexicon of Czech Verbs
作者简介: 1.冯志伟,男,杭州师范大学外国语学院特聘教授;
2.周 建,男,杭州师范大学外国语学院讲师。
首先由x∈{x}-,f(x)∈f({x}-),于是{f(x)}⊆f({x}-),从而clY{f(x)}⊆clYf({x}-);其次由f连续,f({x}-)⊆{f(x)}-,于是clYf({x}-)⊆{f(x)}-=clY{f(x)}。从而clY{f(x)}=clYf({x}-)。
标签:功能生成描述论文; 布拉格树库论文; 动词配价词表论文; 杭州师范大学外国语学院论文;