多模态范畴逻辑研究_自然语言论文

多模态范畴逻辑研究，本文主要内容关键词为：范畴论文,逻辑论文,多模论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

一、多模态范畴逻辑的背景介绍

自上个世纪70年代以来，逻辑和语言的交叉研究获得长足发展。该领域的基础是范畴语法：作为开端的蒙太格语法，其思想来源于范畴语法；而蒙太格语法以后的类型-逻辑语义学及语法逻辑均是范畴语法序列的延伸。近20来年，关于自然语言的范畴语法分析已在计算机信息处理领域内获得了应用。同时，对范畴语法进行逻辑系统的抽象，并构造可能世界的框架语义解释，就形成了所谓多模态范畴逻辑。可以说，范畴语法是多模态范畴逻辑产生的背景。

范畴语法是一种使用运算和推演的手段描述语言的形式化工具。运算的概念与数学相关，所以范畴语法是一种数理语言学。推演的技术涉及逻辑，所以范畴语法自然也属于逻辑。强调运算的思想是计算机程序设计的要求，所以范畴语法的分析方式对计算机的自然语言信息处理具有直接的应用价值。概言之，范畴语法的基本原则是：语言认知就是数学计算，语法分析就是逻辑演绎。荷兰逻辑学家和计算语言学家莫特盖特(M.Moortgat)用三个等式概括出范畴语法的核心思想：认知=计算；语法=逻辑；分析=演绎。

范畴语法尤其关注自然语言。所谓自然语言就是各个民族在长期共同的社会生活中历史形成的语言，汉语、英语、俄语、日语和德语都属于自然语言。这些语言的表层结构不同于机械的人工语言，但作为形式科学的产物，运算和推演的概念又如何跟自然语言联系在一起？这需要从自然语言本身的特征说起。

自然语言具备用单词连成词组、再由词组连成短语以及句子的功能。如由“北京”和“上海”连成“北京上海”；由“张三”和“散步”连成“张三散步”。自然语言是一个由较小语言成分形成较大语言成分的符号体系，这就是自然语言的毗连性(concatenation)。通过毗连自然语言符号串可以逐步增长扩张，这也是人们常说的自然语言的生成性(generation)或能产性。自然语言的生成性表现为逐层逐级的毗连过程，如英语句：

自然语言的毗连生成体现出由小到大的增长性，因此可以用德国逻辑学家弗雷格(G.Frege)的语句函项思想来分析其形成过程。具体说就是：把某一语言成分当作函项，把相邻的成分当作函项的主目，把两个成分的毗连当作函项运算获得的结果。这便是范畴语法从深层角度把握自然语言形成规律的基本方法。

要把自然语言的毗连生成转换成函项运算，就需要对自然语言的表达式进行范畴指派。我们给有些表达式指派作为运算函子的范畴(A/B或A\B)，给另一些表达式指派作为运算主目的范畴(A或B)，然后就通过范畴之间的运算来展示自然语言的毗连生成。从逻辑角度看，范畴语法把自然语言的毗连生成当作是一种逻辑推演。把作为函项的范畴和作为主目的范畴看作推演的前提，把作为函项运算值的范畴看作推演的结论，把据之为推的规则看作是从前提到结论的依据。就上例而言，在给专名John、不及物动词walks、介词in、冠词the和通名park分别指派了各自的范畴以后，我们就把上例英语句的毗连生成替换成从前提范畴到结论范畴的一系列推演：①

范畴语法对自然语言的分析方式很快在计算机领域里获得应用。范畴语法贯穿了数学运算和逻辑推演的思想，本质上就是一种逻辑程序语言，可以说范畴语法是在逻辑程序框架内表述的理论。范畴语法所需要的公理和推演规则，按照莫特盖特的做法，采用作为逻辑程序语言的霍恩子句形式(Horn clause form)表述出来(Moortgat,1988,pp.133-134)。通过莫特盖特的工作，把范畴语法判定句子是否合语法归结为逻辑程序的求解问题。近年来范畴语法的研究成果日益受到自然语言的计算机处理领域的关注。

莫特盖特的学生Moot进而在其博士论文中设计了被称之为Grail的范畴语法定理证明器。这是一种基于证明网技术的Prolog程序软件，是范畴语法分析自然语言的计算机实现。在计算机上安装这个软件后，可以设计任何自然语言片段的范畴语法系统：输入词条构成词库，输入结构公设等特定的技术手段。然后据此判定任意给定的句子是否合语法。同时，Grail还在视窗界面上展示判定的搜索过程(详见Moot)。

二、多模态范畴逻辑的构成

范畴语法对自然语言的逻辑分析在计算机领域获得实现，这推动了自然语言的信息处理工作。另一方面，逻辑学家或数学家从逻辑理论角度深入研究范畴语法。对范畴运算推演规律进行抽象形成范畴语法的逻辑系统，不仅把函子范畴中的斜线算子“/”和“\”以及毗连算子“·”当作广义的逻辑联结词，把范畴推演的规则当作系统中的定理，还进一步考虑建立范畴逻辑的语义理论。范畴逻辑系统于是获得可能世界的框架语义解释，据此函子范畴中的斜线和范畴的毗连均被看作是二元模态算子，并且在系统中添加一元模态算子“◇”和“□[↓]”用于自然语言结构性质的刻画。范畴推演的来源——自然语言的生成毗连就成为范畴逻辑的可能世界语义框架的载体。范畴语法最终发展成现代模态逻辑的一个应用分支——多模态范畴逻辑。

首先，在多模态范畴逻辑看来，一部语法的构成具有两大机制：逻辑的推演和结构的推演。逻辑的推演是指依据有关函子范畴的定理的推演，如下列推演的第一步和第二步：

而结构的推演指依据跟毗连算子有关的结构公设的推演，如下列推演的第2步：

因而，逻辑推演大都依据和斜线算子有关的定理；而结构推演则多半凭借仅涉及毗连算子的结构公设。于是在多模态范畴逻辑那里，我们就有以下推演机制：主要针对斜线算子的、仅仅针对毗连算子的以及涉及斜线或毗连的机制。

(1)涉及斜线或毗连——同一公理和传递规则：

A→B B→C

———————

A→AA→C

(2)主要针对斜线算子——4条冗余规则：

A·B→C A·B→C

—————— —————

A→C/B B→A\C

—————— —————

A·B→C A·B→C

(3)仅仅跟毗连算子有关——结构公设：

(ass)A·(B·C)(A·B)·C

(comm)

A·BB·A

基于(1)和(2)对(3)的两条公设进行取舍，就形成了多模态范畴逻辑公理表述的4个基本系统：NL=(1)+(2)；L=(1)+(2)+(ass)；NLP=(1)+(2)+(comm)；LP=(1)+(2)+(3)。NL又叫做非结合的Lambek演算；L叫做结合的Lambek演算；NLP称作非结合的交换Lambek演算；LP称为结合交换的Lambek演算。

其次，多模态范畴逻辑还采取便于解决判定问题的Gentzen后承表述(Moortgat,1997,pp.105-106、136)。从证明论角度看，多模态范畴逻辑的公理表述存在不足，即无法给定理证明提供能行的判定程序。问题出在传递规则的使用上，从A→B和B→C推出A→C意味：凭借B的帮助获得A→C，但从中却看不到B的踪迹。因为存在无穷多个可能的B，对此不可能进行穷尽搜索。概言之，传递规则的使用使得在多模态范畴逻辑中不可能进行定理证明的搜索判定。而Gentzen后承表述与其公理表述是等价的，推出的定理集是相等的。在Gentzen表述中，与传递规则对应的Cut规则是可消去的，因此多模态范畴逻辑的Gentzen表述能够解决定理证明的有穷搜索问题，即所谓判定问题。

此外，多模态范畴逻辑还具有与Gentzen后承表述等价的自然演绎系统。在莫特盖特看来，从某种意义上讲自然演绎比Gentzen后承表述更能体现证明和推演的精神(同上，p.110)，其推演能力最终与公理表述等价。公理表述虽适于元逻辑性质的讨论，如完全性的证明，但自然演绎却使人能够更清楚直观地感受从自然语言词条来源到范畴推演的过程，有利于对自然语言语句进行范畴分析的演示。

从模态逻辑的视角看，展示范畴推演规律的函子范畴和范畴的毗连都是模态公式，范畴毗连的结构性质甚至还通过一元模态算子表现出来。在多模态范畴逻辑系统中，“/”、“\”和“·”等联结词均被看作是二元模态算子，同时可引进一元模态算子“◇”和“□[↓]”用以刻画语言的结构性质，有关的推演规则为：②

基于上述框架语义及其赋值，我们可以定义典范模型，证明所谓真值引理，最后获得多模态范畴逻辑系统的可靠性和完全性证明(Doen; Moortgat,1997)。

应该指出，多模态范畴逻辑中除了具有涉及单纯毗连算子的结构公设，还可能有涉及混合毗连算子以及通过一元模态算子显示出的结构公设。这样就使得多模态范畴逻辑由于结构公设的不同而产生了多种多样的系统。

三、多模态范畴逻辑的汉语研究

汉语句子具有比较灵活的语序，其主语、宾语和谓语动词可以出现在不同的位置上，而不影响基本的语义。从范畴语法角度看，需要建立针对汉语灵活语序的范畴推演机制。为此，本文提出关于范畴分析的自然语言来源的位置移动的结构公设，形成特定的范畴逻辑系统，即一种多模态系统(multimodal system)，并给该系统框架语义解释的可通达关系确立相应的限制条件，然后进行系统的元逻辑讨论——可靠性和完全性的证明。

语言学研究早就注意到汉语句子语序的灵活性。在汉语不少句子那里，主语、宾语和谓语可以出现在不同的位置上(吴平，第53页；蒋严、潘海华，第200页)，如：

正常句：(1a)刘强爱看言情片(2a)张三买了《西游记》

话题句：(1b)言情片刘强爱看(2b)《西游记》张三买了

焦点句：(1c)刘强言情片爱看(2c)张三《西游记》买了

以上两组句子在重音或焦点的处理上有所不同，但有一点是共同的，即这些句子在汉语那里都是说得通的，并且具有相同的基本语义。人们感到困惑的是：“根据类型论的规定，每个词项都被赋予相应的句法范畴和语义类型。动词的句法范畴规定了相关的名词论元出现的左右位置。这样，作为大前提的动词就会朝某个方向去搜寻论元并与之合并。然而，有些论元由于种种原因，有时并不出现在规定的方位，却出现在相反的方向。这样，动词就寻觅不到所需的论元。而另一方面，正因为动词无法与相关论元合并，整个句子便出现了一个额外的、不能用的论元。组合机制因此陷于停顿，句子便无以生成。”(蒋严、潘海华，第199页)

逻辑研究者应该说明这些不同语序的汉语句之所以能够成立的原因。其深层的内在原因是它们具有大致相同的语义，并且从不同的句法形式能够推出相同的语义。本文试图从多模态范畴逻辑的角度给出这样的说明。在范畴语法看来，句法上合语法的句子能够通过范畴推演获得句子范畴s。比如：在给(1a)中各词条指派一定范畴的前提下根据范畴推演定理就能够获得范畴s。采用自然演绎的推演如下：

刘强

爱看

言情片

———

—————

————

np (np\s)/np

—————————据有关规则

(爱看，言情片)├(np\s)

———————————————据有关规则

(刘强，(爱看，言情片))├s

这表明(1a)是合语法的语句。但同样的范畴指派，显然不能分别从(1b)和(1c)那样的排列语序推得范畴s，从而无法判定它们是合语法的句子。如(1b)的情况为：

言情片刘强爱看

————————————

np np (np\s)/np

——————————？

(刘强，爱看)├？

————————————————？

(言情片，(刘强，爱看))├？

然而，汉语的灵活语序机制则允许(1b)和(1c)具有与(1a)相同的基本语义，在这里要求都能够推出s。多模态范畴逻辑要反映这种机制，在给有关词条指派固定范畴的前提下，必须揭示汉语特有的关于毗连的结构性质。这种结构性质使得(1a)—(1c)能够推出相同的语义，即(1b)—(1c)的范畴推演都获得s，从而表明它们都是合语法的句子。汉语的灵活语序表现为语词符号的位置移动，在多模态范畴逻辑看来，这是一种结构性质。基于此，我们确立关于位置移动的结构公设来概括这些性质。比如：

P1 若(A，(B，◇C))├D则(◇C，(A，B))├D

P2 若(◇C，(A，B))├D则(A，(◇C，B))├D

P1后件的前提是(1b)的结构抽象，P1前件的前提是对(1a)的抽象。回到具体，“言情片”变成了“◇言情片”。这里，一元模态算子究竟起什么作用？

在汉语那里，从(1a)到(1b)，再到(1c)，我们看到宾语“言情片”位置的移动。移动的后果是给它指派的范畴np无法跟毗邻的范畴进行运算，相当于用一元模态算子“□[↓]”锁住了np，使之无所作为。所以在汉语的范畴语法词库中可以定义：

言情片├□[↓]np 刘强├np 爱看├(np\s)/np……

在正常语序句(1a)这里，“言情片”对应的范畴是可以同动词对应的函子范畴进行运算的。必须用规则“如果A├□[↓]B则◇A├B”把锁打开而获得“◇言情片├np”，这样范畴推演才得以展开。开锁的钥匙是约束“言情片”的一元模态算子“◇”，这个钥匙承载了结构性质P1和P2的信息，表明其管辖的表达式“言情片”满足P1和P2所显示的位置移动，表明这些移动使我们照样能够获得移动前所得到的范畴推演结果。换言之，这一系列操作意味：“言情片”作为表现汉语灵活语序的特殊表达式，先给它指派上锁的范畴“□[↓]np”，使之无法运算；在正常语序句情况下，作为宾语的“言情片”对应的范畴则可以进行运算，是可以解禁的，开锁模态算子“◇”约束“言情片”意味对“言情片”的范畴“□[↓]np”进行解禁而获得“np”。同时意味“◇”约束的表达式可以满足P1和P2揭示的结构性质，表明汉语的焦点句、话题句和正常句一样具有相同的范畴推演结果，最终具有相同的基本语义，这就是我们对汉语灵活语序内在机制的说明。

本文处理汉语灵活语序的多模态范畴逻辑的自然演绎表述有下列规则：

这里结构规则可以针对范畴推演的来源，即自然语言位置移动的情况：

我们以(1a)—(1c)的范畴推演分析为例演示如下：

刘强爱看言情片

————————————

np(np\s)/np □[↓]np

——————[□[↓]E]

言情片├ np

————————————————[/E]

(爱看，言情片)├ np\s

————————————————[\E]

(刘强，(爱看，言情片))├ s(1a)的范畴分析

————————————————[P1]

(言情片，(刘强，爱看))├ s(1b)的范畴分析

————————————————[P2]

(刘强，(言情片，爱看))├ s(1c)的范畴分析

通过我们确立的范畴推演机制，我们从(1a)、(1b)和(1c)分别推出范畴s，表明它们都是合语法的句子。如果把这个机制延伸到类型-逻辑语义学的范围，给这里的s配上λ-词项，就能见出三个句子具有相同的逻辑语义表现。

为了便于讨论上述多模态范畴逻辑的元逻辑问题，我们需要从自然演绎方式回到相应的公理表述上来，令CL为这样的多模态范畴系统。

CL的合式公式定义为：

CL的公理和推演规则为：

从左到右的可靠性证明需要施归纳于A→B推演的长度：长度为1时证明公理公设的有效性，假定长度为n时断言成立，要证长度为n+1时断言成立，即证明推理规则保持有效性(参见Doen)。

注释：

①下例中函项范畴如np\s和主目范畴如np要通过毗连才能推演出结论，范畴之间的毗连算子“·”通常被略去。下例推演所依据规则的说明也被省略掉。

②与一元模态算子有关的结构公设(公理表述和Gentzen后承表述)参见莫特盖特有关文章(Moortgat,1997,p.137)。

③“〈〉”是一元模态算子“◇”，(，)是毗连算子“·”分别在Gentzen后承表述中推广到公式系列的写法。

④在不引起混淆的情况下，我们用R[3]和R[2]分别代表R[，K][3]和R[，K][2]。

标签：自然语言论文; 语法分析论文; 语义分析论文; 逻辑运算论文; 逻辑结构论文; 逻辑分析法论文; 关系逻辑论文; 公理系统论文;

多模态范畴逻辑研究_自然语言论文

猜你喜欢