基于组合范畴语法的汉语时间词的逻辑语义分析论文

基于组合范畴语法的汉语时间词的逻辑语义分析

罗丹

(湘潭大学碧泉书院,湖南 湘潭 411105)

摘 要: 当今时代是计算机信息处理的时代“,大数据”和“云计算”等思想接踵而至“,计算机句法分析”和“计算机语义理解”等概念纷至沓来。要想计算机理解自然语言,就需要对自然语言进行句法和语义的形式化分析,使自然语言成为一种可计算、可推演的处理对象,这就是逻辑语义学或语言逻辑的研究任务。而要形式理解语言,首先要对汉语中特定研究对象进行研究,比如时间词。通过CCG这个理想的逻辑工具,对汉语时间词进行分类的逻辑语义分析,力图为自然语言语义理解和人机通讯等领域提供素材。

关键词: 时态逻辑;汉语时间词;体(aspect);态(tense);CCG

新西兰逻辑学家亚塞·普莱尔(Arthur N.Prior)于上世纪五十年代建立了时态逻辑[1],此后一些逻辑学家,如坎普(H.Kamp),罗伯特·布尔(Robert Bull),雷斯彻(N.Rescher)和厄克特(A.Urquhart)等,进一步发展了时态逻辑。[2]1977年艾米尔.伯努利(AmirPnueli)提出了线性时态逻辑,把时态逻辑应用到计算机科学中取得巨大成功。[3]

时态逻辑的成功应用在于它比经典逻辑更成功地刻画了自然语言的时态问题,它把命题看作关于时间的函项,使命题的真值相对于时间点,解决了经典逻辑所不能解决的问题,但是时态逻辑仍有其很大的局限性。[4]时态只是自然语言的一个语法特征,自然语言语法有性、数、格、时、体、态、人称等范畴,自然语言表达要涉及空间、地点、场合、语境、心理、认知等多种因素,自然语言还具有模糊性,对这些方面时态逻辑似乎不能很好地刻画。[5]比如,自然语言中的因果推理依赖于事物之间的因果关系,因果关系包含了多重因素,不能仅仅依赖时间关系来刻画,否则会犯“以时间为因果”的错误。

时态逻辑隶属模态逻辑的一种,有两个初始模态词P和F,但是多模态的自然语言,有很多乃至无穷多模态词,所以它刻画自然语言显得有些刚性,因此需要发展其他逻辑类型。时态逻辑自身也有其问题,比如时间的计量单位问题,时间是连续的还是一个个时间点组成的,都是难以回答的问题。自然语言在这些问题上是模糊的,但是却能很好地表达要表达的意思。在处理自然语言时态之外的其他方面时,范畴语法体现出很强的表达力,能把不同的因素看作不同的范畴加以处理,更好地刻画了自然语言。[6]

组合范畴语法CCG是在古典范畴语法基础上发展起来的自然语言语法,为满足计算机信息处理的需求而构建,其优点在于:它在句法和语义之间有一个透明的接口,每个词条的语义表达式和句法范畴都被存放在词库的词项上,可以较为精确地匹配句法和语义。[7]本文基于CCG对语言现象敏感、具有吸引人逻辑性质和计算优势等特点,以语言学知识为背景,以现代逻辑为研究手段,以解决汉语时间结构信息处理的难题。要解决这个难题,我们首先要对汉语时间词进行分类的逻辑语义分析,如下:

( 来源:《黑龙江日报》 2018-08-19 http://epaper.hljnews.cn/hljrb/20180819/374851.html )

一、汉语时间表达式、时间概念的类型与分析

同位结构,比如“4号清明节去扫墓”、“后天周末你有什么安排”;

参照物体的:日、莫、晨、昏、晓、晦、昕、曛、朔、望。

Keil uVision3是本设计选用的调试软件,它的开发平台为微处理器软件,内嵌多种开发工具符合当前工业标准,可以完成从工程建立到管理、编译、连接、目标代码的生成、软件仿真、硬件仿真等完整的开发流程。用STC将程序编译好烧到单片机试运行。调试过程中,可以根据实际情况修改超声波发生子程序每次发送的脉冲宽度和两次测量的间隔时间,以适应不同距离的测量需要。

参照事件的:日出、日薄西山、惊蛰、入定、转眼、转首、弹指、旋踵、食顷、夜深人静。

参照容器的:夜里、年内、一年中、三天之内、十年间、动荡的年代中。

时制(tense)是指相对于参照时区,事件发生的时区或者说事件在时轴上的定位。赖欣巴哈(Reichenbach)(1947)用S,R和E分别表示说话时间、参照时间和事件发生时间。[11]据此,时制就是R和S的位置关系(视点体或时态反映的是R和E的位置关系)。关于时制的逻辑研究有很多文献,如普莱尔(Prior)(1967)[11],加贝(Gabbay)和 盖恩奈Guenthne(2002)[12]等。这些研究大多采用时制算子的方式,虽然对时制的逻辑语义表述效果良好,但是难以将时制的逻辑语义刻画纳入到λ--演算中,这使得时制的逻辑语义难以用组合性的方式获得。因此在语言学界,逻辑语义学家更愿意采用λ--演算的方式刻画时制的逻辑语义。例如,海姆(Heim)(1997)和朱奇(Zucchi)(2009)将过去时PAST的逻辑语义表述成ltlP$t'[t'<t Ù P(t')],林若旺将汉语中表示将来意义的“会”的逻辑语义表述成lP<i,t>ltlt0[P(t)Ù t0<t][13],这样时制的逻辑语义可以与其他普通表达式的逻辑语义一样进行组合运算。

参照空间方位的:前日、前天、前年、前期、之前、以前、前世、前一段时间、后天、后年、后半夜。

式中,a是和吸附反应初始速度有关的常数;b指与吸附活化能有关的常数;qt为t时刻Cd的吸附量(mg/kg);k2为伪二级反应速率常数〔kg· (mg/h)〕;qe为Cd平衡吸附量(mg/kg)。

要分析和处理汉语的时间结构,首先需要研究汉语的时间概念,厘清汉语时间概念的类型。时间是不依赖于人的意识的客观实在,但人类能够能动地感知时间、认识时间形成时间概念,并可以通过使用语言的词汇和语法形式来体现。描述时间概念,不同的语言表现出相异的特点,汉语偏重词汇手段,俄语偏重语法手段,英语是两种方法兼而有之。汉语的时间系统是通过时态助词、时间副词、时间名词、时序词及其相关的句法结构共同表现出来的。时态助词如语气虚词“了”、动态助词“过”,时间副词如“在”、“已经”、“马上”、“要、就、快要”等,时间名词如“现在”、“后来”、“明天”,表示时间顺序和时间位置的方位词有“先、再、以前、以后、最后”等。[9]

“农拓者在做造福农民的事,我对农拓者发展有信心。这是我们的梦,也是新疆农民的梦。”刘彬并不满足于现在的成绩。他表示,未来农拓者不仅将从种苗、产品、技术、服务等方面实现“一站式”解决方案,还会在金融、保险、销售上构建一整套服务链体系。同时,农拓者还计划当起农民和市场的“月老”,通过建立绿色种植基地,以完善的方案服务农民种植,以定制化的农产品满足市场需求,让农与商“喜结连理”,带动农业产业链的互利共赢。

不使用时间词,借助某些事实,加上特定的词语,也可以用来表示时间,而且这种用法在口头上和书面上都是常见的。例如:“太阳落山的时候,你去把水位测量一下”、“德国人审讯这个女子的时候,房主人被赶到厨房里去”、“我们的车开到两州边界的时候,有人招呼我们过桥”,这样的状语从意义上说是借事表时,从形式上说,也是一个表示时间的语言成分[10]。这种表示时间的方法与前面的方法有两点不同:一是意义不完全相同,前一种只表示时间,后一种除表示时间外,还叙述事实;二是表示时间的手段不同,前一种是语言成分直接表时,属于词汇表示法,后一种是通过事实加上特定词语组成句法结构表时,也就是说,时间的意义是从句法结构中产生的,不是由词语直接表示的,这种方法属于语法表示法。

我们知道,逻辑专家们在基本量词基础上,借助于集合论等理论工具,对量词进行了分类,并使用了形式化的逻辑表达式刻画各种量词,建立了广义量词理论。借鉴广义量词理论的做法,以表达“过去、现在、将来”的基本时制算子和表达“进行、完成”等基本的体算子为基础,借助于集合论等理论工具,对时间词进行分类,并使用形式化的逻辑表达式刻画各种时间词,建立广义时间词理论。

1979年改革开放,日子稍微好过了些,天有不测风云,爷爷不幸撒手人寰,丢下奶奶和7个孩子相依为命。父亲成家后,奶奶被接到我家安度晚年,这对镯子也就跟着奶奶带到了我家。

d.摆了三天了。(或者摆之后过了三天,或者“摆”等动作持续了三天,或者“摆”之后的状态持续了三天)

各种表达时间概念的方法有着不同的句法功能,刻画了不同的时间特征。在CCG框架下,怎么用形式化的方法从句法和语义两个方面精确地刻画这些时间结构需要仔细琢磨,反复试验。对于组合范畴语法CCG来说,给一个合语法语句的各词汇指派合适范畴,使用推演规则进行句法推演的结果都是句法范畴S,当无法刻画各语句所表达的命题或各成分之间的谓词-论元依存关系时,这一任务便落在语义赋值和运算中。在分析了汉语时间概念类型和时间结构特征后,采用λ-演算的高阶逻辑方法,在中文CCG语料库基础上,给社科中文CCG库汉语时间结构句分析树配备语义表述,这样在实现汉语时间结构句句法解析的同时,同步完成语义的组合生成。这一做法将会揭示汉语语义对句法的弥补,改变目前应用CCG时“重句法,轻语义”的状况,开启语言逻辑研究的新思路,对其他汉语结构研究定会起到借鉴作用,对语言学和语言逻辑的进一步发展必将起到巨大的促进作用,对中文信息处理工作也会起到极大的推动作用。

二、汉语时间结构“时制”特征的分析

参照动体的时间的:过去、去年、往年、将来、未来、来年、来生、自古以来、从此以往。

时间词可以单独使用,也可以连用。这里把时间词连用的结构称作复合时间结构。复合时间结构又分为连续的复合时间结构和非连续的复合时间结构,我们先来分析连续的复合时间结构,如:“2008年,十八岁那年,我考上了大学”,“下班了,快到家门口的时候,我想起了我的钥匙还在办公室”。连续的复合时间结构即表示时间,又表示关系,这种意义是连续的复合时间结构独有的。在连续的复合时间结构中,时间词连用可以构成多种结构,如下所示:

(2)列车制动地段钢轨的波磨较为严重。列车在牵引、制动、黏着的运行状况下均会产生波磨。通过比较直线段钢轨波磨的分布,发现钢轨波磨主要取决于列车的运行工况。在距离车站较近的同一区段,上下行线路波磨分布情况有很大差异,列车制动地段钢轨的波磨更加容易发生,波磨恶化程度也更加严重。

我们知道,隶属于哲学逻辑的各种时间逻辑(也有人称为时态逻辑)就是包含了表“过去”义的时间算子P和表“将来”义的时间算子F(有的还基于P和F定义了算子G和H)而形成的逻辑系统。从中得到启发:一是对于CCG的句法来说,也尝试性地增加一些带时制标注的范畴和相应的推演规则;在对一些时间词进行语义指派时,标注“过去”、“将来”等时制特征,且使用一些表示“过去”、“将来”等等,时制的语义算子。

三、汉语时间结构“体”特征的分析

体(aspect)是事件的主要时间构成成分。比如,下面例子中动词后面都是加上表示时段的时间词“三天”,但是动词的时间意义就不一样。比较:

a.死了三天了。(“死”之后已经过了三天)

参照空间距离的时间表达式:远古、远古、远景、远虑、近期、近代、近古、近况、近日、为时不远。[8]

b.哭了三天了。(“哭”这个动作持续了三天)

c.学了三天了。(或者“学”后过了三天,或者“学”的动作持续了三天)

研究组患者的治疗有效率显著高于对照组,两组患者的并发症出现率比较,差异无统计学意义(P>0.05),见表1。

以上例子,动词不同,时间意义特征不同,意义便不同。这些动词的时间意义可以用“[完成][持续][状态]”来标示语义特征。体一直是理论语言学界讨论的热点问题,同时这也是逻辑语义学界关注的重点话题,尽管汉语文献中有很多关于体的研究,但是将体的逻辑语义研究与计算语法相结合是空白,更不用说CCG。比如社科中文CCG对包含时间词“已经在”的真实文本句“市府新闻处表示:他们已经在研究分级制度”的分析(图1):

教师总结:对条件l1⊥l2的转化,思路2用的是勾股定理,思路4用的是平面向量知识,二者虽然角度不同,但实质是一样的,都是通过坐标运算得出结果.思路4之所以能顺利得到k1k2=-1,是因为得到④后并没将其左边展开,而是根据其形式与斜率公式形式的结构特征,计算k1k2.如将④左边展开,则和思路2中的③完全相同.实际上,得到③后,观察其中含有项,而和相乘可以出现因而尝试计算k1k2是不难想到的.

图1 汉语完成体时间词“已经在”的社科中文CCG库分析推演

社科中文CCG对该语句的分析没有刻画汉语时间结构的“体”特征,在该语句中,“已经在”捆绑在一起表示现在完成时,这首先需要改变句法分析树的层级,使“已经”和“在”直接组合,然后再考虑如何定义完成体算子Perfect。当然,改变句法分析树的层级和严格定义完成体算子都是很困难的工作,甚至牵涉到整个语句的句法分析和语义的组合。再如社科中文CCG库对包含非连续复合时间结构“正在……中”的语句“中国人民银行批准,泰康人寿保险股份有限公司等五家保险公司正在紧张筹建中”的分析不尽如人意。

社科中文CCG库对该语句的分析也没有刻画汉语时间结构的“体”特征,在该语句中,非连续复合时间结构“正在……中”表达进行体(图2),如何处理这种非连续结构,并在语义上定义进行体算子Progressive也是我们面临的艰巨任务。下面处理的是汉语的真实文本,关于该句的时间语义分析还要跟整句的语义组合相协调,跟各个词条的语义匹配相关联,达到这些目的也是非常不容易的。

图2 汉语进行体时间词“正在……中”的社科中文CCG库分析推演

我们知道,各种时间逻辑(也有人称为时态逻辑)就是包含了表“过去”义的时间算子P和表“将来”义的时间算子F(有的还基于P和F定义了算子G和H)而形成的逻辑系统,这里的时间算子P和F是用来刻画时制的,是时制算子,目前还没有通过引入体算子构成的时间逻辑系统。鉴于此,我们对组合范畴语法CCG进行两方面的扩充:一是对于CCG的句法来说,也尝试性地增加一些带体特征的范畴和相应的推演规则;在对一些时间助词(甚至有些动词)进行语义指派时,标注“完成”、“进行”等体特征,或者使用一些表示“完成”、“进行”等体的语义算子。注意有些助词与不同的动词组合会产生不同的体特征,比如上述例子中的“了”,这就要给“了”等时间助词标记多个体特征。

1.融入EOP后原高职公共英语教学生态失调现象研究。调研高职公共英语教学现状,提出融入EOP的必要性。融入EOP势必使原高职公共英语教学生态失衡,分析失衡生态系统中教学目标、内容、方法、评价、师生角色等生态因子发生的失调现象。

四、复合时间结构的逻辑分析

语言系统中,时制属于语法范畴(如英语的进行时,标记是-ing),分清时制和体是目前语法研究中较为敏感的研究动态,若不分清,无法解释一些语言现象。目前学界面临的难题在于:与英语等曲折形式语言不同,汉语没有时制的形态标记,时制的概念主要通过体标记(如“着、了、过”等)词的情状特征,上下文所提供的时制信息等隐性方式表现出来,因此要在强调句法-语义对应的CCG中实现组合生成时制的逻辑语义,显然不是一件容易的事件。

主谓结构,比如“十月一日国庆节”、“今天七夕”;

我们知道,量词表达式多种多样,除了像“所有…”、“每个…”这类全称量词表达式和“有些…”、“存在…”这类特称量词表达式,还有诸如“无穷多…”、“大多数…”、“绝大部分…”等等这些量词成员。同样,时间表达式也是多种多样的,比如:

偏正结构,比如“上古先秦时代发生的事”、“周一晚上7点上课”;

联合结构,比如“不管是过去、现在还是将来都应该坚决反腐”。

这些都是时间词连用,但是时间词之间的关系不同,造成了不同的复合时间结构,这不可能根据词性在句法上区分开来,只能在语义上寻找出路。汉语在句法上缺少严格的形态标记,语序灵动,对上下文依赖程度高,属于意合型语言。从逻辑语义的角度,汉语句法不足,但语义的“意合特征”从某种程度上能够弥补这种不足。从CCG的角度,如何表达汉语的意合性,如何通过对CCG的规则设置来表现汉语语义对句法的弥补,如何把握汉语独特的句法语义对应规律,都是CCG以往研究不足的地方。通过把逻辑语义学对自然语言,尤其是对汉语形式化研究的成果应用到汉语的信息处理领域,将拓宽我国计算机自然语言处理的思路,提高其处理的效率。

工区在水体较深处发育有(半)深湖沉积亚相,属还原环境。岩性以灰黑色、深灰色泥页岩为主,工区同时也可见生物灰岩、白云岩和油页岩夹层,发育水平层理。

五、非连续的复合时间结构的分析

之所以将非连续时间结构从符合时间结构中单独拿出来,是因为“非连续结构”是一个非常重要的研究内容。

比如在宾语前置句“这个问题我们已经研究过”中,“已”和“过”都是时间词,句法上二者没有毗连,但是语义上是一个整体,表示过去式或现在完成时,即句法和语义在这里不匹配,这就构成了一个非连续的时间结构:“已……过”(图3)。下面我们看看清华CCG树库对该语句给出的分析树图:

图3 非连续时间结构“已……过”的清华CCG库分析树

尽管已有成果对“已”和“过”所体现的时间逻辑语义是一个整体,即当两者同时出现时,构成了表示过去式或现在完成时的时间算子,但上图的分析为它们指派了不同的范畴以方便计算。这种“间隔”的句法分析很难表现它们在语义上是作为一个整体的事实,因而上图的处理方式是为了方便句法范畴的计算而忽略语义理解的简单处理。[14]社科中文CCG库对于非连续的复合时间结构的句法处理存在同样的问题问题,如下两例示(图4)(图5):

图4 非连续时间结构“曾经……过”的社科中文CCG库分析推演

图5 非连续结构“正在……中”社科中文CCG库分析推演

怎么处理非连续的复合时间表达式,使之所体现的时间逻辑语义是一个整体?这就要从CCG角度描述汉语的意合性,在CCG的规则设置上揭示汉语语义对句法的弥补。考虑在参照语境的情况下,对非连续成分其中一个采取虚化或恒等函项的处理。这样虽然从语义上解决了非连续现象,但如何在语义上进一步刻画上述非连续复合时间结构所体现的“现在”、“过去”两个时制和“进行”、“完成”两个体还需要做进一步的工作,需要借助混合时间逻辑的做法。

六、有关时间词形式刻画的后续研究

分类还有待完善,没有穷尽所有汉语时间词,拟给出如上分类,抛砖引玉,为自然语言形式分析提供研究素材。

与之相关的是如何用CCG表述上面的时间词。具体而言,关于CCG的问题,CCG中文语料库需要进一步完善,特别是在时间结构词的解释刻画方面,逻辑语义学研究者需要更加深入这项工作。基于CCG的汉语时间词的逻辑语义分析,还可以借鉴的国外语义处理的逻辑理论工具:基于λ-演算的高阶谓词逻辑表述、由话题表述结构DRS和语义网络资源VerbNet的论旨角色表示的复杂事件语义、混合逻辑依存语义(HLDS)表述,等等。如何针对汉语时间词的语义特点提炼出适合汉语的深层语义表述体系,需要进行大量的研究工作[15]

参考文献:

[1]A.N.Prior,Time and Modality[M].Oxford:Oxford University Press,1957.

[2]N.Rescher and A.Urquhart,Temporal Logic[M].SpringerVerlag,1971.

[3]邹崇理.时序逻辑程序语言XYZ/E的创新性[J].重庆理工大学学报(社会科学版),2018(9):9-15.

[4]霍书全.普莱尔混合时态逻辑的思想基础[J].逻辑学研究,2016(2):45-60.

[5]霍书全.普莱尔早期的时态逻辑思想[J].重庆理工大学学报(社会科学版),2014(7):22-27.

[6]邹崇理,等.自然语言逻辑研究[M].北京:北京大学出版社,2000.

[7]陈鹏.组合范畴语法(CCG)的计算语言学价值[J].重庆理工大学学报(社会科学版),2016(8):5-11.

[8]曾婉.汉语时间词研究综述[J].现代语文,2018(5):37-38.

[9]沈玲玲.现代汉语“目前”类时间词研究[D].上海师范大学,2014:59-62.

[10]李向农.现代汉语时点时段研究[M].武汉:华中师范大学出版社,1997.

[11]A.N.Prior,Past,Present and future[M].Oxford:Oxford University Press,1967.

[12]陈波.从《哲学逻辑手册》(第二版)看当代逻辑的发展趋势[J].学术界,2004(5):247-254.

[13]刘冬林,等.基于轻语义λ-演算的汉语陈述句灵活语序研究[J].中文信息学报,2016(3):23-29.

[14]邹崇理,等.自然语言信息处理的逻辑语义学研究[M].北京:科学出版社,2018.

[15]李可胜,邹崇理.基于句法和语义对应的汉语CCG研究[J].浙江大学学报(人文社科学版),2013(6):132-140.

Logical Semantic Analysis of Chinese Time Words based on CCG

LUO Dan
(Biquan Academy,Xiangtan University,Xiangtan,Hunan411105,China)

Abstract: The current era is an era of computer information processing.Big data and cloud computing have been followed by computer syntactic analysis and computer semantic understanding.To understand natural language,the computer needs to carry out the formal analysis of syntax and semantics to make natural language a computable and deductible processing object,which is the research task of logic semantics or language logic.In order to understand language in form,it is necessary to study specific objects in Chinese,such as time words.Through the ideal logic tool of CCG,the logical semantic analysis of Chinese time words classification aims to provide materials for natural language semantic understanding and man-machine communication.

Key words: Temporal Logic;Chinese Time Word;Aspect;Tense;CCG

中图分类号: B81

文献标识码: A

文章编号: 2096-0239(2019)04-0060-07

收稿日期: 2019-03-05

基金项目: 国家社科基金一般项目“面向中文信息处理的组合范畴语法研究”,项目编号:16BZX082;湘潭大学研究生科研创新项目“基于CCG的汉语时间结构的逻辑语义研究”,项目编号:XDCX2019B002;湖南省教育厅2015年科学研究项目“新媒体语境下电视媒体的思想政治教育功能研究”,项目编号:15C0373;衡阳社科基金项目“衡阳城市社区文化建设研究”,项目编号:2015D043。

作者简介: 罗 丹(1983- ),女,湖南常德人,湘潭大学碧泉书院博士研究生,湖南工学院马克思主义学院讲师。研究方向:语言逻辑。

(责编:彭麟淋 责校:明茂修)

标签:;  ;  ;  ;  ;  ;  

基于组合范畴语法的汉语时间词的逻辑语义分析论文
下载Doc文档

猜你喜欢