基于大数据的汉语表达智能模型及其理论基础_自然语言处理论文

基于大数据的汉语表达智能模型及其理论基础，本文主要内容关键词为：汉语论文,理论基础论文,模型论文,智能论文,数据论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

大数据使语言智能化成为可能。依据大数据、云计算，紧紧围绕中国人学外语、外国人学汉语这两个重大的公益性问题和国际文化战略问题，研究出具有国际领先水平的智能化语言产品，为人才培养和社会生活提供优质服务，是时代赋予国人的使命。目前，英语作文智能批改已经让我国数百万学生体验到语言智能化对于减轻学习负担提高英语书面表达能力的强大魅力。但是，汉语表达与作文批改的智能化，目前少有成熟的系统研究。让机器“写”汉语以及批改汉语作文，其智能化要求极高。本文拟对汉语表达智能模型与专门数据资源库的建立及其理论基础做些探讨。

一、大数据与汉语表达智能模型

大数据具有三个重要特性。第一，“基因”的储存性。每一个数据都是事物属性的记录。体温数据储存着是否发烧的“基因”，考试成绩储存着知识或技能的“基因”，降雨量储存着地区旱涝“基因”，等等。第二，规律的蕴涵性。当数据积累到一定量级之后，其事物变化规律则可以从数据变化中显示出来。长期记录一个人说话，可以按其声音分贝发现其声高与情感表达的关系，长时间关注汽车动力的声响，可以从中了解车况，等等。第三，趋势的预测性。大数据储存的事物“基因”反映事物的变化规律。因此，根据基因变化规律，可以预测事物未来的发展趋势。例如：谷歌公司曾经把5000万条美国人频繁检索的词条和美国疾病控制中心在2003年至2008年间流感传播的数据进行了比较，考察流感在时间和空间上的传播关系，总共处理了4.5亿个数学模型。预测结果与2007年、2008年美国官方记录的实际流感病例数据的相关性高达97%。2009年甲型H1N1流感爆发时，谷歌数据成了及时有效的监测指标。[1]

大数据的特性使语言表达智能化逐渐成为现实。计算机作对联和写作诗词等一些高级言语智能活动就是最好的证明。实验表明，当人工给出上联“苏堤春晓秀”，计算机则可对上“平湖秋月明”下联。人工给出上联“网上购物红红火火”，机器则对上“电子商务热热闹闹”下联。中国人工智能学会理事长李德毅院士说：将李白诗句“机械切割”成字串，在“悲情”意境下，分别按照平仄韵律构成数据集，依据数据集，软件结合毛泽东生日1893年12月26日的信息做出了五言诗：“秀玉竟不还，西湖哀苦寒。凤楼留不住，夜郎醉不眠。”可见，语言规律蕴含于大数据。

如果将杜甫的诗按照一定的规则构成数据集，同样可以提取“基因”组合出新诗文。例如：“迟日江畔独寻花，黄鹂翠柳沐晚霞，剑外春夜时节雨，锦城丝管岐王家。”这首诗就是从杜甫八首诗的“基因”符号组合而成的。“迟日”出自《绝句》“迟日江山丽，春风花草香。泥融飞燕子，沙暖睡鸳鸯”；“江畔独寻花”出自“黄师塔前江水东，春光懒困倚微风。桃花一簇开无主，可爱深红爱浅红？”以及“黄四娘家花满溪，千朵万朵压枝低，留恋戏蝶时时舞，自在娇莺恰恰啼”；“黄鹂翠柳”出自《绝句》“两个黄鹂鸣翠柳，一行白鹭上青天。窗含西岭千秋雪，门泊东吴万里船”；“剑外”出自《闻官军收河南河北》“剑外忽传收蓟北，初闻涕泪满衣裳。却看妻子愁何在，漫卷诗书喜欲狂。白日放歌须纵酒，青春作伴好还乡。即从巴峡穿巫峡，便下襄阳向洛阳”；“时节雨”出自《春夜喜雨》“好雨知时节，当春乃发生。随风潜入夜，润物细无声。野径云俱黑，江船火独明。晓看红湿处，花重锦官城”；“锦城丝管”出自《赠花卿》“锦城丝管日纷纷，半入江风半入云。此曲只应天上有，人间能得几回闻？”“岐王家”出自《江南逢李龟年》“岐王宅里寻常见，崔九堂前几度闻。正是江南好风景，落花时节又逢君”。若要教学生“一口气说出杜甫的几首诗”，大数据的价值就不言而喻了。

无论是计算机作对联还是写诗词，要像人一样围绕主题自如表达，尚存在较大差距。计算机写作纪念毛泽东诞辰的五言诗表明，每一句诗的平仄韵律是规范的，因为大数据建立了规范数据集。但是，将四句联合起来看，尽管限定了“悲情”意境，但语义表达的准确性不尽如人意。机器依据上联的词性、结构、韵律，配对下联，是依葫芦画瓢和框架式填充。要接近人一样自如写作，显然还需要构建接近人的汉语表达智能模型。

汉语表达智能模型是使用人工智能和计算语言学的方法和技术，基于词项语料，通过执行一定的语义和语法规则，选择关键信息及其相应的表达形式，自动生成自然语言文本。该模型也可以称为汉语生成智能模型、汉语写作智能模型。

汉语表达智能模型有两个子系统，一是词项—语句语义网络系统，二是语句—语篇语义网络系统。前者的基本任务是实现从词到句子的自动生成，可以借鉴的理论与技术有形式语法、语义标式、格语法以及模板生成技术、短语/规则扩展技术、属性特征生成技术等。后者的基本任务是实现自然语言语篇的自动生成，即以词项—语句语义网络系统生成的单个语句为原始语句或前提语句为基础，分析并提取前提语句蕴涵的语义，再结合事件情景词项语义系统中与前提语句提取的语义要素的关系，选择可能进入新语句的词项（论元），再选择恰当的反映新选择的词项之间语义关联的谓词串联成新语句。

汉语表达智能模型的实现，其过程是：根据主题意图，从语言元素的某一模板集及规则系统出发，通过有限步骤的运算，伴以语义范畴约束，生成连续合格的句子，直到形成语义相对完整的语篇。

二、汉语表达智能模型的专门数据资源库建设

汉语表达智能模型的实现必须依赖于大数据资源库建设。机器写话，必须给它提供写话的材料和依据。话语的最基本的材料是词项模板，词项模板生成合适语句的依据是规则。因此，词项模板资源库和语言规则库建设是汉语智能表达的基础工程。

词项源于本体认识。非语言思维，基本元素是“意象”。意象是反映在人脑中的形象或意念。“形象”是指“实物”在人脑中形成的图像。它既包括通常意义上的表象又包括在表象基础上抽象概括形成的较高层次的图像。事物的表象是客体与人脑相互作用后在人脑中形成的“整体”图式，它与被反映的客体具有一一对应的映射关系。表象基础上产生的新图像是表象的综合与类化，这种类化的形象与被反映的客体并非必然具有一一对应关系。“意念”是人脑中“实体”图像之外的意象，主要指事物的抽象性质及关系。语言思维，必须依赖表达意象的词项。尽管世界纷繁复杂，但是，大而言之不外乎三类，一是事物，二是事物自身具有的各种性质，三是事物与事物之间的各种联系。相应地，词项的具体内容也就有三类：对象词项、性质词项、关系词项。对象词项有两种：一是表示真实存在的实物词项；二是表示虚构“实物”的词项。性质词项所反映的性质，既可以是实体内部“隐含”的性质，又可以是实体表现于外部的行为方式、技巧功能等。关系词项所反映的关系是实体与实体、实体与性质、性质与性质之间的联系。

基于汉语智能表达的语料库是汉语造句模板库。所谓“模板”是指适用于机器汉语生成的语言符号单位。“模板”有三个等级：单词、短语、句子。它们都是汉语表达的“建筑材料”。“模板”视野下的语料库分三类，即单词模板语料库、短语模板语料库、句子模板语料库。

单词模板语料库就是由所有汉语中的单词集成的语料库，包括实体词项语料库和媒介词项语料库。实体词项库主要指对象词项库、性质词项库、关系词项库。在汉语造句中表示句法结构关系的单词，称为媒介词项。媒体词项库是由媒介词项集成的语料库。

短语模板语料库是由汉语短语集成的语料库。短语模板分两类，即自足短语模板和非自足短语模板。自足短语模板是结构完整、语义自恰的短语模板，比方人名、地名、成语等。非自足短语模板指成分缺省、语义不完整的短语模板，比方“（

）是湖南省会”“向雷锋同志（

）”“洞庭湖在（

）以南”。这些短语模板框架是完整的、合适的，但是成分有缺项，因而其语义也就不完整。针对非自足短语模板，代入相应词项，则形成成分完整、语义自足的短语模板。如代入“长沙”“学习”“长江”，这三个非自足短语模板就成了“（长沙）是湖南省会”“向雷锋同志（学习）”“洞庭湖是（长江）以南”三个自足的短语模板了。非自足短语模板形式多样，主要是因为词语的搭配关系复杂，特定词语与另外词语搭配，其匹配形式可以是一对一，一对多或者多对一，因此，词项的非自足短语模板，可以表现为单论元缺省、多论元缺省，或者单谓词缺省、多谓词缺省等模板形式。比方，性质词项为主体的非自足短语模板是缺省单论元的短语模板：动宾搭配短语模板缺省宾语，主谓搭配短语模板缺省主语等；关系词项为主体的非自足短语模板是缺省单论元或多论元的短语模板，比方，一元关系词项短语模板缺省单个论元，多元关系词项短语模板则缺省多个论元等；对象词项为主体的非自足短语模板是缺省谓词的短语模板，比方，天体类对象词项，其短语模板往往缺省运动变化类谓词。

如果用谓词逻辑PL原子语句来描述非自足短语模板，其构式就是谓词与个体常项构成的表达式。PL语句的真值条件依赖于论域的选定和每一个在语句中的谓词和个体常项的语义匹配。就PL语句“Fa”而言，如果“F”被代人性质词项“……是红色的”，“a”代入对象词项“太阳”，整个语句则为真。“a”代入对象词项“月亮”，整个语句则假。对于R（xy）来说，当R确定为“……大于……”，R（xy）的真则依赖于x和y的代入词项，y必定小于x，比如，x为5，y为3。对任一PL语句，在谓词确定的情况下，其真假取决于个体常项的语义类型。这一事实表明，什么对象具有谓词所表达的性质，哪些对象之间具有谓词所表达的关系，不能单纯从对象词项或性质词项或关系词项自身表现出来，而必须通过填充缺省词项形成完整的结构和自足的语义才能体现。

基于汉语表达的语言模板库建设难点主要在两个方面：一是词项模板的语义特征分析，二是词项模板的义类范畴判定。词项模板的语义特征分析，所要解决的核心问题在于明晰并刻画一个模板与另一个模板结合的“结构合适性”和“语义自洽性”。机器实现汉语智能表达，就是要求机器依据任意一个词项模板能够自动生成“结构合适”“语义自洽”的新模板（短语模板、句子模板）。显然，要穷尽刻画并集成这样的语料库，其难度无疑是巨大的。词项模板的义类范畴判定，所要解决的核心问题在于给机器提供词项语义论域。就是说，当非自足短语模板需要填充另外的成分词项时，能够提供特定明晰的词项模板的义类范畴。给出多少词项模板义类，每一个词项模板义类又可以分多少层级，是词项义类模板库建设的难点。由于事物类型极其复杂，每种事物类型都可以被人类反映形成相应的词项语义类型，但是，这些被反映并且由语言符号记录的词项模板，并不会自显其语义类型，为了适应汉语智能表达需要，必须按照人类认知习惯、思维习惯、生活习惯、表达习惯等，通过人工辨别其不同义类。人们通常将世界万物分为自然、人类、社会三大类。自然义类可分为天文、地理、生物等；人类义类可分为不同生物进化时期的人类等；社会可分为不同体制的社会等。

语义类型库给汉语智能表达提供话语论域，以便将话题限定在特定语义领域内布局谋篇、组织语句，避免让机器写出来的话语偏离主题。依据话题内容的广狭，义类语料越细越全面越有利于汉语话语表达。目前，LJ Parser可以从海量文本集的自动分类，自动抽取专业词汇，比方从500MB文本抽取近10万专业词条，并给出计算依据和语用环境特征。这些可以成为语义类型库建设的辅助手段。

语言模板库，包括单词模板库、短语模板库和句子模板库，与义类资源库有联系又彼此区别，各自履行自身任务。语言模板库主要充当句子成分，是结构材料；义类库，尽管同样需要以言语符号模板为载体，但是，它最终代表的是特定的语义范围。比方，同样是“高屋建瓴”一词，从语言模板意义上说，既是性质词项模板，又是单论元缺省的短语模板“（）高屋建瓴”。从语义类型上说，属于认知义类。这两种语料库结合起来才能够给出该词项在汉语表达智能系统中的角色定位。如：语言模板库储存信息为“能充当谓语”“能与人搭配”等，其语义类型库归于“认知类，或思维类，或思想类”等。机器在语料库中依据词项的结构功能和语义类型才可以串联新的语言模块或新语句。

句子模板库是由所有符合汉语表达习惯的语句集成的语料库。句子模板作为一个完整的句法单位，可以从两个方面来建设：一是建设日常交际汉语语句库，二是建设特殊的汉语语句库，比方诗歌体语句库等。这些都是地道的汉语语句库。将两类句子区分开来的意义在于引导机器辨别语句的语体风格，以便在特定语体中选择生成合适的句子。

句子模板还是汉语文本自动批改的重要标准。句子模板库越丰富，丰富到足以穷尽汉语语句的全部形式时，该模板库就能够为所有汉语文本进行评阅和检测，并准确判定被评阅的文本是否为地道的汉语自然语言。

规则库是与语言模板库相匹配的资源库，包括句法规则库和语义衍含规则库。语言模板库主要提供解决造句的材料与语义范围。这些材料如何结构成句子、组成语段，进而形成语篇，是需要句法规则的。句法规则库由词项生成句子的规则、句子生成语段以及语段生成篇章的规则集成。语义衍含规则是语句的逻辑延伸规则。语义衍含规则库是从语言的某一集合开始，根据各个元素的性质，确定元素之间的关系，进而用演绎的方法建立起来的语义衍含的规则系统。语义衍含分两个层次：一是句内词项义类衍含，二是语句义类衍含。词项义类衍含是指句中词项所蕴含的语义，比方，东方出了个毛泽东。其词项义类衍含包括：“东方”衍含着“方位”以及该方位的属性，“出”衍含着“诞生”“从无到有”以及相关属性，“毛泽东”衍含着“是一个人”以及关于这个人的一系列属性。句内词项义类衍含是新语句生成的语义素材，也是保证新语句与前提语句形成语义关联，不偏离话语的语义论域。语句义类衍含是指整个语句所蕴含的语义。比方，全称语句就衍含着特称语句，三段论中，结论就是大前提、小前提语句的语义衍含。

句法规则库建设和语义衍含规则库建设主要有两个途径：一是理论分析，二是大数据提炼。理论分析主要依赖于演绎，大数据提炼主要基于统计学方法的归纳，二者都是对汉语生成规律的抽象概括。

三、汉语表达智能模型的理论基础

汉语表达智能模型的建立有其理论基础。这可以从世界结构与语句结构的关系来认识。维特根斯坦在《逻辑哲学论》中有类似深刻论述。维特根斯坦说：“世界是事实的总和”，“事实的结构由事态的结构组成”，“事态是对象（事物）的结合”，“对象在事态中像链环一样相互连接”，“对象在事态中相互处于一定的关系中”，“对象在事态中关联的方式就是事态的结构”。①维特根斯坦在区分事实、对象（事物）、事态几个概念基础上，使用了一个极其重要的概念——关系，并明确强调事态中对象是通过一定的关系相互依存的。没有关系，对象永远仅仅为简单的孤立的对象，彼此不可能粘合起来。由此，我们可以简单地勾勒出这样的线索：对象之间相互关联才构成事态，事态之间相互关联才组成世界。为了使抽象的世界结构的思想形象化，维特根斯坦提出了著名的图像理论。维特根斯坦认为，图像就是实在的模型。“图像的构成在于其元素以一定的方式彼此关联。”“图像所表现的是它的意义”[2]。图像是由元素构成的，而作为图像组成成分有其相应的对象（元素）；或者，反过来说，作为世界组成部分的对象进入图像范畴便成为图像的元素。图像元素按照一定方式关联组合便形成图像的结构。图像的结构就是图像的描画形式。每个图像都能够描述实在，实在就是图像的基础，实在的形式也就是逻辑形式，即逻辑形式与实在同构。

汉语表达智能模型与客观事实之间的关系，如同数学上的抽象直线与具体直线之间的关系。我们将维特根斯坦思维范畴的逻辑形式，纳入语言范畴进行考察，将语句形式视为逻辑形式的语言表现，这样，世界结构与语言结构的同构性就可以一目了然。世界结构由诸多要素构成事态网络。事态网络的任何一个元素，反映到人脑形成思维元素，被语言符号标记形成词项语义。事态网络对应于思维范畴便是概念网络，进入语言范畴便是语义网络。逻辑形式是逻辑谓词与个体词项结构体，反映世界对象（元素）的逻辑依存关系，基本句式是逻辑形式的摹写，表现为关系词项（性质词项）与对象词项的结合体。事态要素复杂的组织形态，在语义范畴形成多种多样的语义关系群，原子语句描述原子语义关系，语句系列描述事态要素关系集。

汉语句子的多样性都离不开事态关系。就原始语句而言，汉语语句具有句点、句联、句焦、句式、句体五个表达要素。句点是思维对事态要素的分析性认识，标记形式就是对象词项；句联是事态要素之间的联系，标记形式是关系词项；句焦是话语者最先关注的句点，往往处于汉语句子的前列位置；句式是话语人排列句点的框架（结构模式），是事态要素词项的序列。一个原子关系的基本句式具有唯一性，相应的变化句式，借助句法则变得丰富多样；句体是话语人遣词造句表现的话语风格。就衍生语句而言，汉语子句（新语句）的产生，都离不开客观世界知识的蕴涵特性。新语句的产生是前提语句既存词项语义（事态要素）之间关系的关联。事态知识越多，衍生的语义就越多。同理，机器发现语言的语义关联越多，生成新语句的能力就越强。

①参见邱仁宗主编《20世纪西方哲学名著导读》，湖南出版社1991年版。

标签：自然语言处理论文; 语料库论文; 大数据论文; 世界语言论文; 语义分析论文; 关系模型论文; 模板工程论文; 语言表达论文; 智能机器论文;

基于大数据的汉语表达智能模型及其理论基础_自然语言处理论文

猜你喜欢