基于词向量特征的藏语谓语动词短语识别模型论文

基于词向量特征的藏语谓语动词短语识别模型

文/李琳 赵维纳 泽旺宽卓

摘 要

藏语是谓语为中心的语言,它揭示了重要的句法和语义信息。藏语句子谓语动词短语的识别研究藏语信息处理具有重要意义。本文提出了藏语谓语动词短语自动识别模型,该模型的优势在于利用藏语词向量信息,大幅度减少了模型对先验知识的需求。结果显示,该模型的F值达到88.58。

【关键词】 藏语谓语动词短语 条件随机场 词向量

1 引言

藏语是谓语为中心的语言,揭示了重要的句法和语义信息。藏语谓语一般位于句子的末尾,并且谓语的组成成分具有多样性的特点。如在例句1中,句子的谓语由动词、助动词和句法形式标记组成。

例 句1 ངས་འབྲོག་པའི་ནང་ལ་འོ་ཇ་[འཐུང་མྱོང་ཡོད]{谓 语}།

(我曾经在牧民的家里喝奶茶。)

为进一步了解小学生减法口算速度在各年级的增长幅度,采用相邻年级时间的递减率来进行表示和分析,结果如表6所示.

对谓语成分的分析和识别对藏文信息处理研究中具有重要意义,以往的相关研究主要对藏语谓语的构成和利用语言学规则对句子的谓语进行识别。

心里憋闷,从第一天的军训起,我就萎靡不振。军训无聊,特别是原地站立时,一站就是半小时。想不到的是教官居然命令男女生近距离面对面站立,在这漫长的半小时里,身体不动,眼睛却是互相打量。

2 藏语谓语结构

公立高等院校作为财政拨款的事业单位,其预算是政府财政预算的重要组成部分,政府公共财政改革必将对高校事业发展产生比较大的影响,也给高校现行的预算编制带来不小的冲击。高校应该顺势而为,主动适应国家财政预算管理的改革节奏,建立跨年度预算平衡机制,因地制宜,适时运用滚动预算编制方法,编制与高校事业发展相适应的中长期预算。

文献[1]和文献[2]分别提出了对藏语谓语动词短语识别模型和藏语形容词谓语短语识别模型。文献[3]利用语法规则对藏语句子的判断动词和存在动词进行了自动识别。文献[4]对藏语三音节动词短语进行了自动识别。文献[5]对藏语短语的分类进行了系统的研究,并从分词和词性标注的角度对藏语谓语动词短语进行了分析。CRFs模型在藏语句法功能组块边界识别中有过良好的表现。上述研究主要采用基于语言学知识或有监督的机器学习策略,两者都依赖于有效的先验知识。在英语组块分块研究中采用了无监督的单词表示,研究结果表明采用半监督的方法能够在较小规模的标记数据集上取得较好的组块识别效果。在以往研究的基础上,本文提出了一个基于词向量的模型对藏语谓语动词短语进行识别模型。

藏语句的基本语序是主语宾语和谓语即SOV.根据短语中心词的词性,藏语谓语可分为两种类型:动词谓语(例句2)和形容词谓词。

例 句2 ཁྱོད་ཀྱིས་སྒོར་སིལ་མ་[ཕྱིར་བཟློག་མི་དགོས]{谓 语}། (你可以留着零钱。)

藏语谓语动词识别问题可以转化为一个序列标记任务,因此本文采用条件随机场模型建立了一个藏语谓语动词短语识别基准系统。CRFs模型的原理是:给定输入句子X=(x1, x2, ..., xn), CRFs 将X标记序列Y=(y1, y2,..., yn)的条件概率分布P(Y|X) 定义为:

藏语谓语动词短语=(副词)+动词+(助动词)+(句法形式标记)+(语气词)

本文将藏语词向量引入到识别任务中,为了评估不同方法训练词向量的效果,我们采用不同的算法和超参数,在固定的大规模未标记语料库上进行训练。训练的两个关键超参数是维度和上下文窗口大小。

3 藏语词向量

当L最大,P(C)也最大。

其中C表示给定语料库的单词集合,context(c)是单词w的上下文。P(context(w))通过上下文预测词w或者根据词w预测上下文,从而捕捉词w与其上下文之间关系。对于一个给定的语料库,最大化概率P(C)可以通过极大似然估计得到,因此,P(C)的最大化变为:

一是基础性实践,主要是帮助学生对旅游学原理及相关管理学景区规划基本概念、基础理论有能深刻的掌握理论知识,满足职场所必备的基本素质,如职业行为习惯、职场礼节、表达沟通能力等。这项实践内容通过组织学生参与社会公益、专业形势与政策学习、旅游认知实习、观赏植物学实习、林业资源保护实习、野生动物学实习等方式培养学生基础实践能力。

词向量是词的分布表示,且已经在许多NLP任务中取得了很好的效果。词向量将词映射到稠密低维、连续值向量,每个维度包含了词的特征和语法和语义属性。词向量的训练是一种无监督的过程,通过该过程,一个词被表示为一个k维实数向量。本文采用两种经典算法训练藏语:连续的词袋模型(CBOW)和SKIP-GRAM模型。两种模型的目标都是最大化给定语料库中P(C)的概率。

急诊科当中胸痛的病因比较广泛,其中部分涉及到高危致死的疾病,例如主动脉夹层、急性冠脉综合征、肺栓塞、张力性气胸等。医师要以专业的诊疗技术进行治疗,例如介入、溶栓、胸腔密闭引流等[4-5]。

在全面深化改革开放中推进环境法治建设是一项重要而艰巨的任务。这关系到党的宗旨使命的履行,也关系到13亿多人民的健康福祉。党的十八大以来,党和国家以前所未有的力度推进生态文明建设,制定与实施了一系列资源环境法律制度。特别是十三届全国人大一次会议审议通过的《中华人民共和国宪法修正案》中,将 “生态文明”“美丽”等新表述写进宪法,这不仅对我国生态环境建设具有重大意义,也为普通老百姓守住绿水青山、创造美好生活提供了宪法保障。在5月召开的全国生态环境保护大会上,习近平同志又一次重申要“用最严格制度最严密法治保护生态环境”,这为我国环境法治建设指明了方向,提供了行动指南。

4 语料库

大规模语料库是训练一个高质量词向量不可或缺的资源。经过分词后,本文的语料库达到1亿词。本文采用的藏语语料来源丰富包括藏语新闻、博客、剧本和公告等。在训练词向量之前,我们使用预处理策略来删除所有只由阿拉伯数字、中文或英文字符组成的句子。经过这一步骤,我们获得了一个较高质量的语料库来训练藏语词向量,其中包含6180万个词。带有谓语标记的高质量语料库对于完成本文的识别任务是必不可少的。本文构建了一个由6100个句子标记语料库。首先,我们利用自动工具对上述句子进行自动分词和词性标记;然后,邀请了3位藏语母语者对上述结果进行校对和修改;再后,根据第3部分中对谓语动词短语结构的描述,标记出谓语动词短语。在语料库中注释了5401个谓词动词短语。

5 藏语谓语动词短语识别模型

藏语谓语短语不仅包括谓语中心词,还包括助动词、副词、句法形式标记等。相应地,藏语谓语表达的语义十分丰富如时态、语气等。本文的研究对象是动词为中心词的谓语,藏语谓语动词短语一般组成结构和语序的结构可以描述为以下形式。

Zλ (X)表示正则化因子,F(Y,X) 是全局向量。序列标注问题可以转化为寻找最优标注序列Y的问题:

表1:Tibetan Predicate Recognition Results

本文采用文献 [10]中的一组简单但有效的特征模板来构建一个基准系统,然后利用词向量作为特征构建了一个基于半监督方法的识别模型。

6 实验结果

为了验证词向量特征对识别模型的作用,我们进行了多词实验。表1列出了在不同特征条件下模型对藏语谓语动词短语识别的结果。

果表明采用CBOW模型训练的词向量且维度为100时,识别效果最佳,达到了88.58。结果证明了我们的假设,即词向量是对有监督机器学习方法的有效预训练特征。

7 结论

本文首先利用大规模藏语语料库训练得到藏语词向量,然后将其应用到谓语动词短语识别任务当中去。结果表明,词向量特征对模型的识别效果有显著提高。

参考文献

[1]Di, J.: Recognition and Information Abstraction of Finite Verbs in Modern Tibetan. In: Advances in Computation of Oriental Languages--Proceedings of the International Conference on Computer Processing of Oriental Languages, Beijing,2003.

[2]Di, J., Yanhong, H.: The Construction and Identification Approaches of Adjectival Predicate in Modern Tibetan.Linguistics Study, vol. 5, pp. 115-122,2005.

[3]Lin L., Congjun, L.: Recognition of Tibetan Linking Verb and Existential Verb. Journal of Chinese Information Processing, vol. 27(4), pp. 59–63,2013.

[4]Weina, Z., Lin, L., Huidan, Liu.: Automatic extraction of trisyllabic verb phrases in Tibetan. Journal of Chinese Information Processing, vol. 29(3), pp. 196-200,2015.

[5]Di, J.: The method and process of the modern Tibetan part-of-speech tagging by group strategy. Linguistics Study, vol. 4, pp. 30-39,2003.

[6]Lin, L., Congjun, L., Di, J.: Tibetan functional chunks boundary detection. Journal of Chinese Information Processing, vol. 27 (6), pp. 165-169,2013.

[7]Tianhang, W., Shumin S., Congjun, L.: Tibetan Chunking Based on Error-Driven Learning Strategy. Journal of Chinese Information Processing, vol. 28 (5), pp. 170-175,2014.

[8]Joseph, T., Lev R., Yoshua B.: Word representations: a simple and general method for semi-supervised learning. In Proceedings of the48th Annual Meeting of the Association for Computational Linguistics, pp. 384–394, Uppsala, Sweden,2010.

[9]Lizhen, Qu., Ferraro, G., Liyuan, L.: Big Data Small Data, In Domain Outof Domain, Known Word Unknown Word: The Impact of Word Representation on Sequence Labeling Tasks. Computer Science, vol. 42(12), pp. 557-566,2015.

[10]Fei, S., Pereira, F.: Shallow parsing with conditional random fields. In: Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, Association for Computational Linguistics, pp. 134-141,2003.

●本研究得到了自然科学基金(项目编号:61550004)和青海省自然科学基金资助(项目编号:2016-ZJ-931Q的支持)。

作者简介

李琳(1980-),女,天津市人。硕士学历。副教授。研究方向为藏语信息处理。

作者单位

青海师范大学 青海省西宁市 800181

标签:;  ;  ;  ;  

基于词向量特征的藏语谓语动词短语识别模型论文
下载Doc文档

猜你喜欢