基于混合策略的藏文句子边界识别论文

基于混合策略的藏文句子边界识别

却措卓玛1,华却才让2,才让当知3,夏吾吉3

(1.青海师范大学 计算机学院,青海 西宁 810016;2.藏文信息处理教育部重点实验室,青海 西宁 810008;3.青海省藏文信息处理与机器翻译重点实验室,青海 西宁 810008)

摘 要 :藏文句子边界识别作为藏文信息处理研究领域中的一项重要工作,在词法分析、句法分析、语义分析和机器翻译等领域都具有广泛的应用.在分析藏语句子的概念、分类和边界特征的基础上,提出一种基于混合策略的藏文句子边界识别方法.经实验模型在测试数据集上的F 值达99.25%.

关键词 :藏文句子;边界特征;规则;支持向量机

藏语是一种古老的语言,具有自成体系的语言、语法、文字和标点符号.藏文标点符号体系中的楔形符存在较多歧义和功能不确定的问题,藏文中的楔形符具汉语句子中的顿号、逗号、感叹号和句号等功能,这种问题导致无法准确的识别藏文句子边界.然而藏文句子边界识别的结果会直接影响到词法分析、句法分析、机器翻译和语义分析等性能.因此,解决这个问题显得日益重要.

藏文信息处理领域中也有部分专家和学者研究了藏文句子边界识别的问题,现有的藏文句子边界识别主要采用规则和统计的方法.李响等[1]采用规则和最大熵相结合的方法,在规模为48000句的测试集上识别了藏文句子边界,F 值达到97.78%.赵维纳等[2]提出了基于法律文本的藏文句子边界识别方法,利用规则的方法对法律文本的句式特点进行了初步的分析和探讨.马伟诊等[3]提出了藏文句子边界的识别方法,根据边界符前后的词性来识别藏文句子,准确率达到96.37%.但以上文献未涉及藏文紧缩楔形符的自动识别问题,即藏文句子书写时句子边界词以“后加字”、“辅音字母”和“辅音字母”等结尾后不加空格的情况.藏文紧缩楔形符的自动识别对研究藏文句子边界具有很大帮助,同时非常必要.因此,本文提出了基于混合策略的藏文句子边界识别方法,探讨藏文紧缩楔形符的自动识别问题.经测试,其F 值达到99.25%.

(1)监测两组患儿血清胆红素水平、黄疸消退时间;(2)比较两组患儿的治疗有效率。疗效的判定标准为:患儿皮肤、黏膜及巩膜黄染消退,血清胆红素<119.7 μmol/L为显效,大部分黄染消退,血清胆红素水平在119.7~171.0 μmol/L为有效;患儿黄染不明显消退甚至更严重,血清胆红素>171.0 μmol/L为无效。治疗有效率=(显效+有效)病例数/总病例数×100%。(3)利用本院自制的满意度调查问卷对家属进行护理满意度的调查,问卷为百分制,90分以上为非常满意,80分以上为基本满意;80分以下为不满意,护理总满意度=非常满意度+基本满意度。

1 藏文句子及句子边界特征

1.1藏文句子定义及分类

藏文句子是表达相对完整意义的语言单位,由词和词组成,后加谓语成分,表明所述内容完整及具有语气鲜明的特点[6],藏文句子分为单句()和复句().

在农村小学的教学过程中,学生都是被动接受语文教师的教学内容,而很多学生都没有很好的语文学习兴趣,并且在教学的过程中由于学生的自控能力不强,导致了学生在课堂中出现思维抛锚和一些小动作,不仅影响到教师的教学质量,而且学生的学习效率也出现了一定的下降。

1.1.1 藏文单句 藏文单句是表达完整意义并且结构简单的句子,句中基本没有联词.藏文单句可以按语义和语气进行分类.藏文单句边界符为楔形符号,一般以边界词结尾,在疑问句中边界词后出现疑问词.按语气分为陈述句()、疑问句()、祈使句()和感叹句()四类简单句型;按语义分为有主句()、无主句()、存在句()、事物及特点相结合的句子()、本述句()和神态句()六类句型[6].

1.1.2 藏文复句 藏文复句是由两个或两个以上的意义上相关、结构上不构成句子成分的分句组成.其中分句是指结构上类似单句而没有完整句调的语法单位.复合句中的各分句之间一般有停顿,英汉语书面语中用标点符号表示,但由于藏文标点符号的特殊性,在书面语中用关联词来表示[3].藏文复句的句式按关联词在分句中所处的位置和整体结构层次关系,可以分为启下式、承上式和承上启下式三类,每类句式都有其自身的结构特征[6].其中启下式复句的关联词在前一分句的句尾或谓语动词之后出现,将直接连接后一个分句,构成连贯、停顿较小的复合句,如(公园里开满了鲜艳的花朵,其中最为亮丽的是玫瑰花和荷花.)承上式复合句的前一个分句是完整的单句,关联词在后一个分句的句首,构成不连贯、停顿较大的复句,如“”(人总是要死的,但死的意义不同.)承上启下复句中前一个分句的句末或后一个分句句首,会有出现相应的关联词,关联词的搭配要得当,如“”(现在许多地方的党委没有抓思想问题,或者抓得很少.)

1.2藏文句子的边界特征

本文从各类藏文网站中获取的新闻、经书、小说和法律等藏文语料,通过整理和标注完成了规模达8000句的训练语料,其中包含300多个边界词和100多个歧义边界词.依据句子切分特征向量模板对训练语料进行生成特征库和特征向量化后,分别采用支持向量机(SVM)中常用的4个核函数进行实验,结果见表4.

1.2.2 边界词特征 藏文句子的语序结构跟英语和汉语的语序结构不同,属于SOV型语序结构,即{主语+宾语+谓语}的语序结构,动词始终位于句子的结尾部分,其句法功能是谓语的核心,也是整个句子的核心.一般藏文句子谓语部分的核心动词后会附加包含一些其他成分,这些成分可统称为动词的谓语,谓语的语序格式为{(谓语动词(+状语补语)(+助动词([情态和趋向])(+体貌-示正标记)(语气词))}[7].本文从不同类型的藏文文献中统计出了500多个藏文边界词,根据训练语料建立一个需要切分的300多个边界词和不需要切分的100多个歧义边界词,部分边界词和歧义边界词的内容见表1.藏文中充当关联成分的词有格助词、联词、副词、虚词结合的词语,共有四种形式[7].利用这些成分建立关联词表,共统计了92个关联词,部分关联词见表1.

表 1特征词表
Tab.1 Feature vocabulary

藏文句子的切分不同于汉语句子的切分,存在很大的歧义.因此本文首先利用规则的方法对藏文句子边界进行识别,然后对无法识别的歧义句子边界利用支持向量机做识别和切分处理.

2 藏文句子切分

图1 藏文句子边界识别系统框架
Fig.1 Framework of Tibetan sentence boundary detection system

2.1藏文句子边界识别系统框架

2014年9月的一天,李淑荣接到勘探南方分公司打来的电话,旺1井需要尽快完成测井资料解释。作为在西藏部署的首口重点预探井,这口井的成败直接关系到整个西藏地区的勘探前景。可西藏冬季有封山期,距离甲方试油仅剩一个月的时间,留给测井解释的时间就更少了,只有48小时。

藏文句子边界识别分两层模式,第一层利用规则方法对测试语料做句子边界识别,若存在规则方法无法识别的歧义句子边界,则采用第二层支持向量机的方法进行处理.支持向量机模型的训练部分,首先在已标注好的训练语料中依据本文设计的特征模板抽取并生成句子边界特征向量,其次分别利用高斯(Rbf)、线性(Linear)、多项式(Poly)和S型(Sigmoid)等四种支持向量机核函数做训练模型,以解决歧义句子边界的切分问题,系统总体框架如图1所示.

HOG(梯度方向直方图)+SVM(支持向量机)的目标识别由法国研究人员Dalal提出,主要思想是使用HOG对目标进行特征提取,利用线性SVM分类器对目标进行分类从而实现目标检测[7]。本文使用OpenCV2.4.9库中现成的HOG+SVM行人检测函数对目标进行检测,目标检测方法的步骤为:对输入图像进行颜色空间标准化;计算像素梯度,计算得到的梯度结果统计在梯度方向直方图上;对重叠块中的对比度进行归一化,生成特征向量;使用SVM分类器对生成的特征向量进行训练,其流程图如图2所示。

2.2规则

2.3.2 特征模板的设计 藏文训练语料中以边界符和紧缩楔形符为当前音节(S0)进行抽取句子并固定其位置,并从当前音节(S0)左右各抽取5个音节,进行人工标记,标记时需要切分的句子为1,不需要切分的句子为0,中性标为2.例如存在歧义边界词为“”的句子“”,抽取结果为“”,进行人工标记为0,不需要切分.如“”抽取结果为“”,进行人工标记为1,需要切分,其生成特征模板库及特征向量见表2和表3.

2.2.1 藏文边界识别及终结词的识别 藏文句子边界符的多样性给藏文句子边界识别带来很大困难,并影响到机器翻译等研究工作.本文通过边界词表和关联表的规则,基本上能有效识别句子边界.其方法是:读入训练文本进行音节切分,其中藏文的编码范围是0F00-0FFF,藏文数字符号的编码范围是0F20-0F3D,藏文标点符号等可以在该范围内的字符两边添加分隔符进行切分,基本的音节切分(不含严格意义上的音节切分,如“紧缩词的处理”)后对文本进行读取,若楔形符之前的字为边界词或终结词,且楔形符之后的字或词不是关联词,则换行处理.

S型核函数(Sigmoid):k (x i ,x i )=tanh {b (x i T x j )+c }.

2.3支持向量机

2.3.1 SVM模型 支持向量机(Support Vector Machine,SVM)模型是有关监督学习的模型,是一种线性不可分变换到线性可分的问题过程,可以分析数据、识别模式、用于分类和回归分析的问题,给定一组训练样本,标记归为两类,将两类样本在特征空间进行线性分类,并在此特征空间中寻找最优样本进行线性分类(最优分类超平面)[8],其分类决策函数为

表4的结果表明,核函数中高斯核函数(Rbf)的性能最优,其次是线性核函数(Linear)和多项式核函数(Poly),S型核函数(Sigmoid)相对的性能差.

其中w 是权重向量,x 是特征向量,b 是参数.核函数是SVM的核心的问题之一,常用的核函数有[11]

线性核函数(Linear):k (x i ,x j )=x i T x j ,

多项式核函数(Poly:k (x i ,x j )={(x i T x )+1}δ ,

高斯核函数

2.2.2 紧缩楔形符边界词的自动识别 依据藏文文法,藏文句子书写时句子边界词以“后加字”、“辅音字母”和“辅音字母”等结尾,在该句子末尾不会写楔形符号,以这些字符的部件(纵向最长的竖杠)表示藏文楔形符号,称之为紧缩楔形边界符号,这类边界词之后一般用空格进行分句,但是文献语料中总是会出现没有空格的情况,如中“”之后丢失了空格,导致无法识别该藏语句子的边界,增加了藏语句子切分的难度,本文利用紧缩楔形边界词表和长度异常音节间的字符串模式匹配算法,判断是否存在句子边界词,若存在紧缩楔形边界词,则作为句子边界进行句子切分处理.另外,模式匹配时已找到的紧缩楔形边界词后存在字符“”和“”的问题,如“”中的“”,因其中存在再后加字“”,通过匹配再后加字词表,将“”不会判断为紧缩楔形边界词,也不会把句子切分成“ ① ”的错误形式.紧缩楔形边界词和再后加字词表的部分内容见表1.

图2 SVM最优分类超平面
Fig.2 Optimal classification hyperplane of SVM

上述4个核函数中高斯核函数(Rbf)的性能最优,其次为线性核函数(Linear)和多项式核函数(Poly),S型核函数(Sigmoid)相对性能差.藏文句子边界识别中,本文将是否切分句子视作SVM的分类问题,如图2所示.

该报告密切关注了核工业为应对大规模部署核电的挑战所做出的努力,包括废物处置库的建设,具有固有安全特性、采用了非能动技术、可大幅降低废物产生量的反应堆技术的研发等。

从图2可知,通过支持向量机(SVM)的两类样本被超平面H线进行分隔,使得H1线和H2的距离最大.在藏文句子边界识别过程中,把藏文句子需要切分和不切分作为两类样本:需要切分(图2中 “”)和不需要切分(图2中 “”).

本文用规则进行藏文句子边界识别考虑的内容:藏文标点符号(边界符)、结束符和紧缩楔形符的句子边界识别.

表 2特征模板
Tab.2 Feature templates

3 实验

3.1歧义边界词的实验结果

1.2.1 边界符特征 藏文句子边界符特征需要考虑三个方面,第一,考虑标点符号(边界符),汉语的句子边界可以通过逗号、顿号和句号等的位置来准确识别,而对应的藏文标点符号只有楔形符号,因此导致无法准确识别藏文句子边界.楔形符包括单垂符()“”、双楔形符号“”()和四楔形符号“”().第二,考虑紧缩楔形符(以后加字为结尾的句子),藏文句子除了边界符还涉及到紧缩楔形符的问题,如“”(我想没有其他办法,不写作业老师肯定不会认同),本文共统计了361个紧缩楔形符(以为结尾的字),部分内容见表1.第三,考虑边界符号的特殊性,如结束符的添接法与离合词()相同,按同音原则,在后加字[]后面用[],[]后面用[],以此类推,如“”中的“”符合结束符的添接法,表示句子已经结束,但不按同音原则的结束符就不确定句子已结束,如“”中的“”跟前面的音节搭配为一个名词,表示句子还没结束.

表 3句子边界特征向量化表
Tab.3 Quantization of sentence boundary feature

表 4歧义边界词的实验结果
Tab.4 Experimental results of ambiguous boundary words

f (x )=sgn(g (x ))=sgn(w x +b ),

1.3观察指标及疗效评定标准 ①治疗效果:临床疗效评定标准:无效:患者手术前具有的症状均未得到改善;显效:患者痔变小,临床症状得到改善但伤口未全部愈合;有效:患者痔消失,临床症状也消失且伤口愈合。总有效率=(有效+显效)/总例数×100%。②手术情况:对患者手术时间、出血量、手术伤口愈合时间、术后尿潴留情况进行观察比较。

3.2评价指标

为了评价本文提出的基于混合策略的藏文句子边界识别方法的性能,从准确率、召回率和F 值三方面对藏文句子边界识别的系统性能进行评价,计算公式为[1]

1893年,荷兰的乌德舒恩首次引入臭氧作为饮用水处理的消毒剂。随后,臭氧在许多欧洲国家被用于水消毒。臭氧可在食品加工中以气态或含水态使用。一般而言,气态臭氧用于储存应用,而含水形式的臭氧则用于食品、设备或包装材料的表面去污。

召回率

F 值

生态属性是区块链能否大规模应用的一个关键因素,因为它定义了一个应用是否可行的临界量。区块链的主要优势在于网络效应,随着网络规模的扩大,潜在优势激增;但同时,其需要的协作也更趋复杂。例如,用区块链技术来解决数字媒体领域的牌照、许可使用费支付等问题,就需要在大量数字内容生产者和消费者之间海量的协调。

3.3实验结果

实验从8000句切分标注语料中随机抽取285个句子作为测试语料,其余7715句作为训练语料,经统计测试语料中包含27个歧义边界词和100多个关联词.分别对相同的测试语料用规则方法、规则和支持向量机相结合的方法进行实验,验证不同方法对藏文句子边界识别的影响,实验结果见表5.

表 5不同方法对藏文句子边界识别的影响
Tab.5 The influence of different methods for boundary identification of Tibetan sentence

实验结果表明,规则和支持向量机方法相结合识别性能较强.规则的方法解决了藏文边界符和紧缩楔形符的问题,并提高了藏文句子边界识别的性能,减少支持向量机对藏文句子边界歧义的误判,因此两种方法相结合提高了藏文句子边界识别的准确率.

4 结语

藏文句子边界符的多样性和紧缩楔形符的特性,给藏文句子边界识别带来很大困难,从而影响词法分析、句法分析、语义分析和机器翻译等藏文自然语言处理工作.针对该问题,本文提出了基于混合策略的藏文句子边界识别方法,主要结果为:(1)规则方法对藏文句子边界进行识别,利用特征词表解决了终结词和紧缩楔形符的藏文句子边界识别问题;(2)规则方法无法识别的藏文歧义句子边界,用支持向量机训练好的模型进行处理.从实验结果可以看出,本文提出的方法能有效识别藏文句子边界,F 值达到99.25%.后期工作中,将扩充语料规模和补充开放语料进行测试,尝试用神经网络的方法自动识别藏文句子边界识别的问题,对不同的方法进行研究.

参考文献:

[1] 李响,才藏太,姜文斌,等.最大熵和规则相结合的藏文句子边界识别方法 [J].中文信息报,2011,25(4):39-45.

[2] 赵维纳,刘汇丹,于新,等.基于法律文本的藏语句子边界识别 [C]//第五届全国青年计算语言学研讨会论文集,武汉:第五届全国青年计算语言学研讨会(YWCL 2010),2010:480-486.

[3] 马伟珍,完么扎西,尼玛扎西.藏语句子边界识别方法 [J].西藏大学学报:自然科学版,2012(2):70-76.

[4] 仁青吉,安见才让.藏文句子边界自动识别方法的研究 [J].信息与电脑:理论版,2014(8):62-63.

[5] 格桑居,格桑央金.实用藏文文法教程 [M].成都:四川民族出版社,2004.

[6] 吉太加.现代藏语文法通论 [M].兰州:甘肃民族出版社,2000.

[7] 格桑居冕.藏语复句的句式 [J].中国藏学,1996(1):132-141.

[8] 张学工.模式识别 [M].3版.北京:清华大学出版社,2010.

[9] 赵维纳,于新,刘汇丹,等.现代藏语助动词结尾句子边界识别方法 [J].中文信息学报,2013,27(1):115-120.

[10] 才藏太.基于最大熵分类器的藏文句子边界自动识别方法研究 [J].计算机工程与科学,2012,34(6):187-190.

[11] 胡书津.简明藏文文法 [M].昆明:云南民族出版社,1998.

[12] 夏吾吉,华却才让,色差甲,等.融合藏族人名音节特征的性别自动识别 [J].西北民族大学学报:自然科学版,2017(3):1-5.

[13] 华却才让,姜文斌,赵海兴,等.基于感知机模型藏文命名实体识别 [J].计算机工程与应用,2014,50(15):172-176.

[14] 李航.统计学习方法 [M].北京:清华大学出版社,2012:95-133.

Tibetan Sentence Boundary Recognition Based on Mixed Strategy

Quecuozhuoma1,Huaquecairang2,Cairangdangzhi3,XIA Wu-ji3

(1.The Com puter College of Qinghai Normal University ,Xining 810016,China ;2.Key Laboratory of Tibetan Information Processing ,Ministry of Education ,Xining 810008,China ;3.Tibetan Information Processing and Machine Translation Key Laboratory of Qinghai Province ,Xining 810008,China )

Abstract :Tibetan sentence boundary recognition is an important work in the field of Tibetan information processing.It has a wide range of applications in lexical analysis,syntactic analysis,machine translation and semantic analysis.On the basis of analysis of the concept,classification and boundary features of Tibetan sentences,we proposed a Tibetan sentence boundary recognition method based on mixed strategy.The F -measure score of the experimental model on the test data set was 99.25%.

Key words :Tibetan sentence;boundary features;rule-based methods;SVM

中图分类号 :TP 391.1

文献标志码: A

文章编号: 1001-8735(2019)05-0400-06

doi: 10.3969/j.issn.1001-8735.2019.05.006

收稿日期: 2018-09-25

基金项目: 青海省科技计划资助项目(2017-GX-146);国家社会科学基金资助项目(17XYY030);青海师范大学中青年科研基金资助项目(17ZR11);青海省重点实验室项目(2013-Z-Y17;2015-Z-Y03;2014-Z-Y32);藏文信息处理与机器翻译重点实验室资助(2013-Y-17)

作者简介: 却措卓玛(1993-),女(藏族),青海西宁人,青海师范大学硕士研究生,主要从事藏语智能信息处理研究

通讯作者: 华却才让(1976-),男(藏族),青海西宁人,青海师范大学副教授,博士,主要藏语语法分析和机器翻译研究,E-mail:peljortserins@qq.com.

【责任编辑 张颖娟】

标签:;  ;  ;  ;  ;  ;  ;  

基于混合策略的藏文句子边界识别论文
下载Doc文档

猜你喜欢