基于正则表达式的藏文虚词“”类识别算法研究
更藏卓玛,安见才让
(青海民族大学计算机学院,西宁 810007)
摘要: 藏文虚词“”类是藏文语法中的非依他关联词,共有14个虚词。是藏文语法中的基础,并且是藏文信息处理的基础研究内容之一。本文结合藏文虚词添接规则和正则表达式对虚词“”类进行识别算法研究。以6本初中藏文教科书作为实验语料,通过实验得出藏文虚词“”类识别准确率达到99.94%。
关键词: 识别;正则表达式;虚词“”类
藏文中共有85个虚词,它比实词少很多,但藏文虚词在藏文中的使用及其广泛,而且它在不同语境中扮演者不同的角色,因此出现了虚词的歧义问题,而因它的歧义性问题识别起来非常复杂,尤其是非依他关联词的识别。但对它的研究对藏文词和句子的处理起着重要性的作用。因此,文章通过藏文虚词添接规则和正则表达式对藏文虚词“”类进行识别研究。
表1 虚词“
1 虚词“”类的正则表达式
藏文文本校对过程中校对藏文虚词的添接是一项很重要的工作,要完成这个工作首先要识别藏文虚词。
(1)的添接文法检测正则表达 式 为:其表示匹配字母或数字或下划线或藏文字重复零次或者更多次后((匹配除了换行符以外的字符(匹配前面的位置添 加例如
检测添接规则,并统计其次数。如图1所示。
图1
(2)的 添 接 文 法 检 测 正 则 表达 式 为:
在移动媒体教学环境下,中职英语教师要努力为学生理解和活用语言创造必要的条件,让学生通过参与各项认知活动发挥其潜能。教师还应充分调动学生的学习热情,让学生及时意识到学习活动的意义和目的,确保他们积极参与活动,从而使语言学习顺利进行。当教学内容与学生的经历、兴趣、生活相联系时,学生最能理解学习的意义和目的。其实教学方式的转变也是学习方式的转变。教师以先进的教法带动学法,真正体现学生的主体作用。
其表示匹配字母或数字或下划线或藏文字重复零次或者更多次后((匹配除了换行符以外的字符(匹配前面的位置加,例 如不能检测添接规则,并统计其次数。如图2所示。
图2
检测添接规则,并统计其次数。如图4所示。
通过前面内容所述,盾构实时数据在经过Redis缓存之后,同步持久化至MySQL中,用于后续的数据分析工作,而且盾构机的某些固有特征数据也要存储到数据库中,由于这些数据一般是结构化数据,所以可直接利用MySQL存储。对于盾构机特征数据和故障记录等并不会由底层数据采集系统传输,而是访问特定的接口得到,而此种访问是以JSON字符串作为数据传输的格式,因此在访问特定接口获得盾构机特征数据和故障记录信息的处理流程如图4。
(4)的添接文法检 测 正 则 表 达 式 为:其表示匹配字母或数字或下划线或藏文字重复零次或者更多次后((匹配除了换行符以外的字符“”)(匹配前面的位置加 例 如
超磁透析保护及原位生态修复技术是四川环能德美股份有限公司提出的一种全新的湖泊和城市河道等景观水体污染治理的方法。超磁透析技术可以高效去除水体中悬浮物、磷、藻类和非溶解性COD,大幅度改善水体的透明度,快速削减富营养盐,恢复景观水质;再与原位生态修复技术相结合,使河湖水生态系统的功能得到有效恢复。根据技术的特点,可在水污染应急处理、河流水质净化处理、河流“双提”工程(提水位、提水质、促流动)、湖泊水体透析净化、生态湿地公园水质改善与保持等五个领域得到广泛应用。
图3
“\?(?=་(?=་其 中表示匹配字母或数字或下划线或藏文字重复零次或者更多次后((首先匹配除了换行符以外的五个前加字零次或一次,然后匹配三个上加字中的任意一个和基字为“”中的任意一个,还有匹配三个下加字零次或者一次。)(匹配前面的位置添接例如其余的两个正则表达式也如同理解,在此不做解释。检测添接规则,并统计其次数。如图3所示:
(3)的添接文法检测正则表达式为:
图4
(5)虚词类的识别算法流程图,图5。
2 实验结果
六本初中藏文教科书做为实验语料,经试验得出在语料中等14个字总共有9902,其中已识别出作为虚词的个数为3996,见表2。识别准确率为
表2 “
图5
表3 虚词“
3 结束语
本文结合藏文虚词添接规则和正则表达式对虚词“”类进行识别算法研究,并实现了藏文虚词“”类自动识别系统。根据实验结果统计,本系统中虚词“”类识别准确率达到99.94%。但在识别过程中难免会遇到具有歧义性的虚词,比如“”中的“”是具有实意的词,而不是虚词。但它完全符合虚词“”的添接规则。所以这种词在识别过程中也会识别出来,导致识别准确率下降。此类问题本人在今后的学习中继续探讨和研究。
杨应龙,承袭播州宣慰使后,就开始着手巩固其在播州的统治地位。首先,他积极向明王朝进献贡品,以此向朝廷表示恭顺之心。“四川播州宣慰司应袭土舍杨应龙,差献马匹贺上登极”[4]329“播州宣慰司杨应龙差长官杨正芳进马匹庆贺万寿圣节”[5]“四川宣慰使杨应龙遣长官何邦卿等来朝贡马三十匹”[6],等等。”其次,杨应龙积极响应明王朝的征调,派兵协助平叛。“今上卽位以来,往往以兵积功劳。从征喇嘛、诸番先登多所斩获,赐紵丝狮子衣一袭、金十两。从征九丝腻乃,郤敌斩首捕虏亡算,赐金二十两。从征杨柳沟,郤敌先登斩首数十级,赐冠带”[7]。可见,杨应龙统治前期与明王朝保持了良好的关系。
参考文献
[1] 拉毛措,安见才让.基于正则表达式的藏文“”格助词的识别及其检错算法研究[J].高原科学研究,2018,6,15.
[2] 卓玛吉.藏文虚词自动识别研究[D].西宁:青海民族大学,2014.
[3] 高定国,扎西加,赵栋材.计算机识别藏语虚词的方法研究[J].中文信息学报,2014(1):114-117.
doi: 10.3969/J.ISSN.1672-7274.2019.09.177
中图分类号: J292.14,TP31
文献标示码: A
文章编码: 1672-7274(2019)09-0214-02
标签:识别论文; 正则表达式论文; 虚词“???”类论文; 青海民族大学计算机学院论文;