藏语N-gram语言模型中的平滑技术研究论文

藏语N-gram语言模型中的平滑技术研究

仁青吉

(甘肃民族师范学院 藏区非遗重点实验室,甘肃 合作 747000)

[摘 要] 文章在Linux环境下搭建Srilm建模平台,然后对语料进行分块处理,并用N-gram count 和N-gram进行计数和语言模型的建立,利用几种平滑算法对其进行了困惑度的测试,最后对这几个困惑度的数值进行比较和数据分析,总结出一个适用于当前语料和语言环境下最优的平滑方法.

[关键词] 藏语语言模型;N-gram;平滑算法;困惑度

0 引言

语言模型在一个识别系统中占据着非常重要的地位,比如说在一个识别系统中,当出现一个同音字时,单凭声学模型已经不能正确的确定文本的内容,因为对于两个同音的字来说机器光凭声音是不能确定当前读的这个字是同音字当中的哪一个,所以声学模型描述和处理语音信号的能力有限,因此,光靠声学模型还不能达到理想的效果.我们还有许多非声学的模型,如句法、语义、语境等没有善加利用,这时语言模型就起到了关键性和决定性的作用,一个可靠的语言模型对识别系统的识别率及效率起着至关重要的作用.

1 建模平台的搭建和语言模型的生成

SRILM的主要目标是支持语言模型的估计和评测.估计是从训练数据中得到一个模型,包括最大似然估计及相应的平滑算法,而评测是从测试集中技术其困惑度.最基础和最核心的模块是n-gram模块,这也是最早实现的模块,包括两个工具:ngram-count和ngram.在训练语言模型的时候主要是用ngram-count来生成训练文本的技术文件count,然后再利用命令ngram生成训练文本的语言模型,在这个过程中可以添加不同的参数来测试不同的平滑算法,ngram-count被用来估计语言模型,ngram生成训练文本的语言模型.本次实验所用到的语言建模工具为SRILM,其运行于Linux操作系统环境下.

图 1语言模型生成过程

训练和评测语言模型的的流程,分为三个步骤:

搭建青年技术人才快速成长平台,开展青年干部岗位交流、挂职锻炼(院厂)、技术比武等,鼓励技术人员参加各类技能竞赛,在加强创新成果推广应用方面取得了显著成效。今年上半年,组织35人在院内开展技术比武,10月举办了院内 “PETREL地质建模及应用分析”技术竞赛,并对优胜者给予了奖励;4月,在局开展的“青年联合攻坚”,院两个课题获优秀科研成果一等奖;8月在公司举办的青工油气藏开发动态分析大赛中,研究院选派的选手收获大赛唯一金牌。

看着这些五颜六色的保时捷停在一起,似乎这应该是我所经历过最为热闹、令人热血沸腾的一次“家庭聚会”了。虽然没有什么丰盛的大餐或者醇厚的美酒,但不过是听着这些水平对置6缸自然吸气发动机的轰鸣,我就已经没有任何遗憾了。的确,这个特殊的家族令人魂牵梦绕,而在我看来,更令人感觉无法割舍的却是这个家族一脉相承的性能理念、哲学以及渴望。

1)由语料生成计数文件;

2)由计数文件训练语言模型;

3)利用已经训练好的语言模型来计算测试数据的困惑度.

基于统计的语言模型是从统计学的角度来统计某种语言单位(如词、字、音素等)的分布概率,在具体的实验中,是生产某种语言文本的统计模型,给定句子集合:

其中要统计每个单词在该句子集合中出现的概率时,我们应该用如下公式:

p(wi|wi-1) = count(wi-1,wi) / count(wi-1)

晚上,苏穆武和老伴倚在床头。苏穆武扒拉手指算着:1 0万美元相当于人民币六七十万,两人一年就是一百多万呀!苏母说:杰克不是说他父母是种地的吗?咋这么有钱?苏穆武说:那得怎么看了,地主也是种地的。苏母问:那他结婚时候为啥不买房呀?非要住在出租屋里。苏穆武沉吟着:我琢磨着,这小子是不是跟咱婷婷留一手,怕买了房子以后离婚麻烦。苏母急了:那咱婷婷不是吃亏了吗?怎么办呀?苏穆武坚定地:不行!得让那小子跟家里要钱买房!有钱不买房,糊弄丈母娘!

Ngram-count -read train.count

由于基于统计的语言模型的生成首先是通过统计语料文本当中的每一个已经分好的语言单位比如词、字等,所以我们开始要通过n-gram count来统计该文本当中的语言单位.

发射台架控制系统双机冗余热备份控制技术研究……………………………………………… 李博,赵慧莉(4-255)

表 1 count实例

表 2 count实例

表 3语言模型实例

语言模型是用来计算一个句子概率的模型,如下公式所示:

p(S)=p(w1,w2,w3,w4,w5,…,wn)

=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)

其中p(S)代表语言模型,那么,如何计算p(wi|w1,w2,...,wi-1)才是最简单、直接的方法呢?假设下一个词的出现依赖它前面的一个词,这样语言模型叫bigram则有:

p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)

-lm Good-Turing3-7.lm

=p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1)

以Good-Turing为例,利用命令ngram生成训练文本的语言模型,在这个过程中可以添加不同的参数来测试不同的平滑算法,相应的被用来估计语言模型和计算语言模型的困惑度.

p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)

=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2)

以上计算了语料文本里词的统计并生成了count计数文件,为了计算简单运用bigram来生成了针对于该训练语料的语言模型,那么在该语言模型中句子的概率为:

2 实验

在做平滑算法测试实验的过程中,为了使平滑算法测试实验的结果更直观且更有说服力,在做实验时不是把整个文本都拿到一起做平滑测试实验,而是将整个文本进行分块,对语料进行预先处理后要测试的文本的大小有20MB,依次将文本分成1∶4∶6∶8的比例,将这些分块好的文本分别标记为A、B、C、D,并将整个文件标记为E,然后进行算法测试.

-write train.count

步骤一:

2014-2016年,口服中成药以低价药为主,低价口服中成药销售金额分别占口服中成药销售总金额的99.71%、99.78%和99.70%;DDDs分别占口服中成药总DDDs的99.84%、99.88%和99.87%。2014-2016年低价口服中成药销售金额、DDDs及其占比情况见表4。

Ngram-count -text train.txt

-order 3

依托葫芦文化旅游资源,积极开展各类游览项目,注重游客的参与性和体验性。例如,以葫芦生产文化资源为基础,可开展生产场景参观、生产知识讲解、种类品鉴、艺术品鉴赏、种植体验、雕刻体验等游览项目。再如,可将葫芦文化艺术节的举办地移至乡村,将上述体验项目充实到节庆活动之中。

实验步骤:

根据ak值大小,经“同异反”聚类后,已知中国男篮与世界水准的差距有5个类别,因“零差距”与“较小差距”对应的指标在同异反态势上与世界水准具有强同势或准同势,深入研究的意义不大。因此,本文只对 “一定差距”、“较大差距”和“相当差距”三个类别进行分析。

步骤二:

其中部分bigram的语言模型如下所示:

-order 3

-lm Good-Turing.lm

步骤三:

Ngram-count -read train.count

实验数据描述:实验数据为藏语旅游风俗文化和一些日常的生活用语,训练数据A(1 MB),测试数据(260 KB),测试结果见表4.

张全文话不多,心却很亮。凡是涉及到原则性的问题,他就会变得很严肃。张伦小学时,羡慕大人们抽烟时的潇洒,会和朋友凑钱买两毛五一包的小春城抽。“我那次被抓是和一个堂哥一起抽。我们一起找了些烟,躲到包谷地里面抽,结果还是被我隔壁家的一个哥哥发现了。”张全文知道后,叫来了家里的至亲。“我们两个被抓去堂屋里,全家人——我大爹、二大爹、三大爹、四大爹,一个个就开始和我讲道理,公审一样。”

配制茄尼醇系列标准溶液,在选定条件下进样5 μL。根据ELSD测得的峰面积A对应茄尼醇的浓度进行线性回归,得到回归方程。再将最小浓度的标准溶液逐级稀释,依次进样5 μL,计算当信噪比S/N=3时所对应的标准溶液的浓度以确定检出限,信噪比S/N=10时所对应的标准溶液的浓度以确定定量限。

-gt1min 3 -gt1max 7

-gt2min 3 -gt2max 7

-gt3min 3 -gt2max 7

假设下一个词的出现依赖于它前面的两个词,这样的语言模型叫trigram则有:

实验一

-order 3

企业定额要进一步完善,企业领导就要重视、关注企业定额在使用过程中的执行情况,并组织对定额精度、深度、可操作性的校验。对企业实践达不到的、水平偏高的定额子目及低于平均水平、不利于提高企业管理水平的定额子目要及时调整或补充。以达到控制成本、降低消耗、提高效率、增加效益的目的。

表 4对 A的平滑测试

实验二

实验数据描述:实验数据为藏文新闻报刊类的文本,训练数据B(4MB),测试数据(255KB),测试结果见表5.

表 5对 B的平滑测试

实验三

实验数据描述:实验数据为藏文新闻报刊类的文本,训练数据C(6MB),测试数据(255KB),测试结果见表6.

“我觉得包括银行、险资、基金在内的各方,在评估上不应简单将国企、民企区别对待。到现在还有一些投资人搞‘入围名单’,不管你经营状况如何,反正民企不准入围,这种偏见应当纠正。”李锴说。

表 6对 C的平滑测试

实验四

网上近来有传言:早起空腹喝凉开水,时间长了会让人身体困乏、胸闷气短、记忆力减退。其解释为,早上需要阳气运行气血,空腹喝凉开水,会克火抑阳,损坏体质,即使是喝温开水也不行。

第2期扩机工程于1976年至1978年进行了可行性研究,研究报告建议安装2台700 MW常规机组,2台500 MW可逆式抽水蓄能机组,并确定1990年以后付诸实施(此工程完成后全电站装机容量将达到9 209 MW,其中常规机组容量为7 895 MW,对保证出力的倍比为4)。

实验数据描述:实验数据为藏文新闻报刊类的文本,训练数据D(8MB),测试数据(255KB),测试结果见表7.

表 7对 D的平滑测试

实验五

实验数据描述:实验数据为藏文新闻报刊类的文本,训练数据E(20MB),测试数据(255KB),测试结果见表8.

表 8对 E的平滑测试

图 2不同平滑算法对不同语言模型的困惑度比较

3 总结

从以上五个实验的五组实验数据中可以看出,分块的A、B、C、D、E这五个不同大小的文本来说,Modified Kneser-Ney方法表现最好,Absolute方法表现比Good-Turing3-7好,Witten-Bell表现比Good-Turing 要好,最差的是Good-Turing3-7.当数据量小时,Good-Turing方法和Witten-Bell相差不多,当数据量增大时,Witten-Bell方法就明显优于Good-Turing.但是,平滑方法性能的好与不好是由很多因素决定的,没有绝对的好与不好,应该依据现有的条件而定.困惑度是对模型选择下一个词的范围大小的度量,困惑度越小,识别器就越容易识别,困惑度越大,识别器的识别难度就越大.比如,对一个语音识别系统来说,困惑度就是表示识别器每次将会在多大的1个词集合中选择下一个词.

参考文献:

[1] 陈晶.维吾尔语连续语音识别系统中语言模型的研究[D].新疆大学,2009.

[2] 张国强.层次化蒙古语语言模型的构建研究[D].内蒙古大学,2008.

[3] 刑永康,马少平.统计语言模型综述[J].计算机科学,2003,30(9):22-25.

[4] 德庆卓玛.藏语语音识别研究综述[J].西藏大学学报,2010,25 (专刊).

[5] 申彤彤.基于循环神经网络的藏语语言模型研究[D].天津大学,2017.

Researches on Smoothing Technology in Tibetan N -gram Language Model

REN Qing -ji

(Tibetan Intangible Cultural Heritage Key Laboratory,Gansu Normal University for Nationalities, Hezuo, 747000, China)

[Abstract ]This paper talked about theSrilm modeling platform is built in Linux environment, and then the corpus is processed in blocks. N-gram count and N-gram were utilized to count and build the language model, and several smoothing algorithms were applied to test the degree of confusion. Finally, the values of these degrees of confusion were compared and analyzed, and concluded an optimal smoothing method for the current corpus and language environment.

[Key words ]Tibetan language model;N-gram;Smoothing algorithms;Degrees of confusion

[中图分类号] TP393

[文献标识码] A

[文章编号] 1009-2102(2019)04-0026-05

[收稿日期] 2019-05-20

[作者简介] 仁青吉,女,藏族,硕士,讲师,主要从事藏文信息处理方面的研究.

标签:;  ;  ;  ;  ;  

藏语N-gram语言模型中的平滑技术研究论文
下载Doc文档

猜你喜欢