中文文本汉语拼音自动产生系统设计方案论文

中文文本汉语拼音自动产生系统设计方案

侯雨铃

(北京工业大学,北京 100080)

摘 要:汉语中有1000多个多音字,正确的判断多音字并进行注音,是计算机拼音合成的难点之一。为了实现对多音字的自动识别标注,采用最大向前匹配、最大向后匹配法对词句进行分词处理。再构建条件概率表,对多音字进行整理归类。最后系统的进行注音。通过《中文拼音词典》模块、文本分词模块、《汉字条件概率表》模块、《汉字条件概率表》计算模块、自动产生文本拼音模块构成拼音自动生产系统。

关键词:中文文本;汉语拼音;自动生产系统设计

0 引言

在生活中,我们经常会遇到一些不认识的字或不知道准确读音的字,可是却很少有人会真正地去查它的读音。因为我们没有足够的时间去翻开字典并找到那个字,这导致有很多中国人在交流的时候会说出错误的读音。甚至在各种中文演讲的时候会出现读音不准的问题,在下面听演讲的人也会不自觉地记住错误的读音[1-5]

青辰心生好奇,盯着那张隐在薄雾后的脸,努力想将他的面目看得清楚,却越看越是头晕,如何也辨认不清。他从未有过这样的体验,他的双眸拥有异乎常人的视力,能够将很远处的东西看得清晰,但眼前这人,他却无法看清。他看着看着,终觉心底一阵发慌发冷,急忙移开视线,不能直视。

由图5可知,当弹体质量在小于1 000 kg时,对于典型花岗岩被覆,其打击毁伤范围不超过100 m,该计算结果可为现有防护工程抗超高速动能武器打击的防护效能评估提供指导。

例如,声调的错误在日常生活中经常发生。枸杞中的“杞”应读三声;浙江的“浙”应读四声等,这些都是人们在平时容易读错的读音。

又如,有些汉字的读音很特殊。例如,和面、和稀泥中的“和”字应该读“huò”,而不是“hé”,许多中国人都经常把这些字读错。

不光中国人为汉字的读音发难,外国人学中文的时候也会为读音发难。在国外,学中文最难的一步就是学汉字的读音,尤其是中文还有很多多音字。假如一个外国人在学一篇中文课文,而汉字的读音他一个也不知道,他难道要一个一个在字典里查吗?那么查一天也查不完。这就给他学中文的梦想造成了很大的阻碍。

虽然现在互联网上的电子词典很多,但是它们有很多常见的错误。

以上这些事情都说明了要给汉字注音的重要性。既然用人工来给汉字注音费时费力,那么给汉字注音这个工作由计算机来执行,学习效率高得多。基于人工智能的计算机查字典的速度要比人类快的多,因此设计了“中文文本汉语拼音自动产生系统”[6-10]

1 中文文本汉语拼音自动产生系统的设计

中文文本汉语拼音自动产生系统由《中文拼音词典》模块、文本分词模块、《汉字条件概率表》模块、《汉字条件概率表》计算模块、自动产生文本拼音模块所构成。

《中文拼音词典》模块为自动产生文本拼音的基础,文本分词模块对输入的中文文本进行分词,形成一个一个字和词。《汉字条件概率表》计算模块从《中文拼音词典》中计算在一个汉字后面接一个汉字的条件概率,为消除汉字的不同读音提供基础。自动产生文本拼音模块通过查《中文拼音词典》,并且使用《汉字条件概率表》,对分词后的文本进行拼音自动生成,就像人查词典一样,同时对多音字的情形,经过思考,确定多音字的准确拼音[11-13]

图1给出了中文文本汉语拼音自动产生系统的结构。

width=207.75,height=110.95

图1 中文文本汉语拼音自动产生系统的结构

Fig.1 Structure of chinese text to chinese pinyin auto generation system

图2给出了中文文本汉语拼音自动产生系统的工作流程。

根据以上的数据无法直接获取油路主管和支管内液压油的流速,进而无法计算渣锁斗阀实际的开关时间,因而需要采用循环迭代的方法进行试凑,计算过程中涉及的一些中间常量和中间变量为:其中,FH为油缸内活塞所受的力,根据阀门计算书提供的数据,FH的计算如式(1)所示:

width=150.5,height=125

图2 中文文本汉语拼音自动产生系统的工作流程

Fig.2 Workflow of chinese text to chinese pinyin auto generation system

在图2中,有关“多音字词分析”的过程,如图3所示。

2 《中文拼音词典》的设计

《中文拼音词典》是文本拼音自动生成的基础。对每个单字或词,给出了它们的拼音。当一个字是多音字时,词典收集了它们的所有读音。

在从中文拼音词典中查询一个字词的拼音时,如果它具有k个拼音P1,…,Pkk>1),那么就得判断哪个拼音为正确的。这本身是一个困难的问题。为此,我们设计了三种策略,来处理多音字词问题。

小学语文教师在实际展开教学活动的过程中,为了实现读写结合的目标,可以鼓励学生在阅读中将自己的思路记录下来,加深对文章的记忆,同时还可以将所掌握的知识内容转化成写作中可以充分应用的素材,为提升小学生的写作能力奠定良好基础。在记录读书笔记的过程中,小学语文教师可以鼓励徐盛将自己的情感、对写作手法的感慨等进行全面记录,这一趣味性教学活动能够实现有效的读写结合,为强化小学语文教学效果奠定基础。

目前,《中文拼音词典》涵盖所有常见的汉字,也含有从小学到大学的各种日常词条、专业词条,共计有185285多万条。

在今后的应用中,该词典今后可以不断扩充,从而增加了本系统的应用范围。

安阳工学院新的办学思路和培养机制是向应用型本科院校转变。应用型是高等教育发展到一定阶段的必然结果与必然取向,尤其是高等教育大众化和普及化到来时。整个高等教育已从学术型和研究型慢慢过渡到应用型,“用”是应用型的核心,学以致用是其本质,掌握知识与能力是“用”的基础,社会实践是“用”的对象,满足社会需求、推动社会进步,是“用”的目的。

表1 《中文拼音词典》示例

Tab.1 An example of chinese pinyin dictionary

3 中文分词方法的设计

按照第二条策略,本项目选择了最大向后匹配的结果,因为它的单字只有1个,而最大向前匹配的结果有2个单字。

阿峰开着他的车来暹粒机场接我们,带着他的老婆和大女儿。这两天我的喉咙有些不舒服,他听出来了,经过一家药店的时候,把车停在路边,给我买了一盒润喉片。“这药很好,明天你的喉咙就会没事的。”他说。

例如,对句子“他出席了中国人大会议”,

在中文文本汉语拼音自动产生系统中,《汉字词条件概率表》的格式有两种如下:

其中,字2是字1的后接汉字。

本项目采用两种分词方法:最大向前匹配、最大向后匹配。同时本项目也采用三种策略,来选择一组分词结果:第一,当这两种方法的分词结果不一致时,采用分词个数少的那一组分词。第二,如果它们的分词结果中的分词个数一样,那么选择单字个数少的那一组分词结果。第三,如果它们的分词结果中的单字个数也一样,那么选择最大向后匹配的那组分词结果。

4《汉字条件概率表》的设计和计算

有些汉字可能有多个读音,读什么音往往与它们在句子中所处的位置有关。因此,需要计算汉字与拼音之间的条件概率,形成一个程序可以使用条件概率表。

“叶下洞庭初,思君万里余。露浓香被冷,月落锦屏虚。欲奏江南曲,贪封蓟北书。书中无别意,惟怅久离居。”男人在燕北的冰原抛洒热血,女人在温柔乡里孤单终老,这是她名闻天下的祖姑婆写的诗,在教坊里谱成曲子,在长安的时候,谁没听过呢?

最大向前匹配的结果是:他出席了中国人大会议

将式(4)、(5)、(12)代入式(14)、(15)可得空间光到少模光纤耦合效率随轴向偏移Δz的变化规律.

121的拼音P 字1的拼音P的概率

1 null 词1的拼音P 词1的拼音P的概率

最大向后匹配的结果是:他出席了中国人大会议

《汉字条件概率表》的产生是根据《中文拼音词典》进行的。过程是:

另外,在《中文拼音词典》中,可以计算出字1读成拼1的次数、字2读成拼2的次数,等等。所以,我们可以按照以下方式计算《汉字词条件概率表》中的:

对一个词W,它由字12...字n构成,它们对应的拼音为:拼12...拼n。记住(字121)出现1次,同样,(字232)出现1次,…。

width=171,height=47

对词(至少含两个汉字)而说,如果它有多个拼音,则按照以下方法计算:

(2)打造精英型组织或团队,由其专门负责构建和完善我国航空用金属材料标准和标准体系。一个优秀的组织或团队是所有体系运行的基石。要汲取国外已经成熟的航空用金属材料标准和标准体系运用及管理模式的精髓,结合我国实际情况,由专业组织或团队对我国航空用金属材料标准体系进行实时跟踪、不断更新和持续维护,确保技术领先、科学管理。

width=156,height=47

5 中文拼音词典查询方法的设计

为了快速查到《中文拼音词典》的字词和对应的拼音,需要定义一种快速的数据结构。本项目采用字词到拼音向量的map方法,及map<string, vector<string>>。

这种结构既满足了快速定位字词,也满足标记字词的多音字的需要。

6 多音字词分析方法的设计

《中文拼音词典》共分为两列。第一列是词或字,第二列是它的拼音。表1给出了词典结构和样例。

面对网络恐怖主义这个共同的现实敌人,任何国家都不可能独善其身。即使是网络治理理念不同的国家也应该摒弃前嫌,加强网络空间的合作,提高协同打击网络恐怖主义的能力。美国及一些西方网络强国,应该放弃运用网络维系霸权或攻击他国的手段,而应该把先进的网络技术运用到应对网络恐怖主义上。同时,应该抛弃网络反恐的双重标准,建立统一的网络反恐国际合作机制。

策略1:对三字或三字以上的词W,如果它有多个拼音,那么任意选一个拼音。这个策略是合理的,因为三字或三字以上的词读成不同的拼音,这个可能性非常低!

策略2:对二字词W1W2,如果它有k个拼音P11P12,P21P21,…,Pk1Pk2。如果k=1,那么直接使用W1W2的拼音P11P12;否则,选择W1W2的拼音为Pi1Pi2,其中Pi1Pi2的在《中文字词条件概率表》概率最大。

策略3:对单字W1,如果它有k个拼音P11、...、P1kk>1),那么要考虑两种情形。

Ÿ·情形1:单字W1与后面的某个字W2构成离合词(如,“和了一团面”)。那么采用策略2,按照二字词W1W2来确定W1和W2的拼音。

Ÿ·情形2:单字W1不与后面的任何字构成离合词。此时,假设W1在句子中的后面的一个字是W2,那么查询《中文字词条件概率表》,就可以找到W1后接W2中概率最大的那个W1的拼音P,用它作为句子中W1的拼音。

根据上述策略,本项目采取的多音字分析的工作流程如图3所示。

width=231.95,height=144.45

图3 多音字词分析的工作流程

Fig.3 Workflow of polysyllabic chinese word analysis

7 文本拼音自动生成效果的评估方案设计

为了判断中文文本汉语拼音自动产生系统的效果,需要挑选一些课文进行测试。可以挑选小学五年级语文课本上的几篇课文,经过中文文本汉语拼音自动产生系统计算后,检查哪些自动生产的拼音是正确的,哪些是错误的,然后计算出正确的比例是多少。

工程教育的发展必须以产业需求为导向才能具有持久的生命力,产教融合这一育人模式能够有效将产业发展与人才培养相结合,是未来高等教育发展的重要支撑。在建设新工科的大背景下,产教融合面临着新的挑战,主要是来自产业转型升级对学科专业布局的挑战、高校与企业融合度急需加深的挑战以及政府行业协会等第三方加强协调指导的挑战。这些挑战也是促使产教融合深入发展的机遇,因此,应当迎难而上,抓住机会,构建新时期的产教融合育人新模式。

在本项目中,测试课文应该在1000字左右。

8 文本拼音自动生成的效果示例

走[zǒu] 出门[chū mén],就[jiù] 与[yǔ] 微风[wēi fēng] 撞[zhuàng] 了[le] 满怀[mǎn huái],风[fēng] 中[zhōng] 含[hán] 着[zhe] 露水[lù shuǐ] 和[hé] 栀子花[zhī zi huā] 气息[qì xī] 的[de] 微风[wēi fēng] 撞[zhuàng] [le] 个[gè] 满怀[mǎn huái]。早晨[zǎo chén],好[hǎo] 清爽[qīng shuǎng] !心里[xīn lǐ] 的[de] 感觉[gǎn jué] 好[hǎo] 清爽[qīng shuǎng]。

不[bù] 坐车[zuò chē],不[bù] 邀[yāo] 游伴[yóu bàn],也[yě] 不带[bù dài] 什么[shén me] 礼物[lǐ wù],就[jiù] 带[dài] 着[zhe] 满怀[mǎn huái] 的[de] 好心情[hǎo xīn qíng],踏[tà] 一[yī] 条[tiáo] 幽径[yōu jìng],独[dú] 自去[zì qù] 访问[fǎng wèn] 我的[wǒ de] 朋友[péng you]。

9 结论

本文介绍了一种中文文本汉语拼音自动产生设计方案。通过运用采用最大向前匹配、最大向后匹配法对词句进行分词处理,再对条件概率表的拼音系统匹配,完成了注音。经过实际测试,注音结果的正确率良好。

参考文献

[1] 基于局部上下文特征的组合的中文真词错误自动校对研究[J]. 刘亮亮, 曹存根. 计算机科学 2016, 43(12), 30-35. DOI: 10.11896/j.issn.1002-137X.2016.12.005.

[2] Kuckich K. Techniques for automatically correcting words in text[J]. ACM Computing Surveys (CSUR), 1992, 24(4): 377-439

[3] 施得胜, 王良志, 陈志达, 等. 基于统计的中文基于统计的中文错字侦测法[J]. 电脑与通讯, 1992, 8: 19-26.

[4] 施恒利, 刘亮亮, 王石等. 汉字种子混淆集的构建方法研究[J]. 计算机科学, 2014, 41(8): 229-232, 253

[5] 张照煌. 中文错别字自动订正方法初探[J]. Comm­un­i­cations of C0LIPS, 1994, 4(2): 143-149

[6] 刘亮亮, 王石, 王东升, 等. 领域问答系统中的文本错误自动发现方法[J]. 中文信息学报, 2013, 27(3): 77-83.

[7] 黄炳羽. 对未来中文信息处理拼音文字性编码方案的初步设计[J]. 西安文理学院学报(自然科学版), 2006, 9(4): 77-81.

[8] 赵博轩, 房宁, 赵群飞, 等. 利用拼音特征的深度学习文本分类模型[J]. 高技术通讯: 中文, 2017, 27(7): 596.

[9] 卓利艳. 字词级中文文本自动校对的方法研究[D]. 郑州大学, 2018.

[10] 赵瑛, 田宇, 李响. 汉语拼音移动学习软件设计开发研究[J]. 教师博览(科研版), 2017(5): 11.

[11] 基于多种上下文信息的联机手写中文文本识别方法及系统实现[D]. 华南理工大学, 2017.

[12] ChurchKW, GalewA Probability scoring for spelling correction[J]. Statistics and Computing, 1991, 1(2): 93-103.

[13] Islam A, Inkpen D. Real-word spelling correction using Google WebIT3-grams[C]. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Volume3. 2009: l241-1249.

Chinese Text Chinese Pinyin Automatic Generation System Design

HOU Yu-ling

(Beijing University of Technology, Beijing 100080)

【Abstract】: There are more than 1000 polyphonic words in Chinese. Correctly judging multi-sounding words and making phonetic transcriptions is one of the difficulties in computerized pinyin synthesis. In order to realize the automatic identification of multi-tone words, the maximum forward matching and maximum backward matching method are used to process word segmentation. Reconstruct the conditional probability table and classify the polyphonic words. Finally, the system performs phonetic transcription. Through the “Chinese Pinyin Dictionary” module, text segmentation module, “Chinese character condition probability table” module, “Chinese character condition probability table” calculation module, automatically generate text pinyin module to form a pinyin automatic production system.

【Key words】: Chinese text; Chinese pinyin; Automatic production system design

中图分类号:TP391

文献标识码:A

DOI:10.3969/j.issn.1003-6970.2019.09.033

作者简介:侯雨铃(1998–),女,本科,研究方向:计算机语音自动标记。

本文著录格式:侯雨铃. 中文文本汉语拼音自动产生系统设计方案[J]. 软件,2019,40(9):144- 147

标签:;  ;  ;  ;  

中文文本汉语拼音自动产生系统设计方案论文
下载Doc文档

猜你喜欢