藏文文本自动校对方法及系统构建分析
赵建平1,陈建新1,穆 杰1,李永虎2,杜有智1
(1 青海省公安厅 青海 西宁 810000)
(2 西宁金智电子有限公司 青海 西宁 810000)
【摘要】 藏文文本的自动校对是藏文信息处理的主要应用领域之一,因此对于藏文文本自动校对方法的探究与之后的系统构建是非常关键的技术探索。为了实现对藏文信息的不断探究,挖掘藏文信息内涵,本文从藏文文本校对方法以及自动系统构建来展开相关论述。
【关键词】 藏文文本;自动校对;系统构建
1 引言
随着时代的进步,国家经济与科技水平的不断发展,藏区经济建设的步伐也伴随着国家发展的大好趋势而不断往前迈进。在互联网大数据的技术背景下,相关从业者与时俱进、不断创新,在藏文信息处理技术领域取得了较大的突破。而在这种技术条件的支持下,藏民族文化的传播也变得更加迅速高效。
湿地公园建设是湿地生态恢复的重要模式,在保持湿地近自然特征,维护湿地生态平衡,不破坏湿地生态系统的基础上,建设一些辅助设施,将湿地生态保护、湿地生态旅游、湿地生态教育和湿地观测研究的功能有机结合。截至2010年年底,安徽沿淮有国家湿地公园4个,总面积达到7 880 hm2,若包括淮南大通湿地,总面积可达到1.01万hm2(见表2)。
2 藏文文本常见错误类型
文本自动校对是较为复杂的语言处理过程,也是语言处理的重要技术手段。当前,关于英汉双语的自动校对手段已经较为成熟,但藏文校对领域的研究还相对较少。本文结合英文文本校对中常见错误,对藏文基本错误类型进行如下定义。
第一个,藏文音节拼写或者输入错误,从而构成无效字词。第二个,梵音转写藏文时欠缺文法规则。第三个,字词之间出现因接续词使用不当而产生的连接错误。第四个,在进行自主藏文音节搭配时不遵守藏文词典收录的内容。第五个,藏文语法结构出现混乱失序,从而导致语句含义不明。
前面的函数均可看作 的数学结构,表示两个函数之间的差距问题。有了以上的函数模型后,不仅对于高中教学是一个很大的突破,更加是有助于解决核心素养下的数学抽象问题,并且在总结模型的过程中,充分体现出核心素养下数学教学应该养成学生的逻辑推理能力,从而最终形成核心素养下的数学模型,模型指导下的数学疑难问题和生活实际问题就会得到充分的释放帮,更好地适应核心素养下的数学教学改革。
3 藏文文本校对方法
3.1 藏文音节拼写检查算法
总之,系统构建者必须从不同文本错误的模块出发来仔细推敲它们的字符集合关系,以使用模块化思想来进行自动校对算法的设计。
3.2 梵音转写藏文拼写检查方法
这种校对方式比较固定化,即根据专家整理的梵音转写藏文字典,一一查阅即可。校对中需注重严谨性以及规范性。
3.3 藏文接续关系检查算法
在目前的藏文文本内,使用传统文法规则以及梵音转写藏文的情况还较为普遍。因此在进行校对工作时必须使用两种或以上的规则来查检拼写是否出现错误。就以上状况而言,系统构建人员在进行流程设计时就必须明确藏文音节集合与梵音转写藏文集合的包含关系。我们知道,这两个模块分别属于不同的文法体系,因此无法完全重合,却又有所交集。若设置正确藏文音节集合为A,正确梵音转写藏文集合为B,那么两者相交处就是文本内的最规范处,而A ∪B 的补集则包含字符错误[2]。
以藏文文本类型的常见错误为基础,其自动校对系统需要构建于音节拼写检查、梵音转写藏文检查、接续关系检查等等方面。对于语言系统而言,音节、字词是构成语言大厦的砖石,因此对于音节字词的查检会直接影响到对后续语法语义的查检,因此音节拼写模块必须放在系统算法的最前面。音节拼写直接与藏文词语构成相关联。而接续关系检查以及梵音转写校对都分属不同的板块。
3.4 藏文词语检查方法
由上文可知,在藏文校对系统中,不同的板块都发挥着不同的功用,而又存在着互相关联以及实际查验时的前后顺序关系。系统构建者需要严格把控不同模块之间的联系与功能区别,从而有效布排各流程顺序。
4 藏文文本自动校对系统
4.1 系统框架
在每一个藏文音节之后都具有着不同的后缀,校对人员需要根据它们的不同使用规则来添加不同的接续词汇,以完成词汇语句的正确组织。如果将藏文接续关系用<P,X,f>三元关系模型进行表示。P 为后缀集合,X 为包含格助词和不自由虚词的集合,f 为接续关系函数。那么函数方程就可表示为:xij=f(pi)。在校对过程中,校对人员需要按照由此项方程编纂的检查算法来进行查检,以验证藏文接续关系是否符合规范定义。
4.2 校对系统框架设计
校对人员普遍采用正向最大匹配算法进行词典匹配,检查双音节以上词语的正确性。为了保障双音节词汇的有效检验,词典内容中首先需要去除单音节词条。
藏文体系中包含着数目繁多的接续词汇。而这些接续词汇又可细分为格助词、自由虚词以及不自由虚词[1]。在进行藏文编写时,由于词与词之间的接续大多都具备较为严苛的规则,更加需要编写者规范使用接续关系。因此接续关系检查在藏文文本自动校对领域是一个非常关键的部分。
藏文体系最为基础的构成模块就是藏文音节,因此关于文本纠错首先就必须从查检藏文音节有效性开始。而拼写检查通常使用以下手段:第一,收集文本内全部可见藏文音节,一一查阅字典。第二,采用规则方法来进行拼写检查。在实际校对过程中,以上两种方式可以配合使用,以达到最优效果。
沙三段9砂组上下都发育厚层的油页岩,没有水层,非油即干。其油水分布主要受构造和岩性双重因素控制,岩性是主要控制因素,油藏类型为构造岩性油藏。
4.3 系统实现方式
在藏文文本的自动校对系统中,需要总共通过八个类别来进行不同的文本错误查检,以实现文本内容的完全规范化以及有效化。例如,Cheker 类主导系统,完成音节拼写、接续、词汇、梵音转藏文的主要检查。Spell Cheker类负责拼写检查,Devanagant 类负责梵音转写藏文检查,Segment And Word Cheker 类负责接续关系和词语检查。当一篇藏文文本进入校对系统内,首先便会查检全篇音节是否拼写正确,然后再进一步进行接续关系、词汇拼写、以及梵音转写藏文规则的检查,若过程中任一环节出现错误,则错误处被明确标记,最终输出校对结果。
在对小学语文教学课堂展开变革的过程中,可以采用以下几种方式。第一,给予学生自主评价的空间,在此过程中展开自我评价,这一过程是学生展开自我反省的过程。学生通过自我反省能够认识到自己存在的不足,从而展开针对性的改正,因此教师在实际教学过程中需要给予学生一定的时间使其展开自我反省。第二,关注学生的学习进程,语文教学中的重点内容不仅仅在于知识,而在于对学生的能力展开培养,学生学习的过程就是一个主动的过程,因此教师需要降低学生在课堂中的被动性质。例如,教师对学生发出的信息展开实时反馈,观察学生在学习过程中习惯以及学习方式等,在此基础上制订相应的教学计划。
5 结语
藏文文本的自动校对是深入探索藏文化语言价值,进行有效自然语言处理的关键性手段。它不仅能够帮助藏文文本应用者提升工作开展效率,也能够进一步发展藏文文字、词汇、语法拼写以及组织规则的探究,从而大力开发与推进藏文化的继承与传扬。此外,自动校对系统在网络技术背景下对于提升文本质量也展现出了尤为重要的优势。在后续的研究进程中,技术人员还应争取从不同的视角来探索藏文文本自动校对的有效手段,以不断完善文本自动化处理技术。
【参考文献】
[1]刘芳,关白.现代藏文中词的自动校对方法研究[J].电脑知识与技术,2016,12(19):200-201+203.
[2]珠杰.藏文信息处理中若干关键技术研究[D].西南交通大学,2016.
【中图分类号】 TP274
【文献标识码】 A
【文章编号】 1009-5624(2019)05-0117-02
项目:科技强警/基于云数据的藏文文本高精准翻译系统研究,项目编号:2017-SF-132
作者简介: 赵建平(1963-),男,汉族,青海乐都 总队长、正高职称、研究生,青海省公安厅,研究方向:警务通信指挥。
标签:藏文文本论文; 自动校对论文; 系统构建论文; 青海省公安厅论文; 西宁金智电子有限公司论文;