通用彝文信息化输入平台的研究
王 清,王嘉梅
(云南民族大学云南省高校少数民族语言文字信息化处理工程研究中心,昆明 650504)
摘 要: 目前,滇、川、黔、桂四省(区)彝文输入法已取得较大进展,但由于彝文的编码标准和编码区间不统一,字库体量不足等原因,目前尚缺乏面向通用彝文的输入软件,且如今彝文输入系统无法输入古彝文生僻字或稀有文字,难以满足彝文古籍的出版需求。为解决Windows系统中彝文输入的通用性和易学性等,文章从字库制作、彝文编码等方面展开深入研究,并基于现有字库的整合和扩充开发通用彝文信息化输入平台,以作为彝文输入的应用示范和标准参考。
关键词: 通用彝文;输入平台;彝文编码
一 引言
彝族有历史悠久的彝文,中华人民共和国建立前都一直在使用的彝文称为“古彝文”或“老彝文”或“传统彝文”,建国后进行文字改革或规范的彝文方案称为“规范彝文”[1]。规范彝文,四川凉山州于1975年出台了一套“彝文规范试行方案”,包含819个彝文字符,1980年经国务院批准在四川彝族地区推广试行,并在凉山州取得了较好的成绩。但这套规范彝文只能使用于以凉山州为主的彝语北部方言区。为了进一步规范和统一彝文,21世纪初,全国彝文古籍协作组及其语言文字专家们共同制定了全国通用彝文方案(简称“通用彝文”)。目前,通用彝文方案正在宣传和初步推广试行阶段,但由于尚未成熟的计算机文字输入系统,在一定时期内难于全国彝族地区推广和使用。由于历史原因,较之中英文,彝文信息化输入等技术的发展还相对滞后。多年来有关专家相继对彝文输入法系统进行优化升级和重复开发,但仍然面临着字库制作和外码编码标准不统一及字库量体不足等诸多的问题,远远不能满足当前对通用彝文信息化输入的通用性和规范性要求。[2]而且通过研究发现,凉山规范彝文输入法、沙氏彝文输入法、彝文输入法之YiWin输入法、楚雄彝文笔画输入法、Vista系统的彝文输入法、美国SIL彝文输入法等,所包含的字库量仅有1000字左右,[3]其中凉山规范彝文输入法无法涵盖2500多个云南规范彝文字符,更不能用于当前彝文古籍文献的出版工作。[4]目前云南省高校少数民族语言文字信息化处理工程研究中心开发完成了一种基于信息论的、通用的(Windows操作系统及出版系统)彝文信息化输入处理平台。该平台均基于Unicode国际标准编码设计,可运行于Windows 98以上的操作系统即Windows XP、Windows7、Windows 10中,即在这些操作系统中,只需加载彝文TrueType通用字库文件和安装彝文输入法程序软件,就可实现兼容中英汉混合的切换输入,可在滇、川、黔、桂四省(区)彝族地区使用。
4.特定项目的特定风险。PPP项目的适用范围较广,每类项目均有其特定的风险。比如公路类项目的交通流量预测不准、收费标准的调整、项目成本增加、出现竞争线路等各类风险;轨道交通项目涉及不同地区和部门的合作风险、收费标准风险等;供水、电、气项目存在价格受限、非法偷用风险、施工风险等。
二 彝文信息化输入现状分析
西南民族大学沙马拉毅教授于1984年开发出世界上第一套通过省级认定的彝文输入法,命名为“沙氏彝文输入法”,是我国第一种进入计算机的少数民族语言文字。[5]除此,贵州工程应用技术学(前身为“毕节学院”)彝学研究院陈英先生主持立项的2005年国家部委项目“古彝文整理及计算机输入软件”,系民族语言文字规范标准建设及信息化项目中的子课题。据有关资料透露,当时这套彝文输入法软件筛选的是8万多个古彝文字库中的5356个常用彝文字,[6]也就是说可以基本满足学术研究和文字处理。但由于缺少一些通用和稀有彝文字,对于整理、研究和出版彝文古籍而言,仍然存在诸多问题,因而我们应在此基础上扩充古彝文生僻字、异体字等,使其更能适应信息时代对彝文信息化处理的需求。同时这套彝文输入法采用的是其他国际区位码研制的,因而彝文输入需反复切换其他输入法方能正常使用,并个别输入候选字框还需进一步优化。基于以上的研究深入,本文将进一步研究和完善彝文输入法的研制工作,并力求从字库制作标准、彝文编码标准、易学性等方面对规范通用彝文信息化输入平台的开发作出一些示范作用。
伟翔还托北京的朋友给我买了全套的《百家讲坛》,他说:“晓薇,你做家庭主妇是委屈了些,我也在托朋友给你找工作。”
三 彝文信息化输入平台所需解决的关键问题
在Windows操作系统中实现彝文输入,不但要解决技术上的难题,还要解决参照什么标准来操作的问题。本文研究通用彝文信息化输入平台制作流程以供示范,参照全国彝语术语标准化工作委员会制定的《通用规范彝文字表》为基础建立字稿数据库。首先全面收集滇、川、黔三省彝文古籍或现有的彝文电子语料作为初始字稿,通过字稿→扫描→数字化拟合→修字→质检等流程建立字库,然后进行内外码编码,“内部码”编码采用Unicode国际编码标准,并将彝文内码设定区间A000~A4FF字符扩充到8598个彝文字符,如包含云南规范彝文、凉山规范彝文、贵州彝文等字符,使用UltraEdit-32编辑器将彝文字库导出,同时进行“外部码”编码,“外部码”可采用字符笔画数或字符自由拆分的方法对彝文字符的“外部码”进行编码,并最终制作通用彝文信息化输入平台。图1是通用彝文信息化处理平台的制作流程。
图1 通用彝文信息化输入平台制作示意图
本开发的工作区分为彝文字库制作、彝文Unicode编码、形码拆分编码、编制输入软件等几个部分,经过一段时间的调试和试用,目前在Windows(98、2000、XP、7)系统上运行稳定,各项指标达到预期的要求。与其他彝文输入法不同的是,在保证易学性和稳定性的前提下,本次研究更加注重提升彝文输入的通用性,立足构建通用彝文信息处输入平台来服务滇、川、黔彝族地区。以下着重阐述本输入法研究通用彝文信息处理输入平台的优势:
(3)彝文TrueType前端显示字库是基于Unicode(ISO/IEC10646/Unicode BMP,计算机中各种文字编码统一方法,Unicode代表未来文字编码的发展趋势,以实现Unicode编码标准)国际标准编码设计的,兼容中英文输入法切换输入的特点。
(2)针对Unicode编码区扩充设置,设计Windows操作系统能默认识别的文件,将其取名为字库注册软件,在Windows系统中一旦安装上这个注册软件,系统就能自动默认Unicode编码区扩充设置,解决了系统安装信息处理平台后会出现乱码的现象。
(1)解决Unicode国际编码彝文专属区和其他一些彝文字库如Windows Vista彝语字库、方正Unicode彝文、西南民族大学Unicode彝文字库、阿才彝文字库等,仅置于四川凉山规范彝文或云南规范彝文的问题,[7]本文将字库扩充到8598个彝文,基本满足了彝文古籍整理、研究、出版的需求。
(4)采用高效便捷的笔画数或自由拆分编码的两种输入法嵌入方案(“形托”规则掌握只需10分钟),可适用于彝文笔画和非彝文拆)的用户自由选择使用,同时解决高效性和易学性的特点。
四 彝文信息化输入平台规划设计方案
(一) 彝文字选取和字库制作
本开发研究首先广泛收集整理分布于滇、川、黔可用于出版规范的彝文字表,该表共分为二级,一级表为常用字集,主要用于文化普及和基础教育;二级表用于出版印刷、彝文古籍及人名姓氏、地名使用的需要。[7]利用计算机进行字稿扫描,再利用Photoshop等软件进行图像处理、人工修饰、质量检查、组织字库、测试字库、安装使用等几个步骤,并将字表制作成电子字库印刷体(黑体),[8]结合彝文古籍资料和彝文字的结构特点,本文利用计算机软件如Photoshop CS4、Font Creator Program 4开发成了三套彝文原始图形处理后组成的彝文True文字字库及Unicode编码生成的码表,在这三个文字(字库)中,目前共收录约8598个彝文字符。其中:云南彝文4241个,四川彝文2165个,贵州彝文2192个。通过上述几个环节重复进行的步骤后,制作好的彝文字库已安装在Windows系统中,与本开发的彝文输入法共同使用,如图2所示:
图2 设置完成后的彝文字库
图2为利用FCP4软件对彝文字进行字形修改、大小设置、位置调整后的字库。
图4显示的是在HEX模式下依次编辑彝文对应的Unicode编码。将所有Unicode码全部编辑完之后,对该文档进行保存。通过对文档中的字体进行修改,文档中就可出现我们所需要的彝文字(如图5所示)。
(二) Unicode国际编码制作方案
关于内部码编码方案,即字体在计算机显示的内部编码。通常情况下,计算机都是以ASCII码作为字符表示的编码标准,一般适用于英文字符,但是针对非通用民族文字或甲骨文字符,如彝文,其编码区间的扩展就会存在不足的问题。基于Unicode国际编码标准是一种公认的国际化编码标准,由于采用16进制的编码区间,可以覆盖65536个字符编码,因而可以支持多种语言文字的字符,甚至数以万计的字母和符号显示。此外,还预留18000个末尾编码区间以供后期使用。根据编码字符集所依托的体系结构及原有规范彝文内码设定情况,如彝文区A000~A4C6内主要收录中国四川规范彝文字符,同时考虑到字库的可扩充性,本开发选用Unicode字符集来对彝文字库进行内部编码。
(三)彝文字库内码区和外码区的设定
根据现常用的汉字内部码设计方案,一个汉字内部码由两个或两个以上的八位字符构成,一个彝文字按照两个八位字符计算,如表1所示。[9]根据国际编码区间的分配标准,除了拼音汉字、韩文等有预定义的本位或扩充编码区间,还预留了额外区间。本开发将8598个彝文字符统一放置于用户自造字编码区(E000……F8FF)内,但我们选取“E900-F8FF”区间作为彝文字符的编码范围。
炎性细胞因子IL-8对慢性鼻-鼻窦炎伴鼻息肉患者术后复发的预测价值初步探讨(吕立辉 康洪涛 王春河)2∶93
表1 Unicode编码区间分配表
本开发用Font Creator Program 4—FCP4软件实现彝文字符同编码区间Unicode码的一一映射,保证每一个彝文都有唯一对应的编码,这样就不会出现文字重叠的现象,从而实现了彝文输入法同其他输入法自由切换使用的目的(如图3所示)。
图3 彝文字符同Unicode编码的映射关系设置
至此,彝文内外码的映射关系已经建立,每一个彝文都有了相应的Unicode编码,下一步就是选择一种合适的编码方案,来对每一个彝文进行外码的编辑和设定,从而实现内外码的连接。
(四)内码区编码的字符转换
在彝文同Unicode编码进行一一对应设置之后,需将设置好内码的所有彝文导出到文本文档之中,这就需要使用UltraEdit-32软件对内码再进行一次编辑,然后再根据自由编码规则方案对每一个彝文进行外码的编码。
首先,新建文本文档,将其格式保存为Unicode格式。然后用UltraEdit-32软件打开该文档,并将界面切换到HEX模式。在该模式下,从光标处开始输入彝文字符的第一个文字对应的十六进制编码。值得注意的是,在输入编码时需要将编码的前后两位进行一次调换,如“”字对应的Unicode编码是“E900”,则在UltraEdit-32的HEX模式下,应输入“00E9”(如图4所示)。
关于旌义坊主人,据蒲塘村《徐氏宗谱》记载,蒲塘徐氏第十四代在元代第一次分房,形成了玉、莹、良、方四大房,第十七代在明代永乐年间第二次分房,各大房均分出小房,但只有方房分出的孺一公、孺二公、孺三公、孺四公四小房发展的规模较大,从此蒲塘徐氏七房分立,其中孺一公就是旌义坊徐积善的父亲。
图4 UltraEdit中彝文字符编辑的Unicode码
3.2.4 林木管护工作建设 秦安县将凤山景区延伸段一期工程区域划定为县直机关义务植树责任区,各单位组织职工对各自的责任区进行补植、除草、浇水等工作,在明确职责的同时,也调动了全社会参与造林绿化的积极性,为造林绿化工作营造了浓厚的舆论氛围。严格按照“属地管理”的原则,17个镇负责对各自辖区内的林木和行道树进行全面管护,确定镇、村、组管护人员,明确管护责任,确保每个造林区域和地段有人管、有人护。各镇在林业部门技术人员的指导下,根据土壤墒情变化,及时浇水,并对树盘全部进行覆膜保墒、树干涂白,确保了新造林的成活率和林木的保存率。
图5 Unicode格式的文档中的彝文
从图3中可以看出,第一个彝文的Unicode码从E900开始,即按所规定的彝文编码E900-F8FF区间。
五 数字编码方案
(一)外码区编码的键盘输入
现有的彝文“外部码”多采用国际音标形式的编码方式,但却存在很大的局限。也就是这种编码设计方案虽然普遍,但对非彝文用户来说并不好使用,熟悉和掌握一种民族语言的发音标准,这本身就有很大的困难,难以满足彝文输入法通用性和易学性的基本要求。
图6 彝文字输入计算机过程
键盘输入,顾名思义就是采用键盘上字符编码键入文字的一种方式。如汉字在计算机系统内是以“内部码”形式的字库存储,用户按照键盘的编码规则,采用汉字一一对应的唯一“外部码”来查找字库中的文字,从而实现“内部码”存储到“外部码”显示的过程。如我们通常所说的五笔、拼音输入法,都是以外部码的编码方式来命名的。
目前,计算机系统的文字信息化主要以键盘或非键盘的输入为主,或以自然输入和编码输入作为区分。如文字、手写识别是最理想的自然输入形式,也有一些语音识别进入使用阶段,要真正达到普及还尚需时日。因此,本开发采用目前技术成熟且输入较为便利的键盘输入法作为首选方案图图6所示):
基于以上原因,我们创新地设计了字体自由拆分形似编码方案,无论是否熟知彝文,或是首次使用,只要辨识彝文字体形态都可以方便地键入彝文。这种独特的编码方案得到了部分专家的认可,因为它是结合彝文字形特点及书写规范所创建的一种数字建编码方案和自由拆分编码方案,并构成了独创的具有两套键入方式的通用彝文信息化输入平台。
幼儿是充满求知欲的。家长是孩子的第一任老师,应加强自身的思想品德、文化修养,努力学习幼儿教育的专门知识,加强与幼儿教师的沟通与交流,使幼儿受到全方位、多渠道的熏陶与培养,使家庭教育从知识上适应时代的要求。因此,家庭教育取得成效的首要条件是提高父母的家庭教育水平。父母可以通过参加家长学校,家庭教育咨询及利用广播、电视、报刊等途径提高自己的家庭教育水平,不断加强新知识的补充,努力捕捉幼儿的闪光点,保证幼儿健康成长。
(2)自由拆分模型编码的性质。相似性;大小写统一行;平面反转性。
(二)自由编码方案
对于数字编码方案,可能同一文字在用户的辨识中出现多类笔画编码方式,一般10~15左右,这会过多地增加文字候选字数,降低输入法的精确性。因而我们采用了自由拆分编码方案。其中自由拆分模式指在键入彝文的过程中,我们根据“形托”规则(即文字部首和英文字母的相似性)对彝文进行外部编码。即使彝文拆分的部首可能对应多个英文字母,但通过统计发现,这种误差一般会增加四至五种编码可能,而少量“误差编码”可能就为输入候选框的候选文字提供了可能,这反而增加了彝文在输入方式上的灵活性。
Analysis on the Education Reform Approaches of “Growing-up Adult” in Higher Vocational Colleges——A Case Study of Hebei Tourism Vocational College________________________________LIU Zhanming,XU Xinguo et al 89
具体地说,本开发所采用基于自由拆分编码,是根据彝文字形与26个英文字母的相似性对彝文进行自由拆分,有的彝文在拆分过程中可能与多个英文字母相似,因此在编码过程中要尽可能地对所有情况进行编码。同时,这套编码规则在拆分时要注意:在对文字字形拆分时,尽量不使用彝文字根;可以使用不定长码长进行拆分,最大限度地减少平均码长,实现码长与码重的均衡。在编码过程中,自由拆分编码规则所遵从的特性,如表2所示:
表2 自由拆分编码规则的特性表
(1)自由拆分编码规则。只要是一笔写成,不论它是什么方向,都按照一笔算,即为最小拆分首部,如果有棱角都按照两笔计算;把拆分的最小首部用与其相似的英文字母表示;英文字母没有大小写之分,统一用小写字母表示。
彝文符号体系跟汉字区别很大,尽管其使用频率和规范程度远远不及汉文,但彝文作为一种表意文字,又有其独特的字形结构。对于数字键编码方案来说,主要还是依据几点:首先彝文字形形态相对比较简单,一般是三至四的笔画居多;其次彝文是由上向下、从左至右的流线型书写结构;最后彝文线体倾向于笔画的流畅、弧线的优美。因而根据彝文字体笔画进行外码的编辑,可实现基于数字建编码的方案。
(3)特殊彝文编码规则。彝文字形复杂,如的自由编码为ooiiii,码长为6,为了尽可能的减少码长。其规定:把“/”“\”“1”“-”及封闭区间且不相连接的,按照笔画算。ooiiii写成oo4,码长为3,明显减少为原来的一半。
六 编制彝文输入法软件
(一)采用Windows挂钩机制方式切换输入法
使用Windows操作系统提供的支持多国语的功能,将给标准彝文和中文的混合处理带来很大的便利。[11]我们唯一要做的是,先分析标准彝文字体的区位安排,制作标准彝文字体库,监视键盘消息,实现标准彝文输入功能。这种方式便于在输入指令传达之前将其截获,并通过键盘/鼠标等外接设备将指令转化为具体的彝文字符,然后传递到键入界面。利用挂钩的机制有点可作用于所有应用窗口,有很强的的通用性,[10]可便于多种输入法并存。
李白对唐玄宗既心存他分清忠奸贤愚,再次召征自己的幻想,同时又感到无望,于是进入一个幻想世界,幻境中依然是冰塞雪封、阻隔重重,作者借吕尚和伊尹的典故表白理想:无意于固位争宠,一旦建功立业后,便功成身退,乘舟泛海而去。
(二)采用Windows输入法管理器实现输入法
采用Windows通用技术IME接口,编程实现彝文输入法打包程序。[11]IME接口可便于开发工作者将输入法添加到系统中。同时基于本接口,Windows还为开发者提供了输入法编程管理器,便于将编码文本和配置参数转换为输入法打包程序,配合本地的彝文字库,并可实现彝文输入法安装。
在开发过程中,本开发设计了二套全新的基于彝文字符特点来编码的彝文信息化输入平台,如图7和图8所示:
图7 彝文数字编码拆分信息化输入平台界面
图8 彝文自由拆分编码信息化输入平台界面
图7和图8分别为彝文数字编码拆分和自由拆分编码信息化输入平台的实现效果图。该平台最大特点是输入的快捷性、易学性以及灵活性的特点,而且在输入中可快速切换到中文英输入法,因此该平台较之其他彝文输入系统兼具更强的可行性和实用性的特点。这对彝汉文献的双语编排印刷、彝族地区彝汉双语文标牌制作、彝汉智能翻译工作具有更加广泛的应用价值。
七 总结
由于彝族语言文字的特殊性,各地区在彝文字符的发音上还存在差异,而且同一彝文字在云南东部方言、南部方言、北部方言、东南部方言的书写形态上可能有所演化,传统的基于国际音标编码标准输入法,虽形态多样,但不能实现通用性和易学性的特点。因而考虑到彝文输入是彝文古籍信息化的基础性工作,本开发从字库制作标准、彝文编码标准等方面对规范通用彝文信息化输入平台的开发和标准起到了一定示范作用,同时也希望开发工作者能够为其他少数语言象形文字如纳西族东巴文的信息化输入提供建议和参考。
随着防洪工程施工难度系数的增长,工程施工所需要花费的成本越高。当防洪工程施工难度系数为1时,传统的防洪工程施工所需要花费的成本为8万元,本文防洪工程施工所需要花费的成本为4万元;当防洪工程施工难度系数为3时,传统的防洪工程施工所需要花费的成本为13万元,本文防洪工程施工所需要花费的成本为8万元;当防洪工程施工难度系数为5时,传统的防洪工程施工所需要花费的成本为18万元,本文防洪工程施工所需要花费的成本为12万元;当防洪工程施工难度系数为7时,传统的防洪工程施工所需要花费的成本为29万元,本文防洪工程施工所需要花费的成本为14万元,如图3。
目前通用彝文信息化输入平台已整合开发完成,并提供给课题合作单位云南红河州民族研究所试用,并共同编订了《彝文数字信息化处理平台手册》以供参考使用。云南民族出版社试用了二种数字化信息处理平台,同样给予了较高评价。
参考文献:
[1]马海布吉. 彝语北部方言所地土语语音和词汇研究[D].广州:暨南大学,2015.
[2]胡刚,王嘉梅,等.基于Windows平台的滇南彝文输入法实现[J].计算机系统应用,2015,24(12):34-43.
[3]李昀姗,王嘉梅,郑晟.云南规范彝文字库设计及其字符集编码研究[J].电子科技,2011,24(05):97-101.
[4]朱文旭.漫谈全国彝文规范问题[J].百色学院学报,2016,29(01):94-99.
[5]沙马拉毅.计算机彝文信息处理研究述论[J].西南民族学院学报(哲学社会科学版),2002(04):6-9,252.
[6]岳振,罗光华.毕节文化建设亮点扫描[J].当代贵州,2013(16):56-57.
[7]吴勰,禄玉萍,王明贵.论贵州古彝文编码字符集构建[J].中文信息学报,2014(04)).
[8]导夫.基于方正书版(Founder BookMaker9.X/10.X)的西夏文字处理技术研究[J].宁夏大学学报(人文社会科学版),2005(02):89-94
[9]吴勰,印金成.贵州彝文信息技术研究概述[J].中国信息化,2017(08):63-65.
[10]张瑞. 基于CJK统一汉字扩充B的输入法研究[D].呼和浩特:内蒙古大学,2009.
[11]陈建东. 基于Unicode的八思巴文信息处理的研究[D].呼和浩特:内蒙古大学,2008.
Research on Informationzation-input Platform of Universal Yi Language
WANG Qing,WANG Jia-mei
(Yunnan Minority Language Information Processing Engineering Research Center, Yunnan Minzu University,Kunming 650504, China)
Abstract: At present, the Yi-language input method in Yunnan, Guizhou and other provinces has made great progress. However, due to the inconsistent coding standards and coding intervals of Yi language and the lack of Yi-language fonts, there is still a lack of input software for universal Yi language in China. Moreover, these existing Yi-language input systems cannot cover most of the uncommon or rare texts, and can not meet the publishing needs of daily ancient books. In order to solve the problems of universality and easiness of Yi-language input in Windows system, this paper has carried out in-depth research from several aspects such as font production and Yi coding, and develops a informationzation-input platform of universal Yi-language based on the integration and expansion of existing fonts, which can be used as an application demonstration and standard reference for Yi-language input.
Key words: Universal Yi language; Input platform; Yi-language coding
中图分类号: TP391.1;H217
文献标识码: A
文章编号: 1008-9128(2019)04-0047-05
DOI: 10.13963/j.cnki.hhuxb.2019.04.011
收稿日期: 2019-03-02
基金项目: 国家语委科研基金委托项目:少数民族语言文化信息元表示及抽取方法研究(WT125-61);云南省教育厅科学研究基金:彝汉双语的语料对齐及词典构建方法研究(2019Y0223)
第一作者: 王清(1995—),女(彝族),云南大理人,硕士生,研究方向:民族语言与文化研究。
通讯作者: 王嘉梅(1966—),女(彝族),云南昆明人,教授,研究方向:跨境少数民族语言信息处理。
[责任编辑 龙倮贵]
标签:通用彝文论文; 输入平台论文; 彝文编码论文; 云南民族大学云南省高校少数民族语言文字信息化处理工程研究中心论文;