维吾尔语语义本体辅助构建系统研究*
杨勇 任鸽
(新疆师范大学 计算机科学技术学院,新疆乌鲁木齐 830054)
摘要: 维吾尔语语义本体库在维吾尔语计算语言学研究中扮演着重要角色,在维吾尔语语义理解、词义消歧、信息检索等多项研究领域中发挥重要作用,本文利用了汉语各类语义知识库和词典,充分借鉴了其中的各类语义关系,设计了维吾尔语语义本体的构建方法,利用软件工程知识设计了维吾尔语语义本体辅助构建系统,实践结果表明,该系统可以有效地提高维吾尔语语义本体库的构建效率,加快建设维吾尔语语义本体库的建设周期。
关键词: 本体;维吾尔语语义;辅助构建
0 引言
本体(Ontology)是对共享概念的正规、明确的表述。本体始于哲学概念,90年代初被引入人工智能后,作为一种能在语义和知识层面上描述信息系统的概念模型建模工具[1]。中文的语义本体知识库的代表有HowNet(知网)[2,4],知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网作为一个知识系统,实副其名是一个网而不是树,它所着力要反映的是概念的共性和个性,以及反映概念之间和概念的属性之间的各种关系,它包含上下位关系、同义关系、反义关系、部分整体关系等16种关系,知网通过义原标注概念的含义。英语的语义本体知识库的代表是WordNet[3,5],英文WordNet是词汇学家米勒(Mill George A)以及他的研究小组于1985年着手构建开发的一部在线词典数据库系统,是基于英语的词汇语义网络系统,它以词的同义词集合表示一个基本的词汇概念,并在这些词汇概念间建立多种词汇语义关系。
图1 管理员用例图
目前,维吾尔语语义研究领域还缺乏本体知识库建设,究其原因是多方面的,其中一个很重要的原因就是缺乏本体辅助构建系统的支持,本文将研究维吾尔语语义本体的构建方法,并在此基础上设计并实现维吾尔语语义本体辅助构建系统。
处长闫石介绍,2015年至今,医院从技术和管理节能角度,开展了14个项目,他向记者重点介绍了如下三个项目。
1 维吾尔语语义本体构建过程
第一步,利用《维吾尔语同义词词典》,《维吾尔语大辞典》等维吾尔语词典获取维吾尔语同义词集合。
第二步,通过《维汉双语词典》将维吾尔语同义词集合翻译为汉语,在汉语的《同义词词林》的找到对应的分类,确定类别名称,借鉴《同义词词林》的分类体系,将维吾尔语语
义本体分为12大类,94个中类、1428个小类。
筒型基础作为一种锚泊和基础型式在海洋及港口工程中具有很大的应用价值,例如:(1)海上结构系泊系统,如单点系泊、牵引平台的牵拉、船系泊、管线的固定与牵引;(2)吸力锚;(3)牵引式沉垫平台的阻滑桩;(4)防波堤;(5)平台基础,如导管架平台和张力腿平台的基础;(6)海上风电基础,这是一种新的应用。与其他海洋基础相比,筒型基础主要利用从筒内泵出气/水产生压力差形成吸力(低于一个大气压时也称负压)下沉,具有安装简便无嗓音污染、抗倾覆承载力高、节约钢材并可重复利用等优点,有望成为今后海上风机主要基础型式之一。
第三步,在维吾尔语语义本体知识库中标注其整体-部分词语和反义词语,建立相关关系。
第一步,遍历维吾尔语语义本体知识库,获取类别名称。
对COPD患者而言,肺康复训练是一项长期的医疗过程,因此需患者具有较强的耐力和毅力。在肺康复训练中需对患者实施有效的健康宣教,这有利于后期训练,提高患者对疾病的认知度,促进患者养成良好的生活饮食习惯,提高其治疗依从性,也一定程度增强患者对治疗疾病的信心,使患者掌握正确肺康复方法并持之以恒,能避免疾病加重[9]。
维吾尔语语义本体辅助构建系统能够实现系统管理和分类管理两大模块,系统管理和分类管理均采用树形结构实现,系统管理通过用户管理、角色管理以及菜单管理,实现不同的用户可以授予不同的角色,不同的角色可以授予不同的权限,从而实现不同用户登录后的显示界面不同,这样既保护了数据的安全性,又满足了不同用户的需求。分类管理模块以《同义词词林》作为本体标注的基础,整个标注体系由大类、中类、小类、与标题词四级组成,共有十二个大类,包括人、物、时间与空间、抽象事物、特征、动作、心理活动、活动、现象与状态、关联、助语、敬语,每一词群以一最常用词为标题词(例如:Aa、01、人、人民、众人)。能够对分类的标注数据实现数据录入、数据修改、数据删除、数据导出、数据存储、数据查询以及数据的浏览等功能。在标注过程中系统要充分利用《同义词词林》、HowNet,《维吾尔语同义词词典》、《维吾尔语大词典》《维汉词典》等外部知识库资源,设计读取各类资源的功能,使用者按照第2节所描述的维吾尔语语义本体构建过程,构建维吾尔语语义本体库。下面通过用例图描述整个系统的功能,如图1,图2所示。
上述建立的维吾尔语语义本体知识库中词语只有上下位关系和反义关系,可以参照HowNet添加比较常见的整体-部分关系和反义关系,具体过程如下:
——宁波对10个网红品牌奶茶样品做检测,发现其糖和脂肪含量非常高,即使点单时选择“无糖”,糖含量也不低。针对这一结果,网友调侃道
2 需求建模
第二步,以该类别名称作为关键词搜索HowNet,获取其整体-部分词语和反义词语。
3 概要设计
图2 标注员用例图
图3 维吾尔语语义本体辅助构建系统模块图
图4 系统登录界面
图5 登录后界面
系统共分为9个模块,整体模块图如图3所示,每个模块的具体功能如下:
(1)用户管理模块: 管理员登录系统后,进入系统的主界面,可以实现对用户信息的管理,可以浏览所有用户的信息,添加新用户的信息,修改、删除已有用户的信息,并能够通过用户名进行模糊搜索,也可以通过用户角色进行精确搜索,还可以根据需要将用户信息导出到excel中。(2)角色管理模块 :管理员登录系统后,进入系统的主界面,可以实现对角色信息的管理,可以查看所有角色信息,添加新角色,修改、删除角色信息,对角色进行角色授权,赋予角色更多的权限或取消角色拥有的权限,并能够根据角色名进行模糊查询。(3)菜单管理模块:超级管理员登录系统后,进入系统的主界面,可以实现对菜单信息的管理,能够浏览所有的菜单信息,添加菜单信息,修改、删除菜单信息。(4)词典管理模块:管理员登录系统后,可以添加、删除各类机读词典,并可对词典里的数据进行添加和修改。(5)标注管理模块:管理员登录系统后,可以对语义标注体系进行管理,语义标注体系来源于《同义词词林》的分类体系。(6)语义本体管理:管理员登录系统后,可以完成对已标注语义本体的导入、导出操作。(7)维汉翻译:标注人员同过维汉翻译模块,获取要标注维吾尔语的汉语翻译,便于获取在汉语词典中的各种关系。(8)标注单词管理:标注人员利用语义本体标记对维吾尔语单词进行标注同义、上下位、整体-部分等语义关系,构建语义本体库。(9)查询词典:标注人员通过查询汉语词语在《同义词词林》,HowNet中各类词语的关系,确定相应维吾尔语词语之间的相互关系。
4 系统实现效果
系统登录效果如图4所示,登录后效果如图5所示。
5 结语
维吾尔语语义本体库在维吾尔语计算语言学研究中扮演着重要角色,在维吾尔语语义理解、词义消歧、信息检索等多项研究领域中发挥重要作用,本文借鉴《同义词词林》的分类体系,设计了维吾尔语语义本体标注体系,针对语义本体中的各种复杂关系的扩充与确定问题,采用维汉翻译的方式,获取维吾尔语对应翻译结果在HowNet中的关系来扩充维吾尔语语义本体库,为方便研究人员更有效率的构建维吾尔语语义本体库,设计了功能完善的维吾尔语语义本体辅助构建系统,极大的提高了标注人员的工作效率,未来可在建成的维吾尔语语义本体库基础上开展词义消歧义,语义理解多多方面的研究,促进维吾尔语计算语言学的发展。
参考文献
[1] 赵小兵,邱莉榕,赵铁军.多民族语言本体知识库构建技术[J].中文信息学报,2011,25(04):71-74.
[2] 孙柳.《同义词词林》的改进与应用研究[D].广西师范大学,2015.
[3] 哈斯.蒙古语名词词汇语义网的构建[D].内蒙古大学,2013.
[4] 知网[OL]http://www.keenage.com/[t1].
[5] WordNet[OL] http://wordnet.princeton.edu/.
Research on Uyghur Semantic Ontology Assistant Construction System
YANG Yong,REN Ge
(School of Computer Science ﹠ Technology, Xinjiang Normal University, Urumqi Xinjiang 830054)
Abstract: Uygur language semantic ontology library in uygur language plays an important role in the research of computational linguistics and in the uygur language semantic understanding, semantic disambiguation, information retrieval and so on many play an important role in the study area, this paper takes advantage of the Chinese semantic knowledge base and dictionary, fully absorb all kinds of semantic relations of them, designed the uygur language semantic ontology constructing method, using the software engineering knowledge to design the uygur language semantic ontology auxiliary building system, practice results show that the system can effectively improve the efficiency of uygur language semantic ontology library construction,speed up the construction of uygur language an ontology semantic construction cycle.
Key words: ontology;uygur semantics;the auxiliary building
中图分类号 :TP391.1
文献标识码: A
文章编号: 1007-9416(2019)05-0066-02
doi: 10.19695/j.cnki.cn12-1369.2019.05.34
收稿日期: 2019-04-01
★基金项目: 新疆维吾尔语自治区自然科学基金项目“基于知识自动获取的维吾尔语词义消歧研究”(2016D01A060);教育部人文社科项目“基于异构数据源的开放式维吾尔语语义知识库构建研究”(16XJJC74002);国家语委“十三五”科研规划项目“多知识库融合的维吾尔语语义资源库构建研究”(YB135-8);新疆维吾尔语自治区高校研项目“基于图数据库的危安人物知识图谱构建研究”(XJEDU2016S066)。
作者简介 :杨勇(1979—),男,汉族,陕西汉中人,博士,副教授,主要从事知识库自动构建、语义消歧工作;任鸽(1986—),女,汉族,河南兰考人,硕士,讲师,主要从事数据挖掘、自然语言处理工作。
标签:本体论文; 维吾尔语语义论文; 辅助构建论文; 新疆师范大学计算机科学技术学院论文;