老挝政治外交领域本体术语集构建研究论文

老挝政治外交领域本体术语集构建研究

何阳宇 易绵竹 李宏欣

(解放军战略支援部队信息工程大学,河南洛阳 471003)

摘 要: 政治外交领域本体术语的获取是构建相关领域本体的关键,也是进行信息抽取、信息检索的重要组成部分。文章首先利用现有资源构建了基础术语集,然后利用Word2Vec的新词推荐功能在此基础上进行扩展,最后以融合知网和同义词词林的方法进行词语语义相似度计算,筛选出合格的本体术语构建扩展术语集。由此建立起老挝政治外交领域本体术语集。

关键词: 老挝;政治外交;本体术语;信息检索;信息抽取

引 言

老挝作为东南亚唯一的内陆国家[1],北邻中国,南接柬埔寨,东临越南,西北达缅甸,西南毗连泰国,素有“东南亚十字路口”之称,地理位置十分重要[2]。近年来,老挝积极响应“一带一路”倡议,在多个领域与中国进行了广泛的合作。但目前中国还未对老挝有较为全面的认识,对其政治经济制度、国内产业格局、民族、文化、宗教、风土人情等的了解还远达不到需求[3]。为了及时准确地了解老挝动态,为国家战略和政策提供重要参考,有必要加强信息基础资源的建设。随着信息时代的到来,如何使网上的海量数据形成一个互相关联的网络显得尤为重要。基于本体知识库的信息抽取和检索可以有效解决这个问题,而本体术语抽取是本体构建的首要工作,对本体学习以及基于本体的应用技术的发展具有重要意义[4]

本体术语的获取途径可大致分为基于规则、基于知识库、基于统计以及多策略融合的方法。雅克曼(Christian Jacquemin)[5]提出了一个描述多词术语的形态、句法和语义变化的双层模型,用于医学和农业领域的术语标准化。张桂平等[6]基于HowNet构建了面向航天领域的术语语义知识库。韦小丽等[7]采用基于最大熵模型的方法来获取概念,通过对领域文本进行挖掘而得到名词性短语,使用改进的TF-IDF公式从中抽取具有领域性的短语,并经人工修正后得到本体概念。杜波等[8]设计了一个将统计方法与规则方法相结合的专业领域内术语抽取算法。总的来说,基于规则的方法准确率高,操作简单,能够有效提取低频术语,但是语言学规则制定难度大,耗时耗力;基于知识库的方法无需语料库进行训练,易于理解,但知识库的建设很大程度上依赖于人的主观判断和知识结构;基于统计的方法效率高、可移植性较好,但计算量大,效果取决于语料库的规模和质量,同时针对低频术语的效果较差。以上方法各有优缺点,因此多策略融合的方法是目前术语获取的最佳途径。

本文构建的术语集主要包括两大部分:基础术语集和扩展术语集。首先,通过各种渠道对现有术语资源进行收集整理,然后利用CiteSpace从相关文献中提取领域术语,进而合并为基础术语集。接下来,以基础术语集作为种子术语,以Word2Vec、知网和同义词词林作为统计模型和知识库,利用融合的词语语义相似度计算方法进行术语拓展,形成扩展术语集。最终,两部分术语集组合成为老挝政治外交领域本体术语集。

一 老挝政治外交领域基础术语集的构建

(一)基础术语集简介

老挝政治外交领域基础术语集的来源可大致分为两类:现有术语资源和相关文献。现有术语资源主要包括专业词典、相关论著、权威网站等,相关文献主要是国内关于老挝政治外交的硕士与博士论文、期刊论文等。这一术语集是后续扩展术语集的基础,对整个术语集的构建起着至关重要的作用。具体流程如图1所示。

(二)现有术语资源的收集整理

现有术语资源中的词典主要采用《老挝语汉语词典》[9]和《老挝语汉语·汉语老挝语简明外交词典》[10],前者是目前涵盖范围最广的老挝语汉语综合词典,共收6万多词条,包括古今语言、文学、宗教和各门科学用语,根据本文目的,取其中与政治外交相关部分;后者是一部外交领域的专门词典,共收词1.5万余条,内容包括外交、时政、宗教、人权、法律、科技、历史、军事、安全等各方面在外事工作中经常涉及的词汇。其他现有资源来自相关纸质、电子版著作以及权威网站,著作主要包括:《解决老挝问题的扩大的日内瓦会议文件汇编》[11]《老挝和老挝人民反对美国新殖民主义的胜利斗争》[12]《老挝战后大事记》[13]《中国古籍中有关老挝资料汇编》[14]《列国志·老挝》[15]《老挝》[16]《老挝概论》[1]《老挝:在革新中腾飞》[17]《新世纪以来GMS五国国情的演进:转型与发展研究》[18]《世界主要政党规章制度文献:越南、老挝、朝鲜、古巴》[19]《老挝史》[20]《老挝与“一带一路”》[21]《美国对老挝政策研究(1955—1963)》[22]等,权威网站包括:维基百科[23]、百度百科[24]、人民网[25]、中华人民共和国外交部[26]、中华人民共和国驻老挝人民民主共和国大使馆[27]等。

图1 基础术语集构建流程图

通过对上述资料进行整理及人工筛选,得到老挝政治外交领域术语672个,其中将老挝人民革命党和老挝政府各组织机构及主要领导人、老挝重要的历史事件和人物、东盟各组织机构等作为重点进行收集和整理。筛选标准为:(1)具有领域代表性;(2)得到较为权威的认证;(3)尽量遵循单义性、准确性和简明性;(4)涵盖广泛,全称、简称、别称等均应收录。其中根据实际情况,对部分术语进行了修正和更新,如涉及组织机构调整改革的,为保证术语信息的完整性以及保证后续信息检索和信息抽取的准确性,对新旧组织机构名都予以保留。

(三)基于相关文献的术语提取

本小节主要利用CiteSpace对中国知网(CNKI)中老挝政治外交领域相关文献进行可视化分析。CiteSpace最早见于2004年美国德雷塞尔大学(Drexel University)陈超美发表的Searching for Intellectual Turning Points :Progressive Knowledge Domain Visualization [28],这是一款主要用于计量和分析科技文献数据的信息可视化软件,可以用来绘制科学和技术领域发展的知识图谱,直观地展现科技知识领域的信息全景,识别某一科技领域中的关键文献、研究热点和前沿方向,在实际应用中既科学有效又简单易用,且具有丰富美观的可视化效果,在国内外信息科学领域得到了广泛的应用[29]

2013年, 米科洛夫(Tomas Mikolov)等人提出了Word2Vec,可用于词向量计算,它可以在大规模数据集上进行高效训练,得到训练结果——词向量(word embedding),由此度量词语之间的相似度。Word2Vec是一个浅层神经网络,主要包括CBOW(continuous bag-of-words model)(如图5)和Skip-gram(如图6)两大架构模型,这两种模型实际上是互为镜像的,CBOW根据上下文预测当前单词,而Skip-gram根据给定单词预测上下文。另外,还包括层次softmax算法、负采样(negative sampling)算法以及欠采样(sub-sampling)技术等[31]

图2 文献分析过程示例图

(四)小结

本节主要通过两个渠道构建基础术语集,其中对现有术语的收集整理主要依靠人工筛选,对老挝重要政治外交人物、政治外交事件、主要组织机构及其他相关政治外交术语做了总结和统计,获得术语672个;利用CiteSpace对CNKI相关文献进行可视化分析,获得术语861个。通过对这些术语进行领域性分析、删除重复项等操作,共获取政治外交术语1332个。

经分析可知,蜀冈-瘦西湖风景名胜区海外游客以中青年为主.中年人观赏古典园林、人文景观的消费娱乐观点和青年人观赏自然风光、品尝特色美食的消费娱乐观点与景区旅游资源吻合,他们成为此地游客的主体.

在2018年,普通人感到自己越来越无关紧要。在TED演讲、政府智库和高科技会议中,人们兴奋传播许多神秘的术语(全球化、区块链、基因工程、人工智能、机器学习),普通人无论男女,都会认为这些术语与他们无关。

二 老挝政治外交领域扩展术语集的构建

扩展术语集的构建主要以上述构建的基础术语集为种子术语,利用Word2Vec的相似词推荐功能进行新词推荐,然后利用融合知网、同义词词林的词语相似度计算方法对推荐的新词进行相似度计算,最后根据实际情况设定阈值进行筛选。具体流程如图3所示。

图3 扩展术语集构建流程图

(一)基于Word2Vec的新词推荐

1.Word2Vec简介

(2)改进的基于同义词词林的词语相似度计算

在CNKI的高级检索功能中,将领域主题限定为政治或外交,将检索范围设定为老挝,由于关于老挝的文献数量较少,所以在检索老挝相关文献时采取穷尽搜索的办法,得到2834条结果(检索时间跨度为1979年1月1日—2018年8月10日)。利用CiteSpace对上述文献进行分析,如图2所示。在图2操作的基础上,对结果进行可视化处理,得到按词频排序的相关术语861个。

髋膝关节置换是迄今为止最成功的外科手术之一[1,2],而随着关节置换数量的剧增,作为其术后常见并发症之一的假体周围感染(periprosthetic joint in⁃fection,PJI)也引起了人们的持续关注。PJI发生率约0.5%~2%,但却是关节置换术后灾难性并发症。因PJI而行髋关节翻修的比例为14.8%,而在膝关节更高达 25.2%[1,3,4]。PJI的发生往往意味着关节置换术的失败,严重影响患者日常生活及身心健康,加重个人和社会负担,是患者、医生及社会需共同面对的关节置换难题之一。

图4 神经网络语言模型

图5 CBOW模型

2.语料收集及预处理

2.1 川木瓜醇提取物对3T3-L1前脂肪细胞活力的影响 与空白组比较,川木瓜醇提取物能显著降低3T3-L1前脂肪细胞的活力,且随着剂量的增加,作用更为明显,川木瓜醇提取物浓度为25.0 ng/L时,细胞活力为空白组的85.1%;200.0 ng/L时,细胞活力仅为空白组的41.8%,差异均有统计学意义(P<0.01),见表1。

本文采用八爪鱼网页数据采集器进行网络爬虫操作,爬取网站主要包括百度[32]、人民网、新华网[33]、中华人民共和国外交部、中国国际广播电台国际在线网[34]以及知名公众号CRI悦生活、老挝快讯、老挝要闻、老挝那些事儿等。将采集到的数据进行过滤处理,去除图片、标签、未知符号等无效数据,然后利用AnsjSeg[35]对语料进行分词处理,最后以txt的格式进行保存。

本文采用朱新华等人提出的综合知网和同义词词林的词语相似度计算方法,知网部分根据义原层次结构的特征,采用了一定的边权重策略,改进了现有的基于知网的相似度算法;词林部分采用以词语距离为主要因素、分支节点数和分支间隔为微调节参数的方法,改进了现有的词林词语相似度算法。然后再根据词语的分布情况,采用综合考虑知网与同义词词林的动态加权策略计算出最终的词语语义相似度。该方法充分利用了词语在知网与词林中的语义信息,极大地扩充了可计算词语的范围,同时也提高了词语相似度计算的准确率[39]

图6 Skip-gram模型

《同义词词林》是梅家驹等人于1983年编纂而成的,与WordNet的格式有类似之处,即都是用一个同义词集合来表示一个概念。后来哈尔滨工业大学信息检索实验室在此基础上做了改进,即《同义词词林扩展版》。该扩展版剔除了原版中大量的罕用词,最终的词表包含77 492条词语,其中一词多义的词语为8860个,共分为12个大类,94个中类,1428个小类,小类下再以同义原则划分词群,最细的级别为原子词群[38],由此形成了5层树状结构,如图8。每一层都有相应的编码符号对应,通过编码,可以精确定位每一个节点,词语编码如表3所示。

CBOW和Skip-gram两个模型都可用来生成词的分布式表示,CBOW训练效率更高,速度更快,Skip-gram虽然计算量较大,但训练质量更高,尤其针对低频词的效果更优,Mikolov等[31]的实验结果也印证了这一点。 因此,本研究采用Skip-gram模型。在Word2Vec的训练过程中,需要设置一些参数,以保证训练质量和速度[36]。主要参数如表1所示。

表 1 Word2Vec参数设置表

参数设置完毕后,将预处理完成的数据作为输入,便可完成Word2Vec的训练工作。然后利用训练好的模型对种子术语进行新词推荐,经实验比较,当推荐数量设置为50以上时,就会产生较多冗余词语,而设置为10以下又可能导致重要词语遗漏。综合考虑,将推荐阈值设定为20,由此建立新词术语集。

(二)融合知网和同义词词林的词语语义相似度计算

s =λ 1s 12s 2

定理2[11] 在中,算子是关于内积〈·,·〉的伴随算子,A*是A关于内积〈·,·〉在Cn的伴随算子.这里线性算子与分别被定义为

知网创建于1988年,主要是描述概念及其属性间的网状关系。创建者董振东将哲学思想贯穿于知网构建的全过程,认为世界上一切事物都在一定的时间和空间内不停地运动和变化,而且通常是从一种状态变化到另一种状态,并一般由其属性值的改变来体现。知网将高层概念分为N、V、A三大范畴,这三大范畴又包括若干子范畴,具体如表2所示。为了便于理解,其中N相当于名词,V相当于动词和部分形容词,A相当于形容词和副词,但这只是帮助认知,实际不能如此对应。

表2 知网概念分类表

知网作为一个常识知识库,它重点刻画的是概念的共性和个性,此外概念以及属性间的各种关系也属于其描述范围,知网的全部主要文件构成了一个有机结合的知识系统[37]。概念关系示例如图7。

3.模型训练

图7 概念关系示例图

图8 同义词词林扩展版树状结构图

2.融合知网、同义词词林的词语相似度计算

(2)皮带运输系统。其中进煤皮带3条(高空皮带1部,斜巷大倾角皮带1部),中煤皮带1部,矸石皮带2部,精煤皮带1部,共计7部皮带。精煤转载皮带由原煤场筛分3#皮带延伸共用。

表 3同义词词林词语编码表

(1)改进的基于知网的词语相似度计算

该方法将词语相似度计算转换为对词语义项语义表达式(DEF)的相似度计算,而义项的相似度计算又可转化成综合独立义原集合、关系义原特征结构与关系符号义原特征结构的相似度计算,分别表示为sim 1(C 1,C 2)、sim 2(C 1,C 2)、sim 3(C 1,C 2),这三项相似度因重要程度不同,所占权重也不同,其中sim 1(C 1,C 2)占大部分比重。考虑到部分词语有多个义项,两个词语的最终相似度取所有义项组合中相似度最大的值为有效值。最终得到公式①:

2003年,本希奥(Yoshua Bengio)等[30]提出了一套用神经网络建立统计语言模型的框架(neural network language model),如图4所示,这为Word2Vec等后续研究奠定了基础。

刚到太平路小学的时候,我被安排到三年级语数包班。我的心理素质比较好,尤其是讲课的时候,从容沉稳,而且特别不怕领导和同事听课。慢慢地,领导和同事都觉得我是上公开课的材料。

同义词词林的整体构造是一个五层树形结构,因此两个词语在词林树中的连接路径是影响词语相似度的主要因素。词林的第一层是大类,朱新华等将不属于同一个大类的词语间的距离都处理为18,同时按照低层到高层的顺序,赋予层际连接边越来越低的权重W i (1≤i ≤4),且满足:0.5≤W 1≤W 2≤W 3≤W 4≤5,W 1+W 2+W 3+W 4≤10,由此提出了一个以词语距离d为主要影响因素,分支节点数n 和分支间隔k 为调节参数的同义词词林词语相似度计算公式②:

式中,dis (C 1,C 2)是词语编码C 1和C 2在树状结构中的距离函数,等于词语对的连接路径中各边的权重之和,可取值2×W 1、2×(W 1+W 2)、2×(W 1+W 2+W 3)、2×(W 1+W 2+W 3+W 4)。n 和k 的表达式作为e 的负指数,并对其开平方,以此降低公式对n 和k 这两个参数的敏感度,避免出现修正幅度过大的现象。

(3)知网、词林加权融合计算方法

综合考虑知网和词林的词语相似度计算的总体思想为:对于任意两个词语W 1和W 2,按照上述策略分别计算出它们基于知网及词林的相似度,记作s 1和s 2,然后根据它们在图9中的分布情况,为这两个相似度分别赋予权重λ1和λ2,且满足:λ12=1,最后按照公式③计算出综合知网和词林的词语语义相似度:

1.知网、同义词词林简介

根据给定的质量表(如技术通知、燃烧室装配检验表等)和节点关联关系,在数据世系模型中查找给定质量表的详细信息{(q,(Exc,TExc)),}。若q∈UnProcessQualityTable,则仅给出其文档格式;若q∈ProcessQualityTable,则除文档格式外,还可根据其包含的QualityItem与Procedure,ProcedureTask的关联关系显示对应工序任务的信息。

因为知网和词林属于两套不同的知识库,因此势必会出现涵盖范围不尽相同的情况。大致会出现以下情况:知网特有的词语、词林特有的词语、两者共有的词语以及两者都未包括的词语。图9中,I 表示所有词语构成的全集,A 表示知网涵盖的词语集,B 表示词林涵盖的词语集,C 表示两者的交集。

图9 词语分布图

下面以“老挝人民革命党”为例展示融合策略词语相似度计算,见表4。

中国学生回到家里,家长都问:“你今天学到了什么新知识?”据说犹太学生回到家里,家长却问:“你今天问了什么问题?”前者的落脚点是“学知识”,后者的侧重点是“提问题”。如此不同。

表 4词语相似度计算示例表——“老挝人民革命党”

通过对所有推荐的新词进行相似度计算,观察发现大部分正确新词的相似值位于0.6以上,因此本文将正确术语的相似值阈值设置为0.6,以此方法可将大部分符合要求的新词术语筛选出来,然后再人工检验,得到扩展术语2430个,经过领域性分析和去除重复项等操作,最终共计获得2281个术语。

(三)小结

本部分主要利用Word2Vec在基础术语集的基础上进行新词推荐,然后借助知网和词林在中文词语概念上的强大描述能力和可计算化,对推荐的新词进行了相似词计算和筛选,最终得到了2281个术语,由此构建了扩展术语集。

三 结论及展望

本文利用CiteSpace、Word2Vec、知网、词林等尝试构建了老挝政治外交领域本体术语集,包括基础术语集和扩展术语集,共计3613个术语。本体术语的获取是建立领域本体的关键,是国家基础信息资源的重要组成部分,是实现政治外交领域信息化必不可少的工作。随着“一带一路”倡议的深入开展,中国和老挝之间的政治外交往来日益频繁,要想及时、准确地把握最新政治外交动态,制定相应的政策、措施,为国家发展助力,就必须加强信息抽取能力,而领域本体术语是提高该能力的“钥匙”。

WANG Xiaoli, GUO Jungang, MA Chi, et al. Study on the gemological characteristics of an illite-imitated Dushan jade[J]. Conservation and utilization of mineral resources, 2018(6):70-72, 76.

本研究仍有很多不足之处,在本体术语集构建的“深度”和“广度”上还有待进一步加强。由于老挝相关文献较少,词典等现有资源也较为匮乏,这在一定程度上制约了领域本体术语的收集。此外,本文只针对中文术语进行了获取,如果用于信息抽取等实际任务中,可能会漏掉重要的英文和老挝文文本。因此,在今后的工作中可以进一步细化概念分析框架,扩充更多的文献资源,并将术语获取拓展到英文和老挝文。同时,可以尝试其他模型和算法,取长补短,争取达到更优的效果。

如果我完成注册,我的个人信息就被这个品牌所掌握。我不知道他们为什么需要我的这些信息,他们获得了这些信息之后又会干些什么?但他们愿意以两折的优惠获取这些信息,不会平白无故。这些未知因素和不确定性,让我感到可能有潜伏的风险。按照我的理解,我与这个品牌的关系非常简单:他们生产符合我需求的产品,我付钱获取他们的服务,如此而已。

注释

① 第8位的标记有3种,分别是“=”“#”“@”。 “=”代表“相等”“同义”; “#”代表“不等”“同类”,属于相关词语; “@”代表“自我封闭”“独立”,它在词典中既没有同义词,也没有相关词。

参考文献

[1] 郝勇,黄勇,覃海伦.老挝概论[M].广州:世界图书出版广东有限公司,2012.

[2] 何阳宇.论“一带一路”与老挝社会经济的发展[J].语文学刊,2016(1):87-89.

[3] 康生.“一带一路”战略下中老关系问题研究[D].长春:吉林大学硕士学位论文,2017.

[4] 汤青,吕学强,李卓,等.领域本体术语抽取研究[J].现代图书情报技术,2014,30(1):43-50.

[5] Jacquemin C.Syntagmatic and paradigmatic representations of term variation[C]//Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics:Association for Computational Linguistics,1999:341-348.

[6] 张桂平,刁丽娜,王裴岩.基于HowNet的航空术语语义知识库的构建[J].中文信息学报,2014,28(5):92-101.

[7] 韦小丽,孙涌,张书奎,等.基于最大熵模型的本体概念获取方法[J].计算机工程,2009,35(24):114-116.

[8] 杜波,田怀凤,王立,等.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160.

[9] 黄冰.老挝语汉语词典[M].尚未正式出版.

[10] 程琳.老挝语汉语·汉语老挝语简明外交词典[M].北京:军事谊文出版社,2013.

[11] 世界知识出版社.解决老挝问题的扩大的日内瓦会议文件汇编[G].北京:世界知识出版社,1962.

[12] 冯维希.老挝和老挝人民反对美国新殖民主义的胜利斗争[M].北京:人民出版社,1974.

[13] 秦钦峙.老挝战后大事记[M].昆明:云南省社会科学院东南亚研究所,1985.

[14] 景振国.中国古籍中有关老挝资料汇编[M].郑州:中州古籍出版社,1985.

[15] 马树洪,方芸.列国志·老挝[M].北京:社会科学文献出版社,2004.

[16] 蔡文欉.老挝[M].北京:世界知识出版社,2008.

[17] 柴尚金.老挝:在革新中腾飞[M].北京:社会科学文献出版社,2015.

[18] 王士录,赵姝岚,李秋瑾.新世纪以来GMS五国国情的演进:转型与发展研究[M].北京:中国社会科学出版社,2015.

[19] 许宝友.世界主要政党规章制度文献:越南、老挝、朝鲜、古巴[M].北京:中央编译出版社,2016.

[20] 埃文斯.老挝史[M].郭继光,刘刚,王莹,译.上海:东方出版中心,2016.

[21] 张海冰,周太东.老挝与“一带一路”[M].北京:时事出版社,2017.

[22] 温荣刚.美国对老挝政策研究(1955—1963)[M].北京:中国社会科学出版社,2018.

[23] 维基百科[DB/OL]. [2018-07-20].https://zh.wikipedia.org.

[24] 百度百科[DB/OL]. [2018-07-20].https://baike.baidu.com.

[25] 人民网[DB/OL]. [2018-07-20].http://www.people.com.cn.

[26] 中华人民共和国外交部[DB/OL]. [2018-07-20].http://www.fmprc.gov.cn/web.

[27] 中华人民共和国驻老挝人民民主共和国大使馆[DB/OL]. [2018-07-20].http://la.china-embassy.org/chn.

[28] Chen C. Searching for Intellectual Turning Points: Progressive Knowledge Domain Visualization[J].Proceedings of the National Academy of Sciences,2004,101(1):5303-5310.

[29] 侯剑华,胡志刚.CiteSpace软件应用研究的回顾与展望[J].现代情报,2013,33(4):99-103.

[30] Bengio Y,Vincent P,Janvin C.A Neural Probabilistic Language Model[J].Journal of Machine Learning Research,2003,3(6):1137-1155.

[31] Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013.

[32] 百度[DB/OL]. [2018-09-05].https://www.baidu.com.

[33] 新华网[DB/OL]. [2018-09-05].http://www.xinhuanet.com.

[34] 中国国际广播电台国际在线网[DB/OL]. [2018-09-05].http://www.cri.cn/index.html?lang=zh-CN.

[35] AnsjSeg[DB/OL]. [2018-09-05].http://nlpchina.github.io/ansj_seg.

[36] 周练.Word2vec的工作原理及应用探究[J].图书情报导刊,2015(2):145-148.

[37] 董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85.

[38] 刘丹丹,彭成,钱龙华,等.《同义词词林》在中文实体关系抽取中的作用[J].中文信息学报,2014,28(2):91-99.

[39] 朱新华,马润聪,孙柳,等.基于知网与词林的词语语义相似度计算[J].中文信息学报,2016,30(4):29-36.

The Construction of Ontology Term Set in Laos ’Political Diplomacy Domain

//HE Yangyu,YI Mianzhu,LI Hongxin

Abstract : The acquisition of ontology terms in political diplomacy domain is the key to the construction of ontology in related fields, and also an important part of information extraction and information retrieval. We construct the basic term set by using existing resources, and then use Word2Vec’s new word recommendation function to expand on the basis. Moreover, we calculate the semantic similarity computation of words by the method of integrating HowNet and Cilin, select the qualified ontology terms to construct a set of extended term, and thus establish the ontology term set of Laos’ political diplomacy.

Keywords : Laos; political diplomacy; ontology term; information retrieval; information extraction

中图分类号: D507;D82;H059;H083

文献标识码: A

DOI: 10.3969/j.issn.1673-8578.2019.04.001

收稿日期: 2018-10-09

作者简介: 何阳宇(1992—), 男,解放军战略支援部队信息工程大学博士研究生,研究方向为自然语言处理。通信方式:mugedawen@163.com。易绵竹(1964—),男,博士,解放军战略支援部队信息工程大学教授、博士生导师,研究方向为计算语言学。通信方式:mianzhuyi@gmail.com。李宏欣(1983—),男,博士,解放军战略支援部队信息工程大学讲师,研究方向为量子密码与信息安全。通信方式:lihongxin830@163.com。

标签:;  ;  ;  ;  ;  ;  

老挝政治外交领域本体术语集构建研究论文
下载Doc文档

猜你喜欢