面向涉恐领域的知识图谱构建方法论文

面向涉恐领域的知识图谱构建方法*

廖浚斌1,周 欣1,2,何小海1,王正勇1,卿粼波1

(1.四川大学 电子信息学院,四川 成都 610065;2.中国信息安全测评中心,北京 100085)

摘 要: 近年来,世界各地的恐怖袭击事件时有发生,为了减轻安防人员对涉恐信息分析工作的负担,需要提供工具辅助相关人员对海量信息进行整理,因此研究并实现了面向涉恐领域的知识图谱。首先,针对海量的互联网信息,采用了分布式爬虫技术进行数据的采集,并使用双向门控神经网络(BI-GRU)+注意力机制(Attention Mechanism,Att)等模型实现对信息的抽取;然后构建了涉恐领域本体库,并在此基础上完成了涉恐领域知识图谱的构建以及知识图谱的可视化展示。该研究成功地将知识图谱的构建技术应用到涉恐领域,对相关工作有一定的参考价值。

关键词: 涉恐领域;知识图谱;本体库

0 引言

目前,世界处于网络时代,各领域的信息呈爆炸式增长。涉恐信息零散地分布在海量的数据中[1],包括涉恐分子信息、涉恐组织信息、涉恐事件信息以及反恐策略等信息。如果能够有效地获取、组织及利用这些信息,将对各个国家在反恐、防恐工作中起到重要的促进作用。为了帮助相关人员对多元化的涉恐信息进行更好的分析及表达,需要建立一个基于涉恐领域的知识图谱。涉恐领域知识图谱的建立可以将海量的涉恐信息整合成结构化的有意义的知识,极大程度地方便了安全人员对涉恐人员及组织的分析[2]

1 涉恐领域知识图谱实现流程

涉恐领域知识图谱技术路线如图1所示。具体流程为:(1)数据获取,使用分布式爬虫技术采集互联网上已存在的非结构化数据和半结构化数据;(2)信息抽取,对于半结构化数据,需要根据其数据结构特征提取出人物、组织等实体和实体间的关系信息,对非结构化数据需要进行信息抽取,如采用实体识别[3-4]、关系抽取以及属性抽取等技术,最终使数据通过三元组的方式进行链接;(3)实体对齐,借助构建的涉恐领域本体库来辅助判断数据中任意两个实体是否指向真实世界同一对象,消除异构数据中的实体冲突、实体间指向不明等实体间的指向二义性问题[5];(4)通过构建的本体库对数据进行推理补充,进一步完善数据,最终形成涉恐领域的知识图谱。

1.1 数据采集

本知识图谱主要从互联网数据中获取与恐怖主义相关的人物与组织信息,这些信息主要以两种形式存在:半结构化的形式和非结构化的形式。第一类数据主要是各种社交媒体数据,如维基百科、FaceBook、Twitter等。第二类数据来源主要以政府网站、新闻媒体网站以及各研究机构的公开网站为主,该类型网站的数据往往以非结构化的文本形式存在。针对以上两类信息,考虑到其信息量的巨大,本文采用分布式爬虫进行数据的采集。分布式爬虫架构如图2所示。

图1 涉恐领域知识图谱实现流程

图2 分布式爬虫架构

分布式爬虫由三部分组成:(1)集中的统一资源定位符(Uniform Resource Locator,URL)调度管理和分配,即URL仓库;(2)爬虫节点;(3)数据存储。URL仓库负责对URL队列进行管理并将URL分配给各爬虫节点;爬虫节点由多个子节点构成,每个子节点负责获取和解析不同网站的数据,最终将爬取的数据存储到数据库中。

1.2 实体关系抽取

实体关系抽取是指从文本信息中提取出实体之间隐含关系的方法,是实现知识图谱的关键技术之一[6]。本文在构建涉恐领域知识图谱时应用BI-GRU+Att模型完成了文本信息中实体的关系抽取任务,模型结构如图3所示。

图3 BI-GRU+Attention模型

本文使用BI-GRU+Att模型对隐含在涉恐人物和组织数据中的关系进行抽取,结果如表3所示。

1.3 涉恐领域本体库构建

大荔县土地总面积1776.4km2,分为北部黄土台塬区、中部洛灌区、东部黄河滩区和南部沙苑区,除沙苑区外,其他各区均适宜核桃生长,我们充分利用此类土地大力发展核桃产业,促进农村产业结构调整,带动群众增收致富。

2 涉恐领域知识图谱实现

从表3可以看出,本文针对涉恐信息的关系抽取方法由于网络结构简单,且使用字符级向量作为输入,所以得到了较高的准确率。因此可以证明本文针对涉恐信息的关系抽取任务使用的关系抽取模型有一定的效果,但还有一定的提升空间。表4为人物关系抽取的实例展示,表5为组织关系抽取的实例展示。

2.1 数据爬取

从表4、表5可以得知,本文模型可以较好地从文本中抽取出实体间隐含的关系。

本文通过使用非关系型图数据库Neo4j将通过上述流程所得的信息转换为图数据库。图5为知识图谱部分节点的可视化展示。图中展示的是与国家民主联盟组织节点相关的节点。

表1 人物信息

表2 组织信息

2.2 关系抽取

其中,门控循环单元(GRU)网络是循环神经网络的一种变体[7],可以有效地克服循环神经网络无法很好处理远距离依赖的问题;而注意力机制可以增大关键词的注意力权重,使得神经网络更关注与关键词相关的上下文信息[8]

表3 本文应用模型评价

本节将主要对数据爬取、实体的关系抽取和本体库构建的实验进行说明。

使用SPSS20.0软件对本文122例糖尿病视网膜病变患者的指标数据进行分析,卡方检验,以%形式展开患者视力提高率,t检验,以±s形式展开各项指标变化情况,两组患者组间差异存在统计学意义以P<0.05展开。

表4 人物关系实例

表5 组织关系实例

本文使用的涉恐领域的人物及组织信息主要从维基百科网站进行爬取,另外通过对反恐怖主义信息网、环球网等网站的爬取获取更多的信息。总计获取人物实例数据1 000条,组织实例数据200条。爬取的人物实例之一如表1所示,组织实例之一如表2所示。

2.3 本体库的构建

本文构建的人物本体库与组织本体库的类同属于超类“Thing”,统称为涉恐领域本体库的类,本体库的类结构如图4所示。

图4 类层次结构图

其中人物库的类包括人物类(People)和地点类(Location),而组织库的类包括组织类(organization)、事件类(Event)和地点类(Location)。

2.4 涉恐领域知识图谱可视化

水利自动化的基础是自动监测系统,其主要任务是监测和监控,因此,对传感、采集和传输数据的智能化和组网要求也越来越高。应用过程中存在的问题是监测点范围有限,集中在灌溉区自动化和大坝安全监测系统,由于无线传感网络的无线射频为100~300 m,距离较短,2.4 GHz的频率绕射性能较差,组网的条件范围较小,导致在测点分布相对离散的水利自动化系统中无法应用,例如局部地区的山洪灾害预警系统中使用相对有限。虽然现已有距离较长的无线传感器产品问世,但仍需进一步证实其组网和传输的可靠性。

本体是对特定领域中的概念及其相互关系的形式化表达,是同一领域不同主体进行交流、连通的基础[8-10],其相邻层节点之间具有严格的从属关系。在知识图谱中,本体库是用于管理知识图谱的模式层,用于描述概念层次体系,是知识图谱中知识的概念模板。通过本体库形成的知识图谱层次结构分明、冗余度小[11]。本文使用Protege本体库构建工具进行涉恐领域本体库的构建,Protege软件是语义网中本体构建的核心开发工具。

图5 知识图谱可视化

3 结论

本文首先使用了分布式爬虫技术从互联网中爬取涉恐领域的人物与组织数据,然后利用BI-GRU+Att模型等技术实现对信息的抽取,并构建了涉恐领域的本体库,最终实现涉恐领域的知识图谱以及使知识图谱可视化。因为本文的研究重点集中于特定领域的知识图谱实现,而针对基于知识图谱的应用的研究尚处于初级阶段,所以在未来的工作中将进一步研究基于知识图谱的问答等应用领域,以便更好地满足涉恐领域的需求。

参考文献

[1] 倪叶舟,张鹏,扈翔,等.数据背景下涉恐信息挖掘方法综述[J].中国公共安全·学术版,2018(4):91-95.

[2] 李勇男.大数据驱动的反恐情报决策体系构建[J].情报杂志,2018,37(10):57-61.

[3] 刘玉娇,琚生根,李若晨,等.基于深度学习的中文微博命名实体识别[J].四川大学学报(工程科学版),2016(S2):142-146.

[4] 朱国进,沈盼宇.基于深度学习的算法知识实体识别与发现[J].智能计算机与应用,2017,7(1):17-21.

[5] HAN X P,SUN L,ZHAO J.Collective entity linking in Web text:a graph-based method[C].Proceedings of the 19th International Conference on Knowledge Discovery and Data Mining.New York:ACM,2013:1070-1078.

[6] 李枫林,柯佳.基于深度学习框架的实体关系抽取研究进展[J].情报科学,2018,36(3):169-176.

[7] CHO K,VAN MERRIENBOER B,GULCEHRE C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[C].Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.ACL,2014:1724-1734.

[8] LIN Y K,SHEN S Q,LIU Z Y,et al.Neural relation extraction with selective attention over instances[C].Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics,Berlin,2016:2124-2133.

[9] GIRASE A V,PATNAIK G K,PATIL S S.Devloping knowledge driven ontology for decision making[C]. International Conference on Signal Processing.IEEE,2017:99-105.

[10] 车成逸,马宗民,焦晓龙.基于结构化信息源的本体构建方法综述[J].计算机应用研究,2012,29(7):2406-2410.

[11] 刘峤,李杨,杨段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600.

Construction method of knowledge graph for terrorism domain

Liao Junbin1,Zhou Xin1,2,He Xiaohai1,Wang Zhengyong1,Qing Linbo1

(1.College of Electronics and Information Engineering,Sichuan University,Chengdu 610065,China; 2.China Information Technology Security Evaluation Center,Beijing 100085,China)

Abstract :In recent years,terrorist attacks occur frequently around the world.In order to alleviate the burden of security personnel on the analysis of information related to terrorism,it is necessary to provide tools to assist the relevant personnel in collating the vast amount of information.Therefore,the knowledge graph for the field of terrorism is studied and implemented.Firstly,distributed crawler technology is used to collect massive Internet information,and bi-directional gated neural network (BI-GRU) +Attention Mechanism (Att) model is used to extract information.Then,the domain ontology base of terrorism is constructed,and on this basis,the domain knowledge graph of terrorism and the visual display of the knowledge map are completed.This paper successfully applied the construction technology of knowledge graph to the field of terrorism,and has certain reference value for related work.

Key words : terrorist domain;knowledge graph;ontology base

中图分类号: TP391

文献标识码: A

DOI: 10.19358/j.issn.2096- 5133.2019.09.007

引用格式: 廖浚斌,周欣,何小海,等.面向涉恐领域的知识图谱构建方法[J].信息技术与网络安全,2019,38(9):34-38.

*基金项目: 四川省科技计划项目(2018HH0143);四川省教育厅项目(18ZB0355)

(收稿日期: 2019-06-05)

作者简介:

廖浚斌(1995-),男,硕士研究生,主要研究方向:计算机视觉、自然语言处理。

遗传分化是反映遗传结构的重要指标。本实验以SSR法得到广西地不容居群的Fst为0.146 5,Nm为1.456 9,揭示居群具中等程度的遗传分化,遗传变异主要分布在居群内个体间,居群间具有中等程度的分化。这与覃艳采用ISSR和RAPD研究得到的结论一致[6]。

周欣(1985-),男,博士研究生,助理研究员,主要研究方向:数据挖掘、自然语言处理。

何小海(1964-),通信作者,男,教授,主要研究方向:图像处理与模式识别、人工智能。E-mail:nic5602@scu.edu.cn。

在这一基本战略判断下,美国战略界对“一带一路”倡议的认知负面远远多于正面。综合起来,美国战略界对“一带一路”倡议的认知或担忧,主要体现在如下几个方面。

标签:;  ;  ;  ;  ;  

面向涉恐领域的知识图谱构建方法论文
下载Doc文档

猜你喜欢