基于大数据的知识图谱应用研究
王立平 曹立勇* 吴兴燕 丁卫明
(安庆医药高等专科学校,安徽 安庆 246052)
【摘 要】 随着互联网和信息的高速发展,知识图谱得到了广泛的关注。本文介绍了知识图谱的发展现状和实际应用情况,并综述了知识图谱的关键技术模块:知识表示、知识抽取、知识融合和知识推理。进一步对知识图谱的发展和应用前景进行了展望。
【关键词】 知识图谱;大数据;知识表示
0 引言
随着大数据时代的到来,海量的数据信息呈爆炸式增长。如何从这些数据信息中抽取有效的知识,并表示和存储从而更好地为人类和机器理解使用是当前热门的研究课题。然而互联网上的内容多源异质、结构松散为知识的抽取、表示和存储带来了极大的挑战。知识图谱就是在这种背景下产生的课题。近几年,知识图谱得到了广泛的关注,通过数据整理、数据挖掘、机器学习和专家系统等技术,知识图谱的应用得到了长足的发展。但目前知识图谱的应用研究尚处在起步阶段且存在限制多、效率低、拓展性差等缺点。
1 知识图谱的研究现状
知识图谱的概念于2012 年5 月被Google 正式提出,原来的目的主要是为了提高搜索引擎的能力,提升搜索结果的质量以便更好满足用户的搜索体验。本质上,知识图谱是描述各种实体或概念及其关系,它们构成了一张巨大的语义图,节点表示实体或概念,边则是节点的属性或关系构成。
随着人工智能的不断发展和应用,知识图谱在学术界和工业界得到了普及,并在智能检索、智能问答、大数据风控、推荐系统等领域发挥出了重要的作用。国际上最具影响力的知识图谱主要包括以下几种:谷歌知识图谱Freebase[1]是一个类似于Wikipedia 的创作共享类网站,它的所有内容都是通过创意共用的方式由用户添加。YAGO(Yet Another Great Ontology)[2]系列知识图谱是由德国Max Planck 计算机科学研究所创建,它通过对维基百科和WorldNet 的大规模本体进行整合完成了大规模本体的构建。目前,YAGO 拥有10 种语言约459 万个实体,2400万个Facts,且支持数据集的完全下载。另外还有微软Satori和Facebook 的Entity Graph。其中,2016 年10 月,微软亚洲研究院发布全新的、能帮助计算机更好运作的微软知识图谱(Microsoft Concept Graph)[3],它是一个大型的知识图谱系统,包含的知识来自数以亿计的网页和多年积累的搜索日志,可以为机器提供文本理解的常识性知识。
随着大数据时代的兴起,国外越来越多的研究机构和公司都构建和发布了自己的知识图谱。而国内的知识图谱建设起步较晚,规模比较完善的主要集中在几家大型的互联网公司,如百度的知识图谱Schema[4]、阿里巴巴的商品知识图谱和搜狗的知立方[5]等。百度的知识图谱Schema 目前主要用来规范百度内外部合作方结构化数据交换,以及作为百度知识图谱构建、知识计算的核心数据结构。阿里知识图谱以商品为核心,凭借自身海量数据,利用实体识别、实体链指和语义分析等技术构建了一个庞大的商品库,以便更好地服务用户。而为了让用户获取信息更简单,搜狗搜索于2012 年11 月23日发布全新的知识库搜索引擎--“知立方”,这是国内搜索引擎行业中首家知识库搜索产品。
在医疗健康领域,目前有Google 构建了包含常见症状、治疗手段、受此问题影响的典型年龄组、是否严重等信息的知识图谱。中国医学院医学信息研究所通过对医药卫生领域各类知识的分析、整理,使用图形学、信息可视化技术,构建的共五大类311 种疾病的知识图谱[6]。中国中医科学院中医药信息研究所主要以“中医药学语言系统”中10 余万个中医概念以及100 余万个语义关系为知识图谱的骨架构建中医药知识图谱体系[7]。
2 知识图谱的关键技术模块
按照功能和应用来划分,知识图谱可以分为通用知识图谱和行业知识图谱。其中通用知识图谱覆盖的内容更广,融合的实体更多,但准确度不高,其主要被应用于智能语义搜索领域;行业知识图谱则针对特定领域的数据来构建,实体的属性和数值会比较详细和规范,行业知识图谱对辅助和指导该行业有重要的价值。
2.1 知识图谱的定义与表示
实体抽取是指从数据信息中抽取相关实体信息,比如有人名、地名、机构、时间、数值等。在抽取的过程中不仅要识别实体还要对所抽取的实体进行分类。所属类别可以根据知识图谱的要求而调整。关系抽取则是抽取多个的实体的语义关系。根据关系抽取的方法可分为:基于模板的方法、基于监督学习的方法等。
随着信息技术的不断发展,数据信息呈爆炸式增长,这些海量的数据具有多源、异构、组织结构松散等特点,它与用户有限的获取知识和处理数据的能力之间的矛盾日益明显。数据多源异构,结构松散的特质,在信息技术飞速发展的今天,知识大量存在于非结构化的文本数据、半结构化的表格、网页以及信息系统的结构化数据中,而随着普通民众生活水平的提高,大家对生活品质和信息获取也越来越重视。所以,人们都迫切地需要一种能够帮助他们简单快速地获取数据信息的渠道和方法。
主要由含碎、块石粉质粘土及块石(Q4del)组成,紫红色,前者土体中含15%~40%的强至中风化泥岩及粉砂岩碎、块石,次棱角状,粒径20~700 mm,分布不均匀;粉质粘土含量大于50%,可塑状态,局部为软塑,切面有砂感,稍有光泽,韧性及干强度中等,无摇振反应.后者块石含量大于65%,块石成分为强至中风化泥岩及粉砂岩,次棱角状与巨型块状,粒径200~5 000 mm不等,块石间粉质粘土及角砾、碎石充填.该层主要分布于滑坡区山体斜坡部位,厚度6.00~20.70 m.
2.2 知识图谱的知识抽取
基于互联网中海量的数据信息和开放的行业数据抽取可用的知识单元,包括实体、实体的属性、实体间的关系等要素。知识抽取就是将这些不同来源、不同结构的数据进行抽取,形成结构化的知识存入到知识图谱中。其中包括:实体抽取、实体间关系抽取和属性抽取等。
在水利工程建设中,要综合考虑各种因素,既要考虑经济因素,又要考虑环境保护观念。本着以低成本为高性价比商品的原则,树立简单方便的绿色环保理念,切实执行可持续发展规划,为今后的生产和生活提供保障。如果水利工程设计盲目追求低价,忽视质量,那么问题就会在工程后期暴露出来,影响更加严重。因此,在设计的早期阶段,我们应该考虑各方面的成本等问题,仔细选择合适的具有成本效益的工程材料。在选择材料的同时要考虑环境因素,选择无毒无害的设计材料,对环境和居民不会产生较大的影响。然而,根据调查,我国许多水利工程没有充分考虑环境保护的概念,导致建设过程中与当地居民发生纠纷,造成不良影响。
知识图谱是语义Web 基础下的一种技术应用,是一种图的数据结构,由节点和标注的边组成,或者说是由实体和实体间的关系组成。知识图谱较为普遍的表示形式是三元组,即G=(head,relation,tail),其中head 和tail 均为实体,relation={r1,r2,…,rn}是实体的关系集合。三元组的形式有(实体1,关系,实体2)和(概念,属性,属性值)等,实体是知识图谱的基本元素,关系是存在于不同实体之间的联系,概念主要是指对象、类别、种类等,属性是指对象具有的特点与性质,属性值则是对象特定属性的值。通过一个标识ID 来定义实体,实体内部通过属性-属性值来刻画,实体间的关联通过关系来表述。三元组表示一个既定事实,即实体处于给定类型的关系中。所有三元组构成一个图,其中图的节点表示实体,边表示实体间的关系。
In practice,the sample covariance matrix may be estimated as
钢筋笼在加工厂统一制作,采用滚焊机分节同槽制作,主筋采用剥肋滚轧直螺纹钢筋接头连接,套筒每端严禁有超过一扣的完整螺纹外露。
2.3 知识图谱的知识融合
知识图谱技术提供了一种分析抽取知识、融合表示知识、存储计算知识来构建结构化数据的方法,并通过深度学习和专家系统不断完善,结合大数据技术和可视化技术达到快速方便地让人们使用数据。针对领域数据专业性强、结构复杂等特点,知识图谱技术在构建需要进行更全面的分析和研究。并针对知识的表示、抽取、融合和推理进行深入的分析和比较。
知识融合最主要的问题就是将来自不同来源和结构的同一种实体的描述进行信息融合。一般要分为两步来完成,首先是要进行本体对齐,然后在通过相似度计算进行实体匹配。其中实体相似度是根据实体的属性相似度向量得到的,而属性相似度向量则是综合了各个属性相似度。属性相似度的计算常用的方法有距离相似度、集合相似度等。
3 结语
知识图谱技术是对语义Web 技术的一次重要改造和升华,我们在依据大数据环境下的数据信息组织原则,探索并构建既符合网络信息资源不断变化规律又能切合适应用户认知需求的知识互联方法,使其更加深刻地展示整体而相互关联的人类认知世界。但目前,知识图谱的构建还面临着数据抽取难度大,知识实体对应不准确、数据存储方式不合理等困难和挑战,也是我们下一步需要去研究和克服的。
【参考文献】
[1]微软亚洲研究院 https://www.msra.cn/.
[2]百度知识图谱Schema http://ai.baidu.com/tech/kg/schema.
[3]搜狗知立方 https://www.sogou.com/.
[4]中国医学院医学信息研究所.知识图谱.http://med.ckcest.cn/knowledge-graphs.html.
[5]于彤,刘静,贾李蓉,等.大型中医药知识图谱构建研究[J].中国数字医学,2015,10(3):80-82.
[6]Xin luna Dong,Evgeniy Gabrilovich,et al.Knowledge Vault:A Web -Scale Approach to Probabilistic Knowledge Fusion[C],Google,1600 Amphitheatre Parkway,Mountain View,CA 94043.
[7]袁凯琦,邓扬,陈道源,等.医学知识图谱构建技术与研究进展[J].计算机应用研究,2018,8(7):1929-1936.
[8]唐伟,洪宇,冯艳卉,等.网页中商品"属性—值"关系的自动抽取方法研究[J].中文信息学报,2013(1).
Application Research Based on Big Data Knowledge Graph
WANG Li-ping CAO Li-yong* WU Xing-yan DING Wei-ming
(Anqing Medical College,Anqing Anhui 246052,China)
【Abstract】 With the rapid development of the Internet and information,the knowledge graph has received extensive attention.This paper introduces the development status and practical application of knowledge graph,And summarizes the key technical modules of the knowledge graph:Knowledge Representation、Knowledge Extraction、Knowledge Fusion and Knowledge Inference.Furthermore,the development and application prospect of knowledge graph are prospected.
【Key words】 Knowledge Graph;Big Data;Knowledge Representation
中图分类号: TP311.13;TP391.1
文献标识码: A
文章编号: 2095-2457(2019)21-0089-002
DOI: 10.19694/j.cnki.issn2095-2457.2019.21.040
※基金项目: 安徽省2017 年度高等学校省级质量工程精品开放课程项目(2017kfk130)。
作者简介: 王立平(1975—),女,安徽安庆人,硕士,讲师。
*通讯作者: 曹立勇(1978—),男,安徽安庆人,硕士,副教授。
标签:知识图谱论文; 大数据论文; 知识表示论文; 安庆医药高等专科学校论文;