基于知识图谱的唐代诗词平台构建论文

基于知识图谱的唐代诗词平台构建

李 畅

(广东外语外贸大学信息科学与技术学院〈网络空间安全学院〉,广东 广州 510420)

【摘 要】 知识图谱在海量信息检索呈现有优异的性能,在人工智能领域也大量运用知识图谱技术。本文介绍了知识图谱的架构模型,每个模型层次当前可运用的技术。最后运用知识图谱技术构建了一个简单的唐代诗词平台。

【关键词】 知识图谱;知识抽取;知识融合

1 知识图谱定义

随着互联网的发展,数据呈爆发式增长,如何在海量数据中提取相关联的有效信息, 提高检索精度和速度是现代信息技术的方向之一。 人工智能即将结合5G技术, 势必得到更加快速的发展。 知识图谱让数据展示方式更加直观明了, 知识图谱的问答系统在现金的人工智能领域已经得到极大运用。

2012 年5 月,Google 正式提出知识图谱的概念,主要用于描述真实世界中存在的各种实体和概念以及实体概念之间的关联、 关系, 把所有不同种类的信息连接在一起得到一个关系网络,提供了从“关系”角度分析问题的能力,用于增强其搜索引擎功能的知识库。 [1]

知识图谱本质上是一个网状知识库, 把知识用图的形式表现出来。 其中现实世界中的实体以图的结点的形式表现出来, 实体间的关系作为图的有向边。 知识图谱是对现实世界的抽象表达。

2 知识图谱架构

知识图谱包括两个主要部分, 知识抽取和知识融合,见图1。 图谱构建是一个迭代更新的过程,每一轮更新包括两个部分:

图1 知识图谱的体系架构

(1)知识抽取,即从各种类型的数据源中提取出实体(概念)、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。

从主管部门的未来水权改革设想来看,似乎设想的所谓水权交易也不过是取水许可的交易,仍不是真正的水权交易,因为取水许可是一种暂时的行政许可,既不是产权,也有时效限制。

随着老龄化社会的来临,养老成了许多家庭关心的问题。如果子女为双职工家庭,居家养老的难度会很大。尤其是瘫痪、半自理、轻度失智失能的老人,几乎不具备家庭养老的条件。

3 知识图谱构建技术

关系抽取的目标是根据实体间的链接问题, 通过三元组的形式表现出实体间关系。

(1)知识抽取的常用技术。知识抽取主要包括实体抽取,属性抽取和关系抽取。

实体抽取技术分为四种: 基于百科站点或垂直毡垫提取、 基于规则与吃点的方法, 基于机器学习的方法以及面向开放域的抽取方法。

马尔科夫逻辑网(MLN):马尔科夫逻辑网络是将马尔科夫网络与一阶逻辑相结合的一种全新的统计关系学习模型,在自然语言处理、复杂网络、信息抽取等领域都有重要的应用前景。

同时还建议把毕业实习安排在暑假至第七学期初。这一点与笔者当初的想法完全一致,因为暑假时间较长,期间没有各种考试和招聘,学生能够专心进行较长时间的实习。笔者负责华南理工大学食品质量与安全专业毕业实习已有十年时间,最近三年的毕业实习均是安排在暑假进行。但是,按照教学计划的要求,毕业实习是不能安排在暑假进行的,从今年起毕业实习回归到正常的第八学期初。原因很简单,教学必须按教学计划来进行。

路径排序算法 (PRA): 以连接目标三元组的路径为特征并预测三元组的真实度。

针对知识图谱构建过程的不同阶段, 有多种对应技术。

(2)知识融合的常见技术

1.2 试验地点 试验地设在红塔区研和街道贾井村委会玉溪市农业科学院试验基地,土壤为褐壤土,肥力中上等且均匀,前作为玉米,排灌方便。

归纳逻辑编程(ILP):通过迭代进行逻辑规则学习和匹配规则前提,最后得出结论作为预测结果。

The CuI film interface passivation layer was prepared on a p-type Si wafer by the successive ionic layer adsorption and reaction (SILAR) method[13, 15–17] due to its low cost.

(2)知识融合,在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等。[2]

属性抽取要求为每个实体语义类构造属性列表,属性值的提取为一个语义类的实体附加属性值。 助兴和属性值的抽取能够形成完整的多维度实体概念。

知识图谱补全(KGC):将实体和关系映射到实值空间,计算三元组的真实度。

4 对唐代诗词内容的知识图谱进行分析

为了构建唐代诗词知识图谱平添, 首先要构建的是唐代诗词的本体, 继而完成对唐代诗词领域相关知识的抽象。 唐代诗词的简单关系包括诗人和诗词两个领域。 具体见图2。

图2 诗词系统知识框架

表1 诗词知识图谱实体属性

诗人包括基本信息、诗词作品以及与相关诗人。 诗词包括基本信息和诗人两个大的部分。 根据上述分析,我们抽取了“诗词”和“诗人”两个概念,并对它们进行定义。 确定了实体之后,进行属性的定义。 实体的属性主要分为数据属性和实体属性, 数据属性用于描述实体属性, 实体属性用于表达实体间的关系。 具体定义见表1。

本体可通过人工编辑的方式手动构建, 也可通过数据驱动自动构建, 然后再经质量评估方法与人工审核相结合的方式加以修正与确认。 在海量的实体数据面前, 人工编辑构建的方式工作量极其巨大, 故当前主流的本体库产品, 都是面向特定领域, 采用自动构建技术而逐步扩展形成的。 [3]我们从DBPedia 知识库爬取数据。把python 语言作为开发工具,鉴于后台数据量不大, 采用关系数据库进行数据存储。 本体构建采用Protégé 软 件。 Protégé 提供了本体概念类,关系,属性和实例的构建, 并且屏蔽了具体的本体描述语言, 用户只需在概念层次上进行领域本体模型的构建。

5 小结

上述基于知识图谱的唐代诗词平台搭建仅仅是知识图谱的一次小小运用, 还有很多技术没有能够真正实践。 知识图谱的发展日新月异, 应用领域也空间广大。 随着新的信息技术的发展, 知识图谱的天地一定更加广阔,值得在此领域做深入研究。

石油短缺的德国只得紧急抢修,花费5个月时间才修复,1917年产量也仅有原先的1/3。此时的德国,无法从罗马尼亚得到足够的石油,连运输卡车也没有油料供给。所以,德军就无力在1918年采取最后的攻势,失败也就在所难免。

【参考文献】

[1]周晶,等.知识图谱与数据应用——智能推荐,电信科学,2019(8).

[2]刘峤,等.知识图谱构建技术综述,中国计算机研究与发展,2016,53(3).

[3]徐增林,等.知识图谱技术综述,电子科技大学学报,2016.07.

The Construction of Tang Dynasty Poetry Platform Based on Knowledge Map

LI Chang
(School of Informatic Science and Technology<School of Cyber Security, Guangdong University of Foreign Studies>, Guangzhou Guangdong 510420, China)

【Abstract】 Knowledge atlas has excellent performance in massive information retrieval, and knowledge atlas technology is widely used in the field of artificial intelligence.This paper introduces the architecture model of knowledge atlas,and the technologies currently available at each model level.Finally,a simple platform of Tang Dynasty poetry is constructed by using knowledge map technology.

【Key words】 Knowledge Graph;Knowledge extraction;Knowledge fusion

中图分类号: TP18

文献标识码: A

文章编号: 2095-2457(2019)34-0131-002

DOI: 10.19694/j.cnki.issn2095-2457.2019.34.059

标签:;  ;  ;  ;  

基于知识图谱的唐代诗词平台构建论文
下载Doc文档

猜你喜欢