(贵州电网有限责任公司电力调度控制中心,贵州 贵阳 550002)
Grid running text information record information intelligent matching electrical equipment research
SHAN Ke,DAI Jiang,WANG Ning,CHEN Enqian,ZHAO Qian,TIAN Nianjie
(Guizhou Power Dispatching and Communication Center,Guiyang 550002 Guizhou China; )
摘 要:数据库规模越来越庞大,如何快速地提供准确的信息,减少查找工作时间,节省人力成本,所以亟需一个统一的信息一体化管理平台,为电网设备事故风险匹配关联提供检索服务。本文将数据挖掘技术应用到数据仓库设计中。将关联规则应用于相似度计算,用于从数据库中提取出和用户检索,提高了搜索准确率。并且将关联规则应用于文本聚类的相似度计算,使得算法间相互结合,进一步提高每一步的效率。
关键词:电网风险;数据仓库;智能匹配;数据挖掘
中图分类号:TM744
ABSTRACT: design of the data warehouse.Applying association rule to similarity computation, is used to extract from a database and user retrieval, improves the search accuracy.And association rule was applied to text clustering similarity calculation, combination between makes the algorithm, further improve the efficiency of each step.
KEY WORDS:Grid risk; Data warehouse; Intelligent matching; Data mining
1电网设备信息智能匹配的研究现状
1.1电网数据信息现状
随着电力系统技术的逐步发展,电网的结构越来越复杂、规模越来越大、操作的复杂程度有所增加,电网中的设备的种类和数量也越来越多,对大量历史数据进行分析处理,挖掘出有用的知识就显得非常迫切。特别是在电力系统中,存在巨量的运行文本数据信息,如何将其与设备信息进行匹配,也是现阶段研究的重点。
1.2电网数据信息智能匹配关联的研究现状
电网设备事故风险的评估需要匹配关联大量的电网数据信息,为了尽可能的保证电网调度的安全性、可靠性和准确性,有必要对于调度操作中可能给系统带来的风险进行全面分析。[]
2电网设备信息智能匹配的应用原理
2.1数据仓库
数据仓库是以关系数据库、并行处理和分布式技术为基础的信息新技术。
数据仓库用于决策分析,它是建立在决策支持系统(DSS)基础上。数据库与数据仓库的对比如表2.1 。
3垂直搜索引擎
3.1系统结构模块
垂直搜索引擎的系统结构模块如下:
(1)用户行为分析模块。
(2)关键词分析模块。
(3)关键词综合模块。
(4)元搜索引擎模块。
(5)查询结果合并模块。
3.2关联检索建议
本文提出的是“关联检索建议”服务。“关联检索建议”预先通过计算大量关键词之间的关联度,当用户输入关键词进行搜索时,系统根据用户输入的关键词,查找与其存在强关联的关键词(不一定语意相近),作为检索建议,由此引导用户进行有效检索。
3.3模型设计
3.3.1模型总体架构
系统收集用户检索时产生的关键词,并经过数据清洗操作,产生干净的符合要求的数据,把该数据按照一定的格式存放在数据库中。关联规则挖掘器使用关联挖掘算法,从数据库中读取关键词数据,进而提取一系列的关键词关联规则。导航器则根据关联规则为用户提出检索建议,引导用户进行更有效和针对性的检索。
3.3.2挖掘模型设计
将用户每一次的检索过程看作是一个事务记录。每个事务记录包含若干个用户检索产生的关键词组;关键词数据是以事务记录为单位,且存储在数据库中。关联规则即挖掘模型从数据库中读取经过清洗的干净数据。
4电网设备信息智能匹配应用实例
4.1数据仓库的整理与实现
数据仓库的建立就是要通过数据源的确定和采集开始的。本文根据基于权重与关键词关联规则的小文本相似度计算方法,对前台的一些相关信息如设备检修单以及运行操作的用户信息等原始数据库进行清洗、转换,将其经过初步整理后,抽取出所有适合数据挖掘的设备检修单信息并存到数据库中,其中每设备信息对应一个ID号和set id号,set id是该设备在设备管理数据库中中的唯一编号,对源数据整理的时候保留此字段是为了将来可以方便地提取本设备的采购、投运、检修等相关信息。数据仓库中源数据的整理实现如图3.1。
然后,将上述整理出的原帖主题信息的结构方式另存为一张原帖文档sentence表,并运用文本聚类算法实现数据分类存储,以提高联机分析的速度。
整理后的数据仓库可以直接用于以后搜索算法的研究,进行信息访问和数据的联机分析,形成了一个可以直接用来数据挖掘的数据仓库,用于数据挖掘和系统搜索。
4.2垂直搜索算法设计
4.2.1搜索流程
用户经过身份验证后进入相应模块,首先输入要搜索的用自然语言描述的信息描述,这里设置一个违禁字典库来存放系统中禁止谈论的相关事件的关键词,然后系统对合法数据进行分词和权重计算,根据已知的权重表和关联表,可以计算出用户问题与当前数据库中各聚类中心点的相似度,从而可以将问题快速定位到和其相似度最大和次最大(保留次最大的结果是为了使返回的相关信息更全面)的类中,然后计算出该问题和与其相似度最大(和次最大)的类中每个帖子之间的相似度,相似度值最大的帖子即为最相关信息,排在返回结果的最前面,其他相关信息也按相似度值大小排序。
如果后台数据库中没有任何相关信息,就将此问题作为无解问题,存放到无解问题库,等待信息扩充更新后解答。算法设计如图3.2:
4.2.2基于关联规则的搜索
使用电力系统垂直搜索引擎搜索 “变电工作票 **乙线” 关键词的结果。
首先,对用户输入的查询“变电工作票**乙线”结合电力系统专业词库和ICTCLAS进行分词,可以得到用户的查询关键词为“变电工作票”和“**乙线”两个关键词。
然后,根据分别根据用户的两个关键词到索引文件中进行匹配,分别找到 “变电工作票”和 “**乙线”对应的索引记录。如下图:
从图3.4可以看出,“变电工作票” 分别出现在编号为 12、 21、 24、 38、 39、 45、 97和 128等文档中,而 “**乙线” 则分别出现在编号为 21、 24、 38、 39、 41、 45、 96和 97等文档中,然后根据找到的文档找出他们共有的文档,分别为编号 21、24、38、 39、97等文档。这些文档就是包含查询关键词 “变电工作票” 和 “**乙线” 的电力信息运行文档。
最后,把找到的文档编号对应的电力信息内容重新组合后作为结果页面返回给用户。
5结语
互联网的快速发展和网络信息资源量爆炸性的增长,使得查询到自己所需要的信息越来越困难,于是基于领域的快速准确的搜索引擎成了迫切的需要,特别在电网领域,涉及不同数据格式的数据信息,如何进行匹配检索,是亟需研究的重点。本文主要研究了电网设备的信息整理过程和主题搜索过程中其关键技术的应用与研究,包括数据仓库技术、关联规则以及垂直搜索算法等,将数据挖掘技术应用到数据仓库设计中,将关联规则应用于相似度计算,用于从数据库中提取出和用户检索对应的设备检修、操作动作、操作人员等信息,提高了搜索准确率。并且将关联规则应用于文本聚类的相似度计算,使得算法间相互结合,进一步提高每一步的效率。
参考文献
[1]田苗苗. 基于决策树的文本分类研究[J]. 吉林师范大学学报:自然科学版, 2008, 29(1):54-56.
[2]姚全珠,彭 程,宋志理,李 薇. 基于关联规则的搜索引擎方法[J]. 计算机工程与应用, 2011, 47(9):134-136.
[3]王新, 刘晓霞. 基于关联规则挖掘的垂直元搜索引擎研究[J]. 计算机工程, 2011, 37(4):76-77.
[4]张冰. 基于领域的信息分类和搜索技术的研究[D]. 济南大学.
[5]黄钢勇. 电力系统垂直搜索引擎的研究与设计[D]. 2009.
论文作者:单克, 代江, 王宁, 陈恩黔, 赵倩, 田年杰
论文发表刊物:《中国电业》2019年第08期
论文发表时间:2019/9/5
标签:电网论文; 信息论文; 关键词论文; 用户论文; 数据论文; 数据仓库论文; 设备论文; 《中国电业》2019年第08期论文;