摘要:水文资料在水资源产业资料中占有重要地位。通过水文测量和验收,采集各种水文要素,统一标准规范后,将记录整理成简明扼要的系统的水文数据和数据库。
关键词:数据挖掘技术;水文;应用
前言
数据挖掘(DateMining,简称DM)是指利用统计学习方法、人工智能算法等分析海量数据中隐藏的数据关系,提炼出具有潜在价值的数据走向与结构模式,并利用这些规则重建预测模型,提供决策支持的过程。
1数据挖掘基本分析方法
数据挖掘的分析方法多种多样,各有不同。按照其功能可以分为分类与回归、聚类、关联规则与时序模式这四种。分类和回归是用来描述数据类别或预测数据趋势的两种重要的数据分析方法,分类(Classification)是将数据归入预先定义好的群组或类中,而回归则(Regression)是以历史数据来预测数据未来的趋势。分类与回归中常用的算法有:小波神经网络法、模糊神经网络法、径向基函数法和反向传播法;聚类分析(Clusteranalysis)是依据数据属性上的相似性,在未给定分组和类别的情况下进行信息自动聚集的一种方法,也称为无指导学习,常用的聚类分析的方法有模糊C‐均值聚类、神经网络聚类、层次聚类、K‐means聚类、高斯聚类等。关联分析(Association)的任务是发现事物间的相关程度,揭示在数据中间接表现出来的隐含关系,常用的两种分析方法是关联规则和序列模式分析,关联规则主要是发现事物间的相互依赖性,而序列模式则是挖掘数据间的前因后果关系。Apriori算法、灰色关联法、HotSpot算法和FP‐Tree算法是在关联分析中常用的算法;时序模式包含两种类型,一种是时间序列分析,另一种则是序列发现,时序模式描述的是基于时间或其他序列的经常发生的规律或趋势。时间序列常用的模型有加法模型和乘法模型。时序算法常用的有指数平滑法、移动平均法和灰色预测法等。
2数据挖掘一般过程
数据挖掘的一般过程主要包括六个部分:①定义挖掘目标;②数据取样;③数据预处理;④数据探索;⑤模型建立;⑥模型评估。
定义挖掘目标主要是明确两个方面的问题:第一,弄清楚数据挖掘需要解决的问题;第二,数据挖掘完成后能够达到的效果。数据取样的标准是筛选出数据库中最新的且相关性好、可靠性高的数据。数据的预处理包括三个部分的工作:一是筛选,过滤掉某些不符合期望的观测值;二是变量转换,对数据进行转换操作以使数据和将要建立的模型拥有更好的拟合程度;三是缺失值处理,推导、填充空缺数据。数据探索是数据预处理的进阶工作,主要是探究数据间的结构关系与典型特征,为模型建立工作提供可靠的变量与算法选择依据,但数据探索与预处理也是一个双向的工作过程,在数据探索的过程中,当发现数据量太少或者数据质量不够好,往往会返回到数据取样阶段重新选择数据。在数据探索阶段常常要进行对比分析、统计量分析、周期性分析与相关分析等。模型的建立是数据挖掘的核心,是对采样数据轨迹的概括,它反映的是采样数据内部结构的一般特征,往往需要根据数据的特征、挖掘经验来选择合适的算法,进而选择合适的模型。模型评估一般会首先使用原来建模的数据样本进行检验,当获得较好的效果时,再寻找一些实际可靠的新数据进行再次验证,只有当两次检验的结果都很好时,模型才是准确的。
3需求分析
3.1洪水周期性
洪水由自然和人为因素共同作用形成,洪灾是我国发生频率高、危害范围广、对国民经济影响最为严重的自然灾害,亦是威胁人类生存的十大自然灾害之一。面对洪灾造成的巨大损失,只有了解洪水、掌握洪水、利用洪水,才能把损失降到最低。
期刊文章分类查询,尽在期刊图书馆通过对洪水周期性的研究,从水文序列数据中找出洪水重复出现的概率和路径,进而对洪水进行预测预报预防。
3.2水文相似性
水文相似性是指找出与给定序列最接近的其它水文序列。找出与给定序列相似的所有数据序列称为子序列匹配,找出彼此间相似的序列称为整体序列匹配。查找水文序列相似性就是要在水文序列中,找出各类相似的子序列。可用于洪水过程预测、环境演变分析、水文过程规律分析等方面,最为直接的支持决策应用,如:防汛指挥中“当前洪水相当于历史上哪一次洪水?”。
4水文数据分析系统的实现与应用研究
4.1数据的获取。
首先要收集水文监测站的历史水文数据、各个水文站点的联系方式,同时对整体的数据进行分析,提供有用、可靠的挖掘对象。将所有的数据进行预处理之后,对数据的空值、噪音值、重复值等进行检查,预处理方式能够从以下几点人手:首先要检查重复率,将数据中出现重复的及时删除;针对数据中出现的大规模的空值,通过采取15日均值的方式来填充空值,超过5天的单不超过1月的空值,要采取5年内的同期平均值填充。
4.2建立模型。
根据数据源中数据之间的相关关系,数据的挖掘流程,采取定义问题发现水位之间的关系模型,对平台中的数据采取数据集成挖掘的方式,接着按照定义挖掘要求再次挖掘数据,定义挖掘数据的具体的挖掘流程。
数据模型中模板的作用主要是筛选和替换数据极端值,剔除一些噪音数据和无效数据,通过采用GLM和SVM算法,其他的均使用默认值。在建立模型的过程中,其中整体数据中60%作为模型训练数据,40%作为模型评测数据。主要是评测量模型质量以及检测的精准度。在模型的应用获得预测的结果之后,系统中的AWM工具将会建立起两个数据立方体,数据立方中的GLM回归模型平均预测精准度必须要达到85.372%以上,AVM回归模型的平均预测精准度必须要达到87.444%以上,因此挖掘数据技术所得到的模型精度较高,能够充分满足需求。
4.3数据效益
建立的两个数据立方体中(包括:水位数据、预测数据、观察数据),BIEE数据模型的物理层包含了数据库连接信息的连接池;业务逻辑层主要是在物理层的基础上,对业务用户进行更加多维度的组织,度量各个监测站的水位、平均水位、预测水位等,建立时间维表;展现层是在定义层和逻辑层的基础上进行的,主要是将一些非重要信息(字段描述、逻辑描述)删除、保留重要的信息内容及数据。为了使得展示模型预测信息和水文的统计结果,利用BIEE制作水文回归模型预测信息汇总查询表,水文曲线图(主要指的是预测水文、实际水位),水文站的历史信息图等资料制作成表格,按照图形的形式呈现出来,将整体的数据及资料集中展示。
结束语
由于水文数据量大,影响预测的因素多,相比传统的水文预测方法,数据挖掘技术可以智能地从大量的、不完全的、有噪声的、模糊的数据中提取出有用信息,建立起误差小、精度高的水文预测模型。利用数据仓库从历史数据中挖掘水文现象所隐含的价值,完全可以满足水文决策和服务的需求,但是水文数据仓库模型的应用也需要我们在实践中反复的试验和验证,根据河流的不同特性,找到符合实际的参数设置,最终得到接近真实的预测预报结果。
参考文献:
[1]艾萍,宋海波,冯鹏.一种支持水文信息组织数据仓库的模型[J].信息技术,2017,27(07),27-30.
[2]尹涛,关兴中,万定生.数据挖掘技术在水文数据分析中的应用[J].计算机工程与设计,2017,33(12),4721-4725.
论文作者:郦行1,黄丽珍2
论文发表刊物:《基层建设》2019年第9期
论文发表时间:2019/6/25
标签:数据论文; 水文论文; 模型论文; 序列论文; 洪水论文; 数据挖掘论文; 算法论文; 《基层建设》2019年第9期论文;