关键词:数据质量; GIS;信息论;误差熵不确定带
质量往往是一个企业的生命,它不仅能够从侧面反映国家科学技术的水平,还可以体现一个国家的民族素质,同时,它也关乎着国计民生这一重中之重。地学空间数据在总数据中占总体的百分之七十五至百分之八十。虽然复杂的数据内容种类繁多,但是它的质量应该同其他的产品一样被大家重视[1]。空间数据的质量在国际标准ISO8402有着特别的定义:空间数据不仅时为了能够满足客户的潜在需求能力的一些特殊性,同样拥有反应空间数据满足用户规定的能力。分析对于用户在实用程度的操作性和对一些特定用途上是我国《城市地理信息标准指南》对空间数据质量的定义[2]。数据的质量和精度需要评判时,空间数据质量的评价作为空间数据质量控制的基础才能更加具有针对性地对数据质量的管理进行加强,进一步的将空间数据整体质量进行提高,进而保证GIS应用数据实现应用使用,提高自身的准确性。
1. 信息传输方式与模拟地理信息的分类
当今时代发展的核心正在从物质向信息转换。正因为如此,科学技术、国防、社会发展、经济建设以及人们日常生活中的每一个方面都在被现代信息技术的发展深深影响着。
申农模型被广泛采用于信息传输(通信)系统中。从信源发出的信号经过编码器对其进行编码,进行编码的信号使用信道将其与噪音共同发出去,最后再通过接收机接收,进行译码,将被加密的信号进行还原,交付给受信者,受信者也就是信号的最终到达地。因为受信者在信号未被接收前,受信者是对信息一无所知,也可以说信息充满了不确定性,所以以上所述能够将信息的不确定性彻底消除,我们就可以确定信息传输被准确无误的完成。
从大数据来看,一般电信息的传输过程有很大一部分与地理信息的采集和处理过程的相似,凭借这点,我们能够采用相似的模型对地理信息的采集和处理进行描述,同时在信息论的原理上将质量描述的标准设置为互信息、自信息和条件信息。
2.互信息与条件熵
我们利用存在的信息通道将需要发送的信息发送给收信人同时让受信人接收到传递回来的信息这一种过程从而反映出现实与空间信息的交流。当这个通道不属于理想通道时,信道会存在噪音,这样发送出去的信息和接收到的信息并不完全相同。若这个通道为理想通道时,接受的信息和发送的信息完全相同。
评定一个信道质量的好坏要对其发送和接收的信号进行对比。为了对比两者的评定数据质量的好坏在于目标数据与现实世界中参考数据之间做到了数据公开的比较。当发信者把使用地理信息符号构成的消息传递给受信者这个过程可以说是有参考数据到目标数据的映射。互信息则是描述通道信息系统的质量指标,而互信息则是指目标数据包含参考数据的多少。
自信息可以通过对数据集的直接调查得到,因此自信息和参考数据并没有多大关系。条件信息则是表示信道中损失的信息,它是通过发送信号和目标信号匹配比较得到的数据,当损失的数据越小,条件信息的值便会越小。当条件信息熵作为数据整体质量的一种标准时,这就是平均条件信息
3.基于误差熵不确定带的数据质量评价
当我们使用迭代算法计算时得出准确的指标:我们同时将未知与现实收集的数据进行严格的算法比较,得到信息不确定性数值与线元数据集的完整性的指标这个方法便是BOS(buffer-overlay-statistics)方法。使用了高数常用的统计法与叠置分析(overlay analysis)为两个数据得进行对比得出以上的指标。
期刊文章分类查询,尽在期刊图书馆
通过对矿山地理信息系统中的矿图进行综合分析,可以得出Epsilon带的宽度可以由误差熵不确定带理论直接得到,至于计算指标可以用新的计量单位—面积进行计算,而质量指标进行可视化输出时 ,BOS方法
3.1 BOS方法的基本假设
使用BOS方法为准确的证明出信息数据整体性的质量性描述时,我们做出以下的假设:
1)正态分布的现象呈现在线元上的每一个点上;
2)相同系统点位产生的标准差存在于数据集中的所有不同的点。
在数据集中的每一个点都没有存在误差时假设一的前提。虽然假设二略微有一些理想化但是还是存在着合理化。1.点位的不同出现的标准差也不相同,这将会对于GIS传播信息过程中产生影响,从而会对数据集中的一些质量指标产生误差的不确定性;2.当点位产生不同的标准差时,直线上的点为发生连续的变化同时也拥有了标准差的连续变化,他们保持了一致变化。相比较于整个数据集,一个连续的标准差曲面应当存在于此,和Epsilon带的线元固定宽度不尽相同,每一个点都拥有着不同的宽带度。能够解决以上难题唯一可行、必要的方法就是所有的点都拥有统一的标准差假设,在数据集中标准差就时标准差的平整度量指标。
除了以上的假设,我们还要提高参考数据的精度。但是BOS方法只会对数据集之间相对制度指标进行要要求,而不会对数据集本身的精度进行要求。
3.2 BOS方法的精度指标
随机摆动指标、丢失误差、包含误差以及数据的完整度是评判BOS方法的精度指标
BOS方法的精度指标包括随机摆动指标、完整度、丢失误差和包含误差等.这些指标是通过目标数据集(待评价数据集)X与参考数据集Q,用缓冲区(buffer)和叠置(overlay)分析进行比较得出的.具体步骤如下:
第1步:产生缓冲区.以空间信息的误差熵不确定带理论确定的Epsilon带宽度作为缓冲区的宽度,对数据集X和Q的线元作缓冲区,结果可以得到另外两个数据集XB和QB.
第2步:叠置分析.作两个线-面叠置分析,即数据集X和数据集QB与,数据集XB和数据集Q与,从而得到两个新的混合数据集XQB和XBQ.
第3步:统计.按照后面给定的公式计算指标值.
3.3 线元与面元综合精度指标
上述指标和方法能够描述线元的某些不确定性,但并不全面.例如,当Q与X比较接近时,线元落在两个缓冲区外的长度可能为0,但这并不能说明X与Q之间不存在误差.同时,上述方法和指标也很难用于面元的精度评价.为此,我们选择面积作为指标计算量.事实上,评定面积 精度是Epsilon带最早的应用之一.这种方法有以下几个步骤:
1.将线、面或者是它们的缓和作为目标设置为缓冲区,通过对宽度误差熵不确定带的测量,进一步得到XB和QB;
2.面域XBQB则是通过对XB、QB两个缓冲区的合并得到的。不仅如此,关于精度区域、虚假区域以及丢失区域也可以由此获得;
3.可以通过一下公式计算QB的面积记忆精度区域、丢失区域和虚假区域。
4.总结
以上所讲述的所有方法在线元数据中同业可以使用,但是这些方法只适用于线元数据作线性缓冲区的范围,在元数据作面域缓冲区没有什么区别。地理实体的信息属性与信息位置产生不确定性时用以上上述方法反映出作为全面性。
参考文献
[1] 欧阳明德.质量管理——理论、标准与案例[M ].武汉:华中理工大学出版社, 2017.
[2] 闫 正,蒋景瞳,何建邦,等.城市地理信息标准化指南[M ].北京:科学出版社, 2018.
论文作者:黄其雷,逯跃锋
论文发表刊物:《科学与技术》2019年第23期
论文发表时间:2020/5/8