摘要:对测量数据进行判断和处理是计量测试工作的重要组成部分,需要剔除其中的异常数据,从而保证最终测试结果的可靠性。本文首先对计量测试中异常数据的产生原因进行简单分析,进而研究其剔除方法,包括拉依达准则法、格拉布斯准则法、狄克逊准则法、肖维勒准则法等,并结合具体实例进行应用分析。
关键词:计量测试;异常数据;剔除方法
前言:计量测试工作对数据准确性有较高要求,完成一项计量测试工作后,会得到大量数据,需要对其进行整理和分析,准确筛选出其中存在的异常数据,否则将会对最终的测量结果产生较大影响。同时,对数据进行评判也是检验仪器状态的主要方法,在实际应用过程中具有重要意义。由于计量测试在实际生产中应用广泛,相关研究也受到了高度重视,并形成多种异常数据判断准则,可以有效剔除异常数据。
一、计量测试中异常数据的产生原因
计量测试仪器均属于高精密仪器,受外部环境影响较大,可能在外部环境发生变化时,导致测量结果出现较大偏差。另一方面,如果仪器自身存在故障,也会导致测量结果不准确。因此,在实际的计量测试工作中,异常数据普遍存在,需要在完成测量后,剔除异常数据,确保结果的准确性。计量测试中的异常数据产生原因主要包括:(1)测试过程中仪器受到震动影响,比如机械振动或人力作用等;(2)仪器供电电压不稳定,或在测试中受到电磁干扰,导致仪器出现故障问题,产生较大的结果偏差;(3)测试操作人员缺乏操作经验,在测试过程中未按规定流程进行测试;(4)仪器自身存在零件松动、元件损坏等缺陷问题,操作人员无法正常测量,即使能够测出结果也会存在较大偏差[1]。
无论是何种因素导致的测量偏差问题,都会产生异常数据。因此,在实际计量测试过程中,首先要全面排除人为操作失误,并在测试前对仪器和测试环境进行检查,尽量减少可能出现的干扰因素,从而提高测试结果的准确性。在此基础上,通过采用科学的异常数据剔除方法,排除异常数据对最终测试结果的影响[2]。
二、计量测试中异常数据的剔除方法及实例分析
(一)异常数据剔除方法
1、拉依达准则法
拉依达准则又称3σ准则,其表达式为|xd--x|>3σ。其中,xd为可疑数据,如果符合该表达式,则判定为异常数据,将其从数据样本中剔除。该表达式的含义是可疑数据与测量数据算术平均值差值的绝对值如果大于3倍标准差,则将其视为异常数据并剔除。
2、格拉布斯准则法
格拉布斯准则法的表达式为|xd--x|≥G(α,n)s,其中xd为可疑数据,-x为测量数据的平均值,s为赛尔公式计算的标准差,G(α,n)则通过查表获得。
3、狄克逊准则法
该方法利用不同公式求取r值,然后通过查表,确定对应的临界值,对数据进行比较。如果测试数据的计算值r>r(n,a),则将其视为异常数据并剔除,然后对其他数据进行继续检验,直到数据样本中不含有异常数据位置。采用狄克逊准则进行异常数据检验,n≤7时使用r10,8≤n≤10时使用r11,11≤n≤13时使用r21,n≥14时使用r22,这样可以取得最好的检验效果。
4、肖维勒准则法
肖维勒准则的表达式为|xd--x|>wn•σ,对于相同精度且相互独立的一组测量数据,如果测量值xd满足该表达式,则将xd判定为异常值并剔除,该表达式中的wn主要与测量次数n有关。
期刊文章分类查询,尽在期刊图书馆
5、t检验法
运用t检验法进行测量时,假设xi为可疑数据,将除了xi意外的测量数据设定为数据集合总体,且假定其符合正态分布。对于得到的数据集合,严格而言,其是否符合正态分布需要进行判定,但通常情况下,不需要深入判定数据集合的正态分布特征,将其直接近似看做正态分布即可。在此情况下,可疑值xi可疑看做一个样本容量为1的集合,如果xi与其他测量数据同属于一个总体,则两者之间不具有显著性差异,反之,如果两者具有显著性差异,则说明xi为异常值。通过xi计算统计量k,其表达式为k=|xi--x|/s,式中的-x为样本数据算术平均值,S为样本数据标准差,可以通过计算确定k值,然后通过查表,将其与t分布表进行比较,从而判断xi的差异显著性水平。如果大于显著性水平a,a值一般取值为0.05,则说明xi是小概率事件,应将其判定为异常值并剔除[3]。
(二)实例分析
在实际计量测试工作中,异常值处理是一个重要环节,必须剔除异常值,否则测量结果会受到较大的影响。但是如果不恰当的将含有粗大误差的数据剔除,则会造成测量重复性偏好家乡,影响数据测量结果的真实性,属于人为检测仪器等级行为。因此,对测量数据异常值的剔除方法选择十分重要,剔除方法过于严格或宽松,都会导致测量结果出现问题。上述几种异常值判断准则都是适用于处理粗大误差的常用方法,在使用这些方法剔除异常数据时,需要考虑置信概率问题,即随机变量落在置信区间的概率,这里的置信区间是指测量数据取值范围。
下面结合一个计量测试案例进行具体分析:在对某测量值进行等精度测试时得到的组测量数据为10.002、10.218、10.204、10.228、10.312、10.220、10.320、10.346、10.342、10.230。分别采用上述几种异常数据判定方法对异常数据进行判定,置信概率为95%,α=0.05。将最大值10.346作为可疑值,对该组数据进行平均值计算,结果为-x=10.2317,经过查表得到σ=0.0912,G(α,n)=2.41,D(α,n)=0.525,Wn=0.1943,k=2.1315。对应的X1平均值为10.2231,δ=0.0912,s=0.0888,。经上述方法判定后可以确定10.346为异常值,应将其剔除。
在上述案例中,采用不同方法进行异常数据判定,结果是相对一致的,即10.346均为异常值。在比较和判定过程中,G(α,n)s与10.002~10.2317最接近,说明在此情况下选择格拉布斯准则判定效果更好。通过上述判定过程可以总结出异常数据判定的一般思路。首先应确定某一统计量,如果该统计量属于规定范围,则认为其符合正态分布,否则数据不符合正态分布,存在明显误差。在判定异常数据时,为了减少判定工作,可以将数据进行大小顺序排列,首先将极值作为可疑值,极值如果不是异常值,则其他数据也不会出现异常。在具体测量工作中,需要通过采用查表和计算等方法,将统计计算值与参考值进行比较,其中标准差σ均采用贝塞尔公式进行计算,其适用条件为测量次数不少于10,如果测量次数足够多,比如在50次以上,在采用3σ准则进行检验十分方便。狄克逊准则的优势是可一次剔除多个异常值,适用于存在多个可疑值的情况。其他方法在剔除某个异常值后,需要重新计算剔除后的样本平均值、标准差,再进行后续判断。根据具体应用情况选择异常数据剔除方法,可以在保证准确性的基础上,提高检验效率。
结束语:综上所述,在计量测试工作中,受多方面因素影响,容易出现异常数据,通过采用科学的异常数据剔除方法对其进行检验和判断,可以有效识别异常数据,并将其剔除出去,确保测量结果的可靠性。通过对几种测量异常数据剔除方法进行分析,可以为实际测量工作提供参考,提高其识别能力和剔除效率。
参考文献:
[1]栾朝晖.浅谈计量测试中异常数据的剔除方法[J].江西建材,2017(04):282.
[2]杨绪,王兴龙.计量测试中异常数据剔除方法的探讨[J].科技风,2016(15):136.
[3]孙飞,丁成.针对计量测试中异常数据剔除方法的探讨[J].黑龙江科技信息,2015(32):79.
论文作者:陈佩茹
论文发表刊物:《基层建设》2018年第25期
论文发表时间:2018/9/18
标签:数据论文; 异常论文; 测量论文; 方法论文; 测试论文; 准则论文; 可疑论文; 《基层建设》2018年第25期论文;