浅析大数据清洗技术的重要性及方法
吴宇豪
(北京市顺义区北京首都机场航空安保有限公司 100621)
摘 要: 大数据、区块链、深度学习近年来频繁出现在人们视野内,显然大数据已经潜移默化的融入到我们的生活中。大到国家政要、小到人民百姓,几乎每个人都对数据有了一定的认识,产生了兴趣。价格低廉的硬件设备、性能卓越的处理工具、以及海量的免费数据,这种高密度的数据汇聚让我们可以更好地挖掘价值、模拟未来。当然,海量数据里面漂浮着大量“垃圾”,但科学研究不能使用这些“垃圾”数据,为了规范数据标准,在正式形成数据科学的核心的算法、算例之前,我们会将这些“垃圾”数据经过解码、编码、填充、归一、打散等方式进行清洗。
关键词: 大数据;数据挖掘;数据清洗
1 数据清洗重要性
根据美国硅谷大数据和Google 检索数据统计,数据清洗工作时长占用数据科学家近七成的有效工作时间,所以数据清洗也被业内称为看门人工作。虽然这项工作没有像数据挖掘、深度学习被给予足够的重视,但是其工作价值是非常宝贵的,做好数据清洗,就是为后期数据研究打好基础,因为对于计算机科学而言,“false in and out”是亘古不变的真理。
运用本单元主要阅读策略“Scanning(寻读)”,让学生细读Paragraph 3,找到并在教材上勾划出关键信息,核查读前环节的预测是否正确,引导他们逐步从表层理解过渡到深层理解,认识到保护熊猫的紧迫性。同时,学习“动物保护”话题的句型,如:Adult pandas spend more than 12 hours a day eating about 10 kilos of bamboo.There are fewer than 2000 pandas living in the remaining forests.等,为后续写作积累素材。
2 数据研究过程
数据研究是一个非线性的科学研究过程,而数据清洗则是这个过程中的一个关键环节。我认为数据研究共分为五个环节:
Pena等评估了低分子量的基于半胱氨酸的AAS及其对应gemini的DNA转染率[158]。这些表面活性剂没有显示细胞毒性,与市面上的同类产品相比,它们能更有效地转染CHO-K1(中国仓鼠卵巢)细胞。
(1)确定研究方向和目标。确定你要研究结果,解决何种问题;
例3 (新编题)在如图3所示装置中进行电解(用铅笔芯作电极),3min后,将湿润的淀粉-KI试纸靠近阳极处不变蓝,用带火星木条靠近阳极,木条复燃。写出阳极的电极反应式:____。
(2)实施数据汇聚与存储。确定数据来源、数据存储介质和格式;
(3)进行数据清洗。确定适用于后期数据挖掘、分析的数据内容,统一进行数据增改删;
3.1.2 3∂原则-正态分布监测
事先定义相似性度量,那么出现远离其他对象的对象就是离群点。这个测算方法不适用大数据集,因为距离测算使用全局阈值,不能分析密度不同区域的数据。
可以看出,数据清洗的作用是承上启下的,是一个反复过滤的工作,能否做好数据清洗对于未来进行数据分析和挖掘意义重大,数据分析和挖掘同样影响数据选取方式。
3 数据清洗方法
3.1.3 距离测算
SCS理念指的是时空隧道+任意门(Spatio-temporaltunnel)、文化创意(Culturaloriginality)、智慧旅游(Smarttourism)理念的相互结合,即建设动态的具有时空性的充满文化创意的大别山红军文化旅游景点,并将智慧旅游灌入其中使之便捷化,从而打造出独具特色的SCS核心理念的大别山旅游体验型产品。
3.1.1 pandas 统计分析
图1 EDA 数据分析离散型和连续型结果
异常数据主要分为四类:离群点(Outlier)、排重(Duplicate Data)、缺省值(Missing Value)和噪音处理(Noise Handling)。
3.1 离群点
(4)基于异常分离的概率成像能有效提高重力异常和重力梯度异常成像的分辨率,综合利用重力异常和重力梯度各分量结果能够提高地质解释的准确性。若实测资料没有重力梯度数据,可以应用理论公式把重力异常变换为导数函数,再进行重力异常和重力梯度综合解释与分析。
EDA 阶段即可通过pandas 调用describe 方法自动计算字段,实现数据集分析,直接找出离群点。
排重分析基于排序后统一思想,数据集按规则排序后,通过比较相邻数据分析是否重复。排重分为两个动作:①排序;②统计相似度。可以使用pandas 调用drop_duplicated 方法对统计出的重复数据进行删除处理。
(4)数据分析和深度学习。清洗后的数据转换使用,确定深度学习算法、算例;
数据呈正态分布,我们即可遵循3∂原则,即离群点为一组测算值中与平均值的偏离大于3 倍标准差的值。如果概率为P(|x-u|>3∂)<=0.003,这种情况属于个别事件。
想要进行数据清洗工作,首先要完成探索性数据分析(Exploratory Data Analysis,简称EDA),根据分析结果进行数据预处理,也成称为异常值处理。探索性数据分析可以让我们对原始数据进行初步认识,了解数据的数据分布、分析方向、和排除单个变量异常等情况,可以利用Python科学计算工具绘制统计模型图1,验证数据研究提出的各种假设。
(5)数据统计和可视化。确定经过科学计算的数据要以何种方式呈现。
对于分析出的离群点,可以直接删除,或者可以不处理。如果数据算法对离群点敏感,还可以采用平均值替代,或者视为缺省处理。
3.2 排重
译文:“Yes yes,I already know…”Xiao Ning said indifferently,nodding slightly.With a wry smile he looked at Xun\’er,proudly saying in his heart,I will let you know,that guy is only a pillow with an embroidered case!
图像融合是指把相同或不同医学影像设备所获取的影像进行融合,使其在空间位置上达到重合,产生一种复合的影像,可以最大限度地发挥各种医学影像学的优势。空间定位技术是两种图像进行融合的纽带,超声图像融合主要应用电磁定位法[12]。图像定位需要在待融合的两幅图像中选择相对应的定标点,临床上常用的是基于内部特征的体内标记法,标记点多选择肝内有较大特征的结构,如门静脉或肝静脉分叉处、肝内小囊肿或小钙化灶等。
3.3 缺省值
数据集中存在缺省值得情况非常普遍,对于缺省值的处理结果会直接影响数据模型。None 和NaN 都是python 中的缺省值,类型分别是NoneType 和float。对于处理缺省值时,当缺省率高于95%且数据属性不重要时,直接删除即可;缺省率较高但数据属性重要时,可以通过模塑法处理,利用贝叶斯公式(Bayes)、回归分析、随机森林(RandomForests)等方法建立模型进行分析。还可以使用插补处理法,推荐使用随机插补、热平台插补和多重插补法。
(1)随机插补——随机抽取样本替代缺省样本;
(2)热平台插补——在非缺省数据集寻找缺省相似值进行插补;
(3)多重插补——使用蒙特卡洛法建立数据集,汇总结果处理。
3.4 噪音处理
噪音处理与离群点有区别,其公式为Measurement=True Data+Noise。离群点产生的数据可能包括噪音,而噪音包括偏离点值和错误值,并且有些特定应用会针对离群点做数据异常挖掘,所以不能将统一做异常抛弃。噪音通常使用回归法,将数据拟合到多维面,利用回归找出数学方程式消除噪音。还可以利用分箱法处理噪音,分箱法是考虑相邻的数值,是一种局部平滑方法,去除噪音将数据离散化,提高数据颗粒度,通常箱体宽度越大,光滑越明显。
4 总结
数据清洗的目的还是在于最终我们要将挖掘好的数据可视化呈现,借助图表、图形等手段,高效传递信息。我们身处这个大数据时代下,应该利用高新技术将统计学与计算机科学相结合,直观表达数据背后隐藏的特征,深入领悟数据蕴藏的巨大价值。
参考文献
[1]Hellyer Paul.Clean data is essential for research[J].British dental journal,2019,227(2).
[2]陈孟婕.数据质量管理与数据清洗技术的研究与应用[D].北京邮电大学,2013.
[3]王铭军,潘巧明,刘真,陈为.可视数据清洗综述[J].中国图象图形学报,2015,20(04):468-482.
中图分类号: F234.3
文献标识码: A
文章编号: 1004-7344(2019)28-0223-02
收稿日期: 2019-6-14
作者简介: 吴宇豪(1991-),男,北京人,助理工程师,本科,研究方向为计算机科学与技术。
标签:大数据论文; 数据挖掘论文; 数据清洗论文; 北京市顺义区北京首都机场航空安保有限公司论文;