论大数据的数据来源与采集论文_盛海

【摘要】大数据开启了一个大规模生产、分享和应用数据的时代，它给技术和商业带来了巨大的变化。麦肯锡研究表明，在医疗、零售和制造业领域，大数据每年可以提高劳动生产率0.5-1个百分点。如何保证数据采集的有效性，正确合理的大数据采集与治理给予其重要支撑.

【关键词】大数据的来源大数据的采集手段数据质量

大数据的来源多样，如商业数据、互联网数据、传感器数据等.如何获取这些体量大，产生速度越来越快的大数据，且使得这些来自各个途径的的大数据协同起来，达到有效利用，是大数据采集阶段的核心工作.数据治理就是把零散数据变为统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程. 在维克托·迈尔舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。

1、大数据的来源与采集方式.

首先，来源多样是大数据的一个重要且普遍的特征，针对不同来源的数据我们应该采用不同的采集方式.世界上的一切数据都是人为的结果，由于计算机对数据描述的特殊性，获取数据的过程就是计算机中0-1数据的生成过程.目前我们数据获取的来源主要是3大类。即对现实世界的测量、人类的记录和计算机生成。对现实世界的测量是指通过仪器或者测试系统来获得数据.比如机器产生的服务器日志、传感器数据、科研数据、社会安全监控网络数据、医疗影像数据等等.这类数据具有各种结构共存的特点，且规模大，更新快，领域划分细致.所以该数据价值密度不高.人类的记录是指外部信息通过我们人脑的识别整理转换成计算机信息.通常我们把它分成关系型数据库的数据和数据仓库的数据两类.这类数据由于以结构化形式存在，所以数据模式清晰，数据语义明确。虽然规模通常不大，且增长速度较慢，但数据价值密度大.必须指出的是，其中的微博、微信等为代表的人类用户在使用信息系统过程中的记录行为数据，由于缺少数据管理人员的维护及先天的数据缺陷，因此数据质量不高，数据密度价值较小.计算机生成的数据是它通过对现实世界的模拟产生的数据，这类数据的模式固定、规模可控，且数据质量高.

2、数据的采集

数据采集(DAQ)，总的来说就是从真实世界中获得原始数据的过程，即从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析、处理。由于网络带宽、传感器节点能量、网站TOKEN等资源的限制，我们需要设计出高效的数据采集技术从而在有限的资源内实现其价值最大化。

期刊文章分类查询,尽在期刊图书馆且由于资源的限制，数据采集不可能获得采集对象的全部信息，使得我们也必须要设计出准确的数据采集技术，让我们能精准的认识到现实对象的正真情况.根据数据源特征的区别，我们可以把数据采集分为两大类：基于拉（Pull-based）的方法和基于推（Push-base）的方法。即数据由集中式或分布式的代理机主动获取和数据由源或者第三方推向数据汇聚点.

数据采集的方法主要有以下四种：1、传感器：传感器通常应用在测量物理环境变量并将其转化成数字信号，是采集物理世界信息的主要途径.其中主要有声音、震动、压力、温度、距离等类型.2、系统日志：对系统日志进行详细的记录是使用最广泛的数据获取方法.系统日志由系统运行时产生，系统日志记录了系统的行为、状态和它与用户之间的交流互动.和物理上的传感器相比，系统日志可以视为软件传感器。系统日志在诊断系统错误、优化运行效率、发现用户的偏好和使用习惯等方面被广泛使用，设计系统日志的重点在于对用户和系统之间互动行为的认知.3 、网络爬虫：又称为网页蜘蛛，网络机器人等，是一种按照一定的规则，自动地抓取网络信息的程序或者脚本。它为搜索引擎（例如谷歌、白底）从互联网上下载网页，是搜索引擎的重要组成部分. 一个网络爬虫就是一种机器人，也称为软件代理。大体上，它从一组要访问的URL链接开始，可以称这些URL为种子.由于网络的巨大的数据量、快速的更新频率、动态页面的产生等特点产生了很多种类的爬虫抓取链接。网络爬虫的效率直接关系到大数据分析和挖掘的整体效率，目前使用广泛的优化方法有爬取策略优化和爬虫结构设计优化.4、众包：在美国《连线》杂志2006年的6月刊上，该杂志的记者Jeff Howe首次推出了众包的概念，即指一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式外包给非特定的、而且是大型的大众志愿者的做法.众包和外包的不同之处在于外包强调的是高度专业化，而众包则反其道而行之，跨专业的创新往往蕴含着巨大的潜力，由个体用户积极参与而获得巨大成功.维基百科就是其中的典范.众包通过大量用户参与来获得恰当数据，使用户参与到这广阔的创新与合作过程中. 众包植根于一个平等主义原则：每个人都拥有对别人有价值的知识或才华。众包作为桥梁将“我”和“他人”联系起来。每个人都拥有自己的特质，每个“我”都站在众包的中心.

3、数据离散化

由于现实世界的连续性，所以传感设备采集到的数据都是连续数据，而计算机只能处理0-1形式存储的离散数据，把连续数据转化成计算机可以处理的离散数据的技术就成为数据的离散化. 通过将属性域划分为区间，离散化技术可以用来减少给定连续属性值的个数。区间的标号可以替代实际的数据值。如果使用基于判定树的分类挖掘方法，减少属性值的数量特别有好处。通常，这种方法是递归的，大量的时间花在每一步的数据排序上。因此，待排序的不同值越少，这种方法就应当越快。许多离散化技术都可以使用，以便提供属性值的分层或多维划分.离散化数据的方法主要有1、等距：将连续变量的取值范围均匀划成n等份，从而实现数据的离散化.2、等频：把观察点均分为n等份，每份内包含的观察点数相同.3、优化离散：将自变量和目标变量联系起来考察.

进入2019年，大数据技术越来越多地被人为是人类即工业革命后最伟大的技术革命，人们用大数据来描述和定义信息爆炸时代产生的海量数据，全球知名咨询公司麦肯锡称：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。大数据带给我们的三个颠覆性观念转变：是全部数据，而不是随机采样；是大体方向，而不是精确制导；是相关关系，而不是因果关系。而整个大数据技术中数据的来源选择和精准的数据采集技术也成为我们需要重点关注和解决关键性的问题.

论文作者:盛海

论文发表刊物:《工程管理前沿》2019年21期

论文发表时间:2019/11/29

标签：数据论文; 数据采集论文; 系统论文; 传感器论文; 爬虫论文; 来源论文; 技术论文; 《工程管理前沿》2019年21期论文;

论大数据的数据来源与采集论文_盛海

猜你喜欢