摘要:由于多媒体等多种技术的发展与应用,各领域都发生了很大的变化,每天不仅产生大量的数据,而且数据更新换代的速度极快。人们在处理以及分析数据的过程中,继续使用传统的智能数据分析技术已经难以实现理想的效果,专家开始意识到必须尽快开发新的技术。这就需要了解典型理论和技术,掌握不同种方法的特点,这样才能有效的避免各自的劣势,充分发挥优势达到互补的作用。本文在分析不同种传统数据智能分析方法的基础上,分析了结合新平台开发的新型分析方法。
关键词:大数据;智能数据;技术分析
引言
当前世界依然迎来了大数据时代,随着多媒体等多种技术的应用,社会中的相关领域时刻都涌现大量的数据,增加了技术处理以及分析的难度。通常情况下大数据具有复杂性,而且还具有数量大、分布式的特点,这样就必须要采取新的技术方法对数据进行处理,因此智能分析技术在数据的处理中具有非常重要的意义。
一、大数据概述
1.1大数据
大数据就是通过统计分析计算机收集的数据,在人们可能不知道“为什么”的前提下,了解到事物的状态、趋势、结果等“是什么”。
对于大数据,一直来说,数据规模导致的存储、运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够了,后来类似海杜普这样的研究则彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。
从技术层面说,大数据和以前的数据时代的最大差异在于,以前是数据找应用/算法的过程(例如各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。
大数据的特点:
(1)大数据不等同于数据大,我们处理问题是根据这个问题的所有数据而非样本数据,即样本就是总体;不是精确性而是混杂性;不是因果关系而是相关关系。
(2)大数据应用的几个可能:当文字变成数据,此时人可以用之阅读,机器可以用之分析;当方位变成数据,商业广告,疫情传染监控,雅安地震时的谷歌寻人;当沟通变成数据,就成了社交图谱。一切都可以量化,将世界看作可以理解的数据的海洋,为我们提供了一个从来未有过的审视现实的视角。
(3)数据创新的价值:数据的再利用。例如重组数据:随着大数据出现,数据的总和比部分更有价值,重组总和和本身价值也比单个总和更大;可扩展数据:在设计数据收集时就设计好了它的可扩展性,可以增加数据的潜在价值;数据的折旧值:数据会无用,需淘汰更新;数据废气:比如语音识别,当用户指出语音识别程序误解了他的意思,实际上就有效的训练了这个系统。
总之,大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了突出的技术和算法才体现了它的价值。
1.2数据分析
数据分析的过程其实简单的说就是做报告,做什么样的报告反映什么样的指标。最开始的时候基本上是data processing。例如零售行业来说,最主要的指标就是库存、销售同比增长情况、利润同比增长情况、促销率等等。对于不同的行业会有不同的相关的KPI需要跟踪,所以报告的内容也会有所侧重,但是只要你一个行业做久了,熟悉了套路之后,基本上就是以同样的方法开展。
对于数据分析,如果公司部门分的比较细的(例如可能有建模组),那么做数据分析可能永远都是做data processing了。对于模型的分析,需要你对业务有了深入的了解就可以建立一些模型出来(例如推荐模型)等等。
数据分析主要涉及的技能:
(1)数据库的能力。越全面越好,如果不是理工科的,最起码要会select那些简单的查询语句。
期刊文章分类查询,尽在期刊图书馆
(2)EXCEL、PPT的能力。报告的呈现一般都是Excel+PPT的形式,最好VBA,这样就可以将很多人工的工作转化为自动化的能力,提高工作效率,领导也对你刮目相看,自己也有更多空余的时间准备其他方面的知识。
(3)市场分析能力。学会观察市场的走向和关注的内容,例如零售行业,现在大家都对CRM很热衷,那相关的分析方法和方式是怎么样的,你要自己去了解。从来不会有人手把手的将所有东西都告诉你,你必须自己学会去增长知识。
(4)一些会计的知识。因为通过以上分析,就是会计管理的一部分内容,最后还是公司盈利问题。有兴趣的也可以去看看战略管理方面的,对于做数据分析也很有好处的说。
综合来看,可以说数据分析=技术+市场+战略。
二、几种常见的智能数据分析法
虽然在大数据时代传统的智能数据分析法已经不能适应当前的需求,但是依然有一定的相似性,相关理论和技术依然可以沿用,几种常见数据分析法:第一种方法是决策树。这种数据分析方法需要基于信息论基础上,这种方法实现的输出结果容易理解,精确度较高,效率也较快,但是它不能用来对复杂的数据进行处理与分析。第二种方法是关联规则。这种方法主要是用于事物数据库中,通常带有大量的数据,当今使用这种方法来削减搜索空间。第三种方法是粗糙集。这种数据分析方法能够对数据进行主观评价,只要通过观测数据,就可以清除冗余的信息。第四种方法是模糊数学分析。这种数据分析方法能够对实际问题进行模糊的分析,与其他的分析方法相比,能够取得更为客观的效果。第五种方法是人工神经网络。这种数据分析方法具有自学习功能,在此基础上还具有联想存储的功能。第六种方法是混沌和分形理论。这两种理论主要是用来对自然社会中存在的现象进行解释,一般用来进行智能认知研究,还能应用于自动控制等众多领域中。第七种方法是自然计算分析方法。这种数据分析方法根据不同生物层面的模拟与仿真,通常可以分为以下三种不同类型的分析方法:一是群体智能算法,二是免疫算法,三是DNA算法。群体智能主要是对集体行为进行研究,免疫算法具有多样性,经典的主要有反向、克隆选择等,而DNA算法主要使属于随机化搜索方法,它可以进行全局寻优,在实际的运用中一般都能获取优化的搜索空间,在此基础上还能自动调整搜索方向,在整个过程中都不需要确定的规则。当前DNA算法普遍应用于多种行业中,并取得了不错的成效。
三、大数据背景下的智能数据分析技术
大数据具有一定的复杂性,只有通过使用新的智能分析技术才能对数据进行有效处理。目前已经有专家针对大数据提出了新的智能分析技术方案,例如HAVEn、Teradata Aster分析平台,经过研究发现推出的一系列分析方案,基本上离不开Hadoop分析平台。Hadoop主要分为以下两大部分,其中一个部分是分布文件系统,专家称之为HDFS,另一部分是分布计算系统,专家称之为MapReduce。一般来说HDFS主要是表现为主/从结构,其中主结构称为名字节点,主要功能是管理元数据,从结构通常称为数据节点。主要功能是用来存放,或者管理相关的应用数据。一个HDFS系统能够支持的数据非常庞大,一般能够达到10PB数量级,因此HDFS系统能够应用于大数据处理分析中。同时为了能够更好的支持大数据,在HDFS系统的基础上,还继续构建Hbase系统,该系统的接口语言色设为Pig。并且还构建了Hivi系统,该系统主要是属于数据仓库。此外还构建了机器学习软件包,称为Mahout,这样就可以对大数据进行有效管理以及分析。这些新的智能数据分析融合了多种传统的技术,能够对大数据进行更为全面、高效的分析。
结束语
传统中可应用的数据智能分析技术多种多样,常用的主要有七种方法,每一种方法都有自身的优势以及局限性,如果在大数据中单一使用一种方法,根本就不能达到理想的效果。但是凭借当前的技术水平还不能找到通用的智能分析技术方法,这就需要将传统的多种方法结合起来,这样就可以弥补各自的缺陷,而且还能充分发挥优势,这是当前大数据智能分析技术的重要研究方向。沿着这个方向,目前已经开发了hadoop,这个系统不仅集合了传统的方法,而且还结合了新型平台,是一种全新的技术,未来需要专家不断的进行探索与研究,继续开发更好的数据智能分析方法。
参考文献
[1] 杨舒林.智能分析技术发展现状及应用[J].中国公共安全.2015,08(14):207-209.
[2] 顾君忠.大数据与大数据分析[J].软件产业与工程,2013(4):117-121.
[3] 符新双.浅析智能分析技术在集成领域的应用与发展[J].中国安防.2014,10(12):105-107.
论文作者:时磊
论文发表刊物:《基层建设》2019年第6期
论文发表时间:2019/4/29
标签:数据论文; 技术论文; 智能论文; 方法论文; 种方法论文; 算法论文; 系统论文; 《基层建设》2019年第6期论文;