大数据及其成因,本文主要内容关键词为:成因论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
传统意义上的“数据”,是指“有根据的数字”,数字之所以产生,是因为人类在实践中发现,仅仅用语言、文字和图形来描述这个世界是不精确的,也是远远不够的。例如,有人问“姚明多高?”,如果回答说“很高”、“非常高”、“最高”,别人听了,只能得到一个抽象的印象。但如果回答“2.26米”,就一清二楚。除了描述世界,数据还是我们改造世界的重要工具,人类的一切生产、交换活动,可以说都是以数据为基础展开的,例如度量衡、货币,其背后都是数据,它们的发明和出现,都极大地推动了人类文明的进步。
一、大数据现象的成因源于信息技术的发展
数据最早的来源,是测量,所谓“有根据的数字”,是指数据对客观世界测量结果的记录,而不是随意产生的。测量,是从古至今科学研究最主要的手段,可以说,没有测量,就没有科学,也可以说,一切科学的本质都是测量,就此而言,数据之于科学的重要性,就像语言之于文学,音符之于音乐,色彩、形状之于美术一样,离开数据,就没有科学可言。
除了测量,新的数据还可以由老数据经计算衍生而来,测量和计算,都是人为的,也就是说,世上本没有数,一切数据都是人为的产物。我们说的“原始数据”,并不是“原始森林”,原始森林是指天然就存在的,而原始数据仅仅是指第一手、没有经过人为修改的数据。
传统意义上的数据、信息和知识具有完全不同的概念。数据是信息的载体、信息是有背景的数据,而知识是经过人类的归纳和整理,呈现规律的信息。
图1 传统意义上数据和信息的区别
但进入信息时代之后,“数据”二字的内涵开始扩大,它不仅指“有根据的数字”,还统称一切保存在电脑中的信息,包括文本、声音、视频等等。其中的原因,是因为1960年代软件科学取得了巨大进步,发明了数据库(database)。此后,数字、文本、图片都不加区别的保存在电脑的数据库中,数据也逐渐成为“数字、文本、图片、视频”等等的统称,也就是“信息”的代名词。
文本、音频、视频,其本身就已经是信息,而且它们的来源也不是对世界的测量,而是对世界的一种记录,所以信息时代的数据,又多了一个来源:记录①。
图2 从传统意义上来说:信息是有背景的数据
除了内涵的扩大,数据库发明之后,还有一个重要的现象在发生,那就是数据的总量在不断增加,而且增加的速度不断加快。到了1980年代,美国就有人提出了“大数据”的概念,这个时候,还没有进入数据大爆炸的年代,但已有人预见到,随着信息技术的进步,软件的重要性将下降,数据的重要性将上升,因此有了“大数据”的提法,这时候的“大”,主要指数据价值上的重要性。到了2000年代,尤其是2004年社交媒体产生之后,数据开始爆炸,大数据的提法又重新进入了大众的视野,并获得了更大的关注,这个时候的“大”,含义也更加丰富了,一是指容量大,二是指价值大。
从这个角度出发,大数据可以首先理解为传统的小数据加上现代的“大记录”,这种大记录,其主要的表现形式是文本、图像、音频、视频等等,和传统的测量完全是两回事。而且大数据之所以“大”,主要是“大记录”的增长,因为信息技术的进步,人类记录的范围在不断扩大:
大数据=传统的小数据+现代的大记录
(源于测量)
(源于记录)
但到底多大才算大呢?十多年来颇多争议,这首先涉及的衡量数据大小的单位,2000年,“太”级别的数据就被认为是大数据了,这个时候,拥有“太”(T)级别数据的企业并不多,但这之后,互联网企业开始崛起,这些企业拥有各种各样的数据,其中大部分都是文本、图片和视频,因此容量巨大,传统的企业根本无法望其项背。
理解几个主要的存贮单位:
一首音乐≈约4个兆(M)
一部电影≈约1个吉(G)(1个吉=1024个兆,相当于250首歌曲的大小)
一个普通图书馆的藏书≈1个太(T)(1个太=1024个吉,相当于1024部电影的大小)
我认为,除了互联网行业,各行各业的数据都在爆炸,只是规模不同,如果仅仅把大数据的标准限定在互联网企业,认为只有互联网企业才拥有大数据,那就严重的窄化了大数据的意义。毕竟容量只是表象,价值才是本质。大数据的真正意义还是在于大价值,价值的获得,主要是通过数据的整合、分析和开放。大数据是指人类有前所未有的能力来使用海量的数据,在其中发现新的知识、创造新的价值,从而为社会带来“大知识”、“大科技”、“大利润”和“大智能”等等发展机遇。
之所以能从数据中发现知识,还是因为数据是对世界的测量和记录。人类知识的唯一来源,是对过去经验的整理,这依赖于对过去的记录。如果传统的数据是人类部分知识的来源,那现代意义上的大数据将逐渐成人类全部知识的来源,因为人类的记录范围正在呈加速度扩大。
对客观世界的记录,也是对历史和现实的记录。随着人类跃进到大数据时代,数据不仅是一种新的历史记录方式、还将是记录历史最好、最可靠的方式。从今以后,所有的历史记录,无论是文字、图像、音频、视频,还是数字,都将以数据的形式存在,历史将是动态的数据,数据是静态的历史。历史的碎片,就是游离的数据,历史的迷雾,就是模糊的数据,历史的盲点,就是缺失的数据。用数据构建的历史,因为精确的细节而永远鲜活,后世的历史学家能够经由数据再现当时的社会情况。
以上的论述,是从概念上分析“数据”和“大数据”的区别,掌握一个概念最好的方法,还是从动态上了解其成因。大数据现象的成因,不仅是因为人类信息技术的进步,而且是信息技术领域不同时期多个进步交互作用的结果,其中最重要的原因,当数摩尔定律。
二、摩尔定律奠定了大数据现象形成的物理基础
1965年,英特尔(Intel)的创始人之一戈登·摩尔(Gordon Moore)在考察了计算机硬件的发展规律之后,提出了著名的摩尔定律。该定律认为,同一芯片面积上可容纳的晶体管数量,一到两年将增加1倍。②要理解这种增加的意义,并不简单。摩尔的本意是,因为单位面积芯片上晶体管的密度增加了,计算机硬件的处理速度、存贮能力,即其主要的性能,一到两年将提升1倍。本来性能提升了,价钱也应该上升才对。但现实却很诡异,半个多世纪以来,硬件的性能不断提高,但价钱却持续下降。其中的主要原因,也是因为晶体管越做越小,这种体积的缩小也导致了其成本的下降,再加上人类对晶体管的需求越来越大,大规模的生产也不断导致价格下降。
回顾这半个多世纪的历史,硬件的发展,基本符合摩尔定律。以物理存贮器为例,正是性能不断上升、同时价格不断下降。1955年,IBM推出了第一款商用硬盘存贮器,1兆字节的存贮量需要6000多美元,这之后,其价格不断下降;1960年,1兆字节下降到3600美元;1993年,下降到大概1美元;2000年,再降到了1美分左右;到2010年,每兆价格约为0.005美分。半个多世纪,存贮器的价格,下降了1.2亿万倍,这种变化的速度既巨大、又剧烈,令人瞠目结舌。事实上,考察人类全部的历史,没有其它任何一种产品,其价格下降的空间能够如此巨大!
晶体管行业(即半导体行业)也是人类历史上最高产的行业。现在一年生产的晶体管比全球一年消耗的大米颗粒还要多。2002年,人类生产的晶体管数量大概是大米的40倍,买一粒米的钱可以购买100个晶体管③;2009年,晶体管的产量上升到大米的250倍,一粒大米的价钱可以购买10万个晶体管④。
图3 1971—2011年中央处理器上的晶体管数量和摩尔定律
图表来源:维基百科
注:纵坐标为晶体管数量,横坐标为年份。该曲线表明,从1971—2011年,大概每两年同一面积大小中央处理器集成电路上的晶体管就增加了1倍,需要注意的是,纵坐标从2300到1万再到10万,其实不成比例,如果严格按比例作图,将是一条非常陡峭的曲线,页面无法容纳。
摩尔定律发展到今天,一根头发尖大小的地方,就能放上万个晶体管。当然,晶体管不可能无限制缩小,所以近十多年来,业界曾经为以下问题激烈争论:摩尔定律所揭示的现象还会不会持续,即单位面积上的晶体管还能不能继续增加、甚至翻倍?如果能,又还能持续多久?
作为摩尔定律的发现人,2003年,戈登·摩尔也被问到这个问题,他认为“创新无止境,下一个十年摩尔定律可能还将有效”。
事实证明,摩尔是对的。2011年,英特尔公司宣布发明了22纳米的3D晶体管,这为争论暂时划上了句号。此前,晶体管为31纳米,22纳米的晶体管,小了大概1/3。因为小,新的晶体管比现在还要便宜、还要节能。2012年,英特尔又宣布将投资50亿美元在美国亚利桑那州建厂,计划2014年投产14纳米的晶体管,这比22纳米的尺寸又将缩小了1/3。
英特尔的发明,让大部分科学家都相信,摩尔定律的生命,将延续到2020年。预计到2020年时,1太硬盘的价格将下降到3美元,这相当于一杯咖啡的价钱。前面我们提到,一所普通大学的图书馆,其馆藏量可能就一两个太,也就是说,到2020年,只要花一杯咖啡的价钱,就可以把一个图书馆的全部信息容量拷进一个小小的硬盘,信息保存的过程如此方便,成本如此低廉,历史上从来没有过。
摩尔定律,已经成为了描述一切呈指数型增长事物的代名词,它给人类社会带来的影响,非常深远。正是因为存贮器的价格在半个世纪之内经历了空前绝后的下降,人类才可能以非常低廉的成本保存海量的数据,这为大数据时代的到来铺平了硬件的道路,这相当于物质基础,没有它,大数据无异于水中月、镜中花。
除了便宜、功能强大,摩尔定律也导致各种计算设备越来越小。这个现象,在1988年被美国科学家马克·韦泽(Mark Weiser)概括为“普适计算”。普适计算认为,自从计算机发明以后,将经历三个主要的阶段,一是主机型阶段,指的是很多人共享一台大型机,一台机器就占据半个房间;二是个人电脑阶段,计算机变小,人手一机,韦泽当时就处于这个时代,这似乎已经是很理想的状态,但韦泽天才的预见到,人手一机不是时代的终结。在第三个阶段,计算机将变得很小,小得将从人们的视线中消失,人们可以在日常环境中广泛部署各种各样微小的计算设备,在任何时间、地点都能获取并处理数据,计算最终将和环境融为一体,这个阶段,被称为普适计算。
今天,这第三股浪潮正在向我们奔涌而来,小小的智能手机,其功能已经毫不逊色于一台计算机,各种传感器正越做越小,射频标签(RFID)方兴未艾,可穿戴式设备又向我们走来。
RFID标签已经在零售、医疗、动物饲养等领域得到了广泛的应用,近两年,美国费城等城市在垃圾桶内安装RFID传感器,垃圾满了或者因为腐烂发出异味,传感器就会发出信号,这可以优化垃圾车的巡回路线,减少城市管理人员收集垃圾的次数。
可穿戴式设备是指可以穿戴在身上,不影响个人活动的微型电子设备,这些设备可以记录佩戴者的物理处置、热量消耗、体温心跳、睡眠模式、步伐多少以及健身目标等数据。2013年,德国的一个足球俱乐部TSG Hoffenheim已经把传感器装到了足球和每个球员的护膝或者衣服上。这些传感器可以实时记录运动员的活动轨迹、奔跑的速度、加速的过程、控球的时间,一场足球比赛下来,系统可以收集6000万条记录,球员、教练都可以对这些数据做出分析,提高训练的质量,制定最佳组合,减少运动员受伤的概率。
除了足球,传感器也进入了网球场。法国的运动器材制造商Babolat把传感器安装在了网球拍的手柄上,它可以记录球员击球时的状态,例如正反拍、击球点、击球的力量、球速、球的旋转方向等参数,这些数据,以几乎实时的速度传到现场的智能手机和平板电脑,运动员和教练可以随时查看,2014年在澳网封后的中国网球一姐李娜用的就是这个品牌的球拍。为了配合这种球拍的使用,2013年,国际网球联合会(International Tennis Federation,ITF)已经修改了章程,从2014年1月起允许运动员在国际比赛中使用带有传感器的球拍,以记录分析自己的数据。未来的比赛,如果运动员同意,这些数据甚至可以实时出现在比赛场地的大屏幕上,以供观众分析参考。
除了足球、网球,传感器也在快速进入棒球、橄榄球等领域。美国的一些研究机构认为,美国运动产业的营业收入近年内会有大幅增长,其主要原因就是基于传感器的数据收集和分析技术将改写整个领域的生态。
除了运动,可穿戴式设备还有很多。2014年2月,日本东京大学的研究人员发明一种比羽毛还要轻的传感器,把它放置在纸尿片内,尿片一湿,信号就发出,看护就知道。成本只需几个美分,这种传感器不仅适用于婴儿,还适用于老人、病人。此外,风靡一时的谷歌眼镜,作为穿戴式设备最经典的产品,也在娱乐之外得到了更广泛的应用,美国纽约市的警察准备在日常巡逻中配戴谷歌眼镜,以方便快速记录事故现场,并通过网络和同事共享数据。
普适计算的根本,是在人类生活的物理环境当中广泛部署微小的计算设备,实现无处不在的数据自动采集。这意味着人类收集数据能力的增强,在此之前,电子化的数据主要由各种信息系统产生,这些信息系统记录的主要是商业过程的数据,传感器的出现及其技术的成熟,使人类开始有能力大规模的记录物理世界的状态,这种进步,推动了大数据时代的到来。
但人类数据的真正爆炸发生在社交媒体的时代。
三、社交媒体和数据挖掘实现了大数据的“大价值”和“大容量”
2004年起,以脸谱(Facebook)、推特(Twitter)为代表的社交媒体相继问世,拉开了一个互联网的崭新时代,这个新时代,被称为Web 2.0。在此之前,互联网的主要作用是信息的传播和分享,其最主要的组织形式是建立网站,但网站是静态的。进入2.0时代之后,互联网开始成为人们实时互动、交流协同的载体。2011年8月23日,美国弗吉尼亚州发生5.9级地震,纽约居民首先在推特上看到这个消息,几秒钟之后,才感觉到地震波从震中传过来的震感,社交媒体把人类信息传播的速度,带到了比地震波还快的时代。
除了把交流和协同的功能带到了一个登峰造极的高度,社交媒体的另外一点重要意义,就是给全世界无数的网民提供了一个平台,让他们随时随地都可以记录自己的行为、想法。这种记录,其实就是贡献数据。我们谈到过,所有的数据都是人为产生的,所有的数据都是对世界的测量和记录。从1946年人类发明第一台计算机,进入信息时代算起,在社交媒体产生之前,主要是信息系统、传感器在产生和收集数据。但社交媒体的横空出世,人类自己也开始在互联网上生产数据,他们发推特、微博和微信,记录各自的活动和行为,这部分数据也因此被称为“行为数据”。
由于社交媒体的出现,全世界的网民都开始成为数据的生产者,每一个网民都好比一个信息系统、一个传感器,在不断制造数据,这引发了人类历史上迄今为止最庞大的数据爆炸。除了数据总量骤然增加,社交媒体还让人类的数据世界更为复杂,大家发的微博、图片、视频,大小和结构完全不一样,因为没有严整的结构。在社交媒体上产生的数据,也被称为非结构化数据,这部分数据的处理,远比结构严整的数据困难。2012年,乔治敦大学的Kalev Leetaru教授考察了推特上产生的数据量,他做出估算:过去50年,《纽约时报》总共产生了30亿单词的信息量,现在仅仅一天,推特上就产生80亿单词。也就是说,如今一天产生的数据总量相当于《纽约时报》100多年产生的数据总量。
在这种前所未有的数据生产速度之下,社交媒体的出现虽然还短短不到10年,目前全世界的数据已经有约75%都是非结构化数据。今天回头看,社交媒体的出现才是让大数据一锤定音的力量。基于以上分析,我们也可以这样认为:
大数据=结构化数据+非结构化数据
图4 各种数据的大小和种类
注:数据是对人类生活和客观世界的测量和记录。过去是我们选择什么东西需要记录,才对它进行记录,在大数据的时代,是选择什么东西不需要记录,才取消对它的记录。随着记录范围边界的不断扩大,可以肯定,人类的数据总量还将呈滚雪球式的扩大。
但大数据之大,不仅在于它的大容量,更在于它的大价值,价值在于使用,如同埋在地底下的石油,远古即有之,人类进入石油时代,是因为掌握了开采、冶炼石油的技术,现在进入大数据时代,最根本的原因,也是因为人类使用数据的能力取得了重大的突破和进展。
这种突破,集中的表现在数据挖掘上,数据挖掘是指通过特定的算法对大量的数据进行自动分析,从而揭示数据当中隐藏的规律和趋势,即在大量的数据当中发现新的知识,为决策者提供参考。数据挖掘的进步,根本原因是人类能够不断设计出更强大的模式识别算法⑤。这其实是软件的进步,其中最重要的里程碑,是1989年世界计算机协会(ACM)下属的知识发现和数据挖掘小组(SIGKDD)举办了第一届数据挖掘的学术年会,出版了专门期刊,此后数据挖掘得到了如火如荼的发展。
正是通过数据挖掘,近几十年来,各大公司谱写了不少点“数”成金的传奇和故事。例如,沃尔马捆绑“啤酒和尿布”提高销售量的做法;奈飞(Netflix)公司利用客户的网上点击记录预测其喜欢观看的内容,实现精准营销;阿里巴巴利用长期以来积累的用户资金流水记录,在几分钟之内就能判断用户的信用资质、决定是否发放一笔贷款,等等。
近年来,数据挖掘在企业的应用也在不断推陈出新,有望到达一个新的高度。例如,2014年1月,美国电子零售巨头亚马逊宣布了一项新的专利:“预判发货”(Anticipatory Shipping),即在网购时,顾客还没有下单,亚马逊就寄出了包裹。这种顾客未动、包裹先行的做法听起来不可思议,中国的新闻媒体甚至惊呼“亚马逊这是要逆天吗?”⑥
在商言商,亚马逊当然不会做赔本生意,预判发货的核心技术还是数据挖掘。其本质是,通过预测,把发货过程“外包”给算法,让算法自动发货,实现智能化!发货的根据,亚马逊解释说,是顾客以前的消费记录、搜索记录、以及顾客的心愿单,甚至包括用户的鼠标在某个商品页面上停留的时间。根据这些数据,亚马逊如果判断某名顾客对一件新商品有购买意愿,就会直接将商品发送给他或者将该商品发送到离他最近的仓库,顾客一旦下单,收货的时间就将以“小时”计、而不是以“天”计。亚马逊认为,正是从下单到收货之间的物流延迟,导致了人们购买意愿的降低,如果能缩短物流时间,将极大的改善客户体验。
亚马逊还提到,并不是所有的商品都会采用预判发货的形式,这种形式比较适合在上市之初就容易吸引大量买家的商品,例如畅销书。为了减小预判发货的风险,亚马逊还有一些配套的技巧,例如模糊填写用户的收货地址,只将商品配送到离他最近的仓库,如果在配送过程中收到订单,再将地址信息补充完整。在这个等待的过程中,亚马逊还会向这位潜在的顾客推送信息,以提升这笔交易成功的可能性。
但这些都不是其算法的关键,预判发货这种模式之所以有商业价值,是因为亚马逊会锁定其合适使用的群体,例如年收入较高的家庭,他们对某些消费有固定的预算,又如某一领域狂热的粉丝,他们愿意为最新的时尚一掷万金,对这批高端用户而言,他们更注重购物的体验,把发货外包给算法,顾客就不用操心自己想买什么,这节省了他的时间,流行物品在第一时间就送上门,这是急顾客之所急,可以想象,当这些家庭拆开邮包时,更多的可能是欣喜,这种欣喜将强化顾客的忠诚度,当然,假如顾客真的坚持要退货,亚马逊还有解决办法,一是打折销售,二是作为礼物免费赠送,这也有利于亚马逊在高端客户中提升口碑。
亚马逊有1亿客户,这些人的消费记录,日积月累,可以说是海量数据,但数据虽然多,却没有人会直接将自己的收入高低和兴趣爱好告诉亚马逊,所有的预判,亚马逊都必须靠数据挖掘来完成。
虽然数据挖掘正如日中天,但一定程度上,数据挖掘已经不是大数据的前沿和热点,取而代之的是机器学习。时下兴起的机器学习,凭借的也是计算机算法,但和数据挖掘相比,其算法不是固定的,而是带有自调适参数的,也就是说,它能够随着计算、挖掘次数的增多,不断的自动的调整自己算法的参数,使挖掘和预测的功能更为准确,即通过给机器“喂取”大量的数据,让机器可以像人一样通过学习逐步自我改善提高,这也是该技术被命名为“机器学习”的原因。
除了数据挖掘和机器学习,数据分析、使用的技术已经非常成熟,并且形成了一个谱系。例如数据仓库、多维分析(OLAP)、数据可视化、内存中分析(In-memory Analytics),都是其体系的重要组成部分,在人类数据技术的进步中,都扮演过重要的角色。
回顾半个多世纪人类信息社会的历史,正是1966年提出的摩尔定律,晶体管越做越小、成本越来越低,才是大数据现象形成的物理基础,这相当于铸器,人类有能力制造巨鼎盛载海量的数据;1989年兴起的数据挖掘,则相当于把原油炼成石油的技术,是让大数据产生“大价值”的关键,没有它,石油再多,我们也只能望油兴叹;2004年出现的社交媒体,则把全世界每个人都转变成了潜在的数据生成器,向摩尔定律铸成的巨鼎当中贡献数据,这是“大容量”形成的主要原因。
分析了大数据的静态的概念和动态的成因,我们更清楚地理解大数据的特点,现在可以从以下几个角度来理解、定义大数据。
图5 大数据的概念和维度
注:如前文讨论,当前人类的数据约75%都是非结构化的数据,大记录的表现形式主要是非结构化数据,而大记录、非结构化数据要体现出价值,当前主要的处理方法,还是把它们转化为有严整结构的数据,即传统的小数据,因此作者认为,大数据的价值维度主要体现在传统的小数据和结构化数据之上,而大数据的容量维度主要体现在大信息、非结构数据两个方面。
注释:
①进入信息时代之后,数据成为信息的代名词,两者可以交替使用。一封邮件,虽然包含很多条信息,但从技术的角度从发,可能还是“一个数据”,就此而言,现代意义上数据的范畴,其实比信息还大。
②摩尔1965年发表该定律时,认为这个周期是一年。1975年,他修订为两年,也有人认为,这个周期是18个月。
③R.Goodall,D.Fandel,H.Huff.Long-term Productivity Mechanisms of the Semiconductor Industry.International Sematech,2002
④Geoff Colvin.The staggering pace of technology.CNN,2010-08-31
⑤算法是运用数学和统计学的方法和技巧,解决某一类问题的特定步骤。
⑥《亚马逊是要逆天了吗?“预判发货”专利,顾客未动包裹先行!》www.yixieshi.com.2014-01-19
标签:大数据论文; 数据挖掘算法论文; 数据挖掘技术论文; 传感器技术论文; 顾客价值论文; 晶体管计算机论文; 亚马逊论文; 人工智能论文; 摩尔定律论文; 普适计算论文;