欢迎来到大数据时代_大数据论文

迎接大数据时代，本文主要内容关键词为：时代论文,数据论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

Big Data

Robin走进纽约Maidson大街99号17层时，像个异类。他有可能也叫Roby，反正他没带名片。他迟疑地看着里面端着酒杯彼此交谈的年轻人，而自己头发花白。好在他看到了投影仪的幕布上硕大的字样：“Big Data”（大数据）。

他已和数字打了20年交道，不过是在金融行业。采集数据、建立模型、预测价格的走向，这是他每天都在做的事。“我不喜欢这份工作，这些数据是冷冰冰的，当你处理完这些数据后，你没有成就感。”他说，“我想要做些改变，去面对那些更加活生生的、有趣的数据。”所以他来了这个由咨询公司Dalberg组织的讨论会。

他说的那些活生生的、有趣的数据来自于社交网络——Twitter、Facebook、Foursquare以及不断新冒出来的新应用。在Twitter和Facebook刚出现时，鲜有人知道除了吐槽炫耀自恋外这些碎碎念有什么用，但现在这些被称为数据，是价值尚未发掘完全的资源。

尽管在过去的几十年里，像Robin这样的程序员和数学家不断在和数据打交道，但是SoLoMo（Social、Location、Mobile）带来的海量数据依然是个新挑战——在一分钟内，Twitter上新发的信息数超过10万；在Facebook上有超过600万的浏览量。而且和单纯的数字不同，这些数据是含义丰富的文字，以及比文字更复杂的图片、音频和视频。

实际处理起来，这并不比金融行业中的数据更加有趣。Robin想要离开的真正原因可能是华尔街的萧条。再多的统计数据与模型也不能防止整个经济的下滑和小概率事件发生带来的股灾，无数人正在失去华尔街那份体面的工作。而处理社交网络的大数据却是朝阳行业，人们开始发现大数据或许能让他们和华尔街一样赚钱——即便现在还没有那么多。

最主要的盈利模式只有一个。“在线广告已经成为了过去十年财富创造最可靠的来源。把消费者和销售者配对起来，以及创造新的消费者和销售者，这对于任何市场来说都是最重要的问题。”Jeff Hammerbacher告诉《第一财经周刊》。2006年以前，他还是Robin的华尔街同行，但后来他成了最早加入Facebook的数据分析师一，以研究科学家的身份帮助马克·扎克伯格搭建了最早的数据分析模型。换个更直白的说法：弄清楚用户点击广告的动机和方式。

Facebook开启了互联网公司在盈利模式上的想象力，尽管有谷歌在先，但在线显示广告，甚至商业信息可以作为网站内容一部分这件事，还是给人们提供了不一样的思维方式。

从公元前6世纪的亚历山大图书馆，到把一切都数字化的谷歌，再到SoLoMo时代，数据的获取正在变得越来越细致，也越来越个人化。创新咨询公司Frog（原Frog Design）在一份全球市场调查中发现，消费者对信用卡公司、在线零售商和科技公司的信任度最高，超过87%的调查者都乐意与这些公司分享个人数据。与此同时，因为对后台操作不了解，人们往往不知道自己已经分享了哪些个人数据。在Frog的另一份调查里，只有20%的人认为分享了自己的网络搜索关键词。而事实上，你并没有办法避免分享这部分数据。

大数据的挖掘和分析就像任何行业一样，一开始只是Jeff Hammerbacher这样的个人研究者，但很快会发展出分工细致的专业服务公司。

离Dalberg办公室步行10分钟之遥的地方，有家叫Social Flow的创业公司，它也许可以算作是内行。它和Twitter是合作伙伴，在BigData行业中生机勃勃。它分析数据，告诉广告商什么是正确的时间，谁是正确的用户，什么是应该发的正确内容。广告商爱这家公司，这让这家公司已经有了40多名员工。

这家成立于2009年的公司在2011年说服了在微软研究大数据的专家Gilad Lotan从波士顿搬家到纽约来和他们一起创业。Lotan看起来很年轻——他的专家资质来自于从2008年起就研究Twitter上的庞大数据，而不是像Robin那样直到今天才想要一探究竟。

“你还记得2008年伊朗大选风波吗，每个人都在Twitter上转发，让人惊讶。”Lotan说。之后，他开始围绕伊朗大选做关于信息传播的模型。当时他还在微软工作，这些研究很快被用在了微软Bing搜索上，这是首个可以直接搜索社交媒体信息的搜索引擎。“每秒都有大量新内容产生，而且是非结构化的。这和传统的搜索很不一样。”Lotan说。

Lotan喜欢将这些大量的数据分析后的结果可视化，使得那些非技术人员也能轻易明白这些数据在表达什么。在本·拉登被射杀后，他所做信息图谱可以让人们清晰地看出，在白宫发出官方消息前谁引爆了Twitter上的消息传播。当然，在他开始在Social Flow工作之后，他会把客户请到办公室，将包含这些公司的信息图谱展现出来：有些是普通的时间轴，有些像蒲公英，有些则是铺满整个画面的泡泡，泡泡中显示这些客户的粉丝正在谈论什么话题。

现在《经济学人》使用Social Flow的服务来分析自己的受众群，并且选择在什么时间来推送一条什么样的消息；而百事可乐则用这种服务比较不同的营销活动会得到什么样的传播效果。这些公司并不吝于为Social Flow的服务付费。

事情看起来就是这样，除了广告，其他行业似乎还不知如何参与进来。Jeff Hammerbacher解释说，这是数字化让广告业的效率和产出变得更加容易衡量。就好像那句广告业的名言，“你知道有50%的投入被浪费了，只是你不知道是哪50%。”’现在你能清楚看到那50%在哪里。Twitter和Facebook上的点击和转发数量能精确告诉广告商这个促销要比那个火热多少，Foursquare则告诉这些广告商人们和他们的家人朋友都去过哪里。尝过这些甜头之后，广告商会关注任何受到用户欢迎的新应用，甭管它是不是刚刚冒出来的。

但Jeff Hammerbacher不觉得这是好事，2011年他就对《彭博商业周刊》说，“我一代中最聪明的人都在想着怎么让更多人点击广告，这真是糟糕透了。”然后他就去了硅谷当时创立不久的一家数据分析公司Cloudera，这家公司制作与任何形式、任何规模的数据相匹配的开源软件，很多公司以此为平台建立了自己的商业模式。难得的是，尽管开发开源软件，Cloudera还是能靠销售和服务支撑起目前将近200人的团队。

Jeff Hammerbacher不缺乏志同道合者。Robin慕名而来的这场讨论会里大多数人都对“除了广告还能做什么”感兴趣，他们不懂分析和挖掘，但想知道趋势和数据的未来。

“我在纽约市应急管理部门工作，搜集纽约的地理信息和数据，医院、警察局、天气变化等等，然后为可能发生的紧急事件提供预案，”一位叫做Timothie Biggs的女士介绍自己，“也许我们以后也会搜集社交网络上的数据，因为你会更快地知道发生了些什么。”

甚至举办这次活动的Dalberg公司也不是懂行的人。它成立于2001年，是一家为企业、政府和非营利性组织提供和经济发展、气候变化与公司治理有关的策略的公司。在2011年年末，这家公司觉得也许应该将Twitter和Facebook这类社交媒体加入到自己的分析中来。而这次讲座就是他们做的一次尝试。

有个叫Robert Kirkpatrick的演讲者，是联合国秘书长执行办公室的官员。他和一些科研组织一起基于Twitter等社交媒体上的数据来研究通货膨胀、失业率等社会问题。他们给这个项目起了一个名字，叫做“全球脉搏”（Global Pulse）。这个名字很容易让人想到Twitter在2009年给自己的战略定位：“如果我们拥有10亿用户，那我们就是地球的脉搏（If we had a billion users，that will be the pulse of the planet.）。”

“的确看起来现在大数据以及数据挖掘更多和广告有关，创业公司们从广告上也更容易赚钱。但我想，也许这些分析方法和成果能运用到别的方面去。”Robert Kirkpatrick说。

他们挑选了一些话题作为实验。在一个被称作为“面包实时在线价格”（Real-Time E-pricing of Bread）的项目中，Global Pulse在6个拉丁美洲国家建立了每日价格指数。这个研究发现在线零售价格由于和线下价格的波动有联系，能比官方的数据更早发现通货膨胀的苗头。

在另一个研究中，Global Pulse希望发现社交网络中情绪和失业率之间的关系。在爱尔兰，当社交网络上“困惑”和“沮丧”这些指标升高3个月后，失业率也会升高；而在美国发生在失业率升高之前持续升高的是“愤怒”这一指标。当然，也许对政府部门而言更有意义的是失业之后他们在谈论些什么：在“失业”指标上升2个月后人们在谈论“房子”，这也许意味着他们准备卖掉自己的房产；在过后的几个月，谈论“公交”和“地铁”的在上升，这也许意味着他们承担不起开车的油费，或者已经准备将车卖掉。

“政府现在得到的数据是滞后的，他们做出的决定也非常缓慢。等政策做出几年后发现有错时，时间也不可能倒流。”Kirkpatrick说。他觉得如果一个政府做决定能像广告商根据数据分析更新自己的营销策略一样快，那也许这个世界会变得更美好一些。

但这些数据还远没有到可以直接使用的地步。机器无法理解一句话是陈述还是反讽，“数据太多太复杂了，有时你得问出对的问题，”Kirkpatrick说，“而且，机器也无法像人一样理解不同的情景。例如通过数据你能发现乌干达很多人在卖掉自己自行车，但机器不能马上知道他们卖掉自行车的下一步可能就是买一把机关枪。”

“这也是和我以前处理的数据不一样的地方，”和Robert聊完之后Kirkpatrick说，“我以前处理的数据就是指‘数字’，不包含情感或其他引申含义。”

越来越多的行业开始和数据打交道。美国联邦政府在2012年3月29日宣布将投入超过2亿美元在大数据研究上，而你会在这篇文章后面看到更多以各种方式利用数据的公司，它们都来自以色列，不仅仅因为以色列在大数据领域的创业公司尤多，还因为这些公司更为关注公共服务领域，无论是Takadu这样的为居民用水处理数据的公司，还是Given Imaging这样的胶囊摄像头公司。

“在线浏览和在线购买都变得非常容易估量。当你有估量方法，你就可以研究科学。在这个意义上，我这一代中最聪明的人则在推动科学的前进。”Jeff Hammerbacher说，“但我不确定如何整合我们的社会，才能让致力于解决长期挑战的人觉得自己得到了应得的回报，这是一个值得问出口的问题。”

有些行业面临的问题是数据量还不够大。谷歌创始人谢尔盖·布林的太太安妮·沃斯基创立的23andme是一家基因公司。他们希望用户能提供足够的唾液，而他们则回报给用户一份报告来了解自己和家族潜在的与基因有关的疾病。在4月6日，这家位于硅谷的公司邀请了一些有轻度帕金森症的患者到他们的办公室，对于他们而言，要研究帕金森综合症，目前的样本量还是不够大。

事实上有更多的行业和领域被建构在越来越庞大和复杂的数据基础上——与此相关的公司也正在收到风险投资的青睐。“大数据不仅仅是一个时髦词汇，我相信它有真正的未来，”硅谷顶级风险投资机构德丰杰（Draper Fisher Jurvweston）创始合伙人Tim Draper对《第一财经周刊》说，“我们需要分辨出哪些是未来的趋势，哪些是时髦的概念，而大数据无疑是个趋势。”

Tim Draper认为，未来更多的与复杂的数据相关的创业公司会陆续出现，而并非由大公司主宰一切。“这些数据将分散在各个领域，你的行车路线、你经常出现的地点、你喜欢的颜色、经常买的东西，社交网站上的观点和言论，这些都会成为个人数据的一部分，它们可以用来被服务每个人。”

而位于加州Palo Alto的创业公司Alohar开发的Placeme正是这样一款产品。它看上去是一款普通的地理位置应用，而事实上，它能自动记录你经常出现的地理位置，并自动生成为数据图表——这些信息会帮助分析每日的行程路线、生活必需场所，甚至驾驶里程与汽油存量的关系（因为它知道你上一次在哪里加过油），它们在一起将会变成一款“个人生活助理工具”——这应该是复杂的数据聚合在一起对个人直接产生辅助（而非广告）的第一个工具。

“Siri是人们的语音助理，但它不是一款真正智能处理人们需求的产品，Placeme的数据处理会让它变成一款个人的智能助理工具。”Alohar创始人Sam Liang对《第一财经周刊》说。这家公司获得了从事分布式计算系统和数据分析处理长达数十年的斯坦福大学教授David Chariton的投资——他也是迄今世界上最庞大的“大数据”公司谷歌的第一位投资者。

一年多以来，Jeff Hammerbacher看到的数据挖掘趋势是催生更多的开源工具包，也就是他在后面那篇里提到的那些陌生的名字。它让更多的创业者更方便地开发产品，比如通过社交网络来收集数据的健康类App。也许未来数年后，它们搜集的数据能让医生给你的诊断变得更为精确，比方说不是通用的成人每日三次一次一片，而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。

“我深信科学是社会一切美好事物的伟大来源。数据则是被科学管理着的世界的代表。在广告于过去十年变得无比成熟的同时，许多产业甚至还没有进入数字时代，比如医疗。”Jeff Hammerbacher说。

但正如他所言，“不幸的是，我人生中大部分期待有朝一日要被解决的问题，都不会因为更精准的广告迎刃而解。”

还有更重要的事情要做。

数据黄金

提起数据挖掘，你马上会条件反射般想到“啤酒和尿布”？

20年前，沃尔玛通过对一年多的原始交易数据进行分析，发现啤酒和尿布的销量具有一定的正相关，原来美国的妈妈们经常嘱咐她们的丈夫下班以后为孩子买尿布，而丈夫在买完尿布之后顺手买回自己爱喝的啤酒……

别傻了，这是商学院流传出的教材案例，真假莫辩，更何况沃尔玛自己从来没有正式承认过他们通过数据挖掘和分析发现了年轻爸爸们的“顺手购”习惯。不过，如今沃尔玛正在试图重新“发明”零售业：

太阳冉冉升起。美国本土的4000多家沃尔玛商店、沃尔玛购物中心和山姆会员店随着第一缕阳光从东向西的照射，开始了一天的忙碌。

东部时间9：00，顾客首先涌进了位于美国东岸新泽西州Newark市郊的沃尔玛购物广场。

东部时间9：32，东部沃尔玛营业半小时中收集的畅销商品信息，被快速传递到位于中部的德克萨斯州休斯敦市郊的沃尔玛购物广场，此时是中部时间8：32。

中部时间8：39，休斯敦沃尔玛的工人利用开门前的20分钟，迅速码放今天的畅销商品。

太平洋时间8：41，位于加州旧金山市郊的沃尔玛员工拿到的是综合了前面三个时区的当天最畅销商品名单。此时已经是东部时间中午12点了。

利用从东到西的时差，沃尔玛创造了“一小时”内的数据利用奇迹。在这里，数据并非躺在数据库里等待静态分析，而是如潮水一般，跟随太阳的走向漫过北美大陆。

从上世纪80年代起，沃尔玛就拥有了自己的商用卫星系统，并建立了世界上最大的民用数据库之一，这正是支撑沃尔玛占主导地位的核心优势之一。在沃尔玛IT大厦墙上，创始人山姆·沃尔顿写道：没有不断的IT投资就不会有沃尔玛的成长。

沃尔玛实验室全球电子商务总监斯蒂芬·奥沙利文最近表示，沃尔玛正着手将全球10个网站整合成一个，同时将前期试点的10节点Hadoop扩展到250个节点，沃尔玛甚至还计划开发迁移数据所需的大数据工具并开放其源代码。这意味着它们的大数据引擎已经完成预热，准备开足马力从过去难以利用的大数据中淘到金矿。

事实上，当沃尔玛投入巨资开发大数据工具并推动其技术发展的时候，我们发现对大数据最热心的企业不是IT厂商，如IBM、甲骨文等，而是能直接从大数据中获益的传统企业，他们已经迫不及待，甚至跑到了IT厂商的前面。

在此之前，沃尔玛曾进行了一系列的收购。包括3亿美元收购的Kosmix（沃尔玛实验室前身）、OneRiot、Small Society、Social Calenda、Set Direction、Grabble等多家中小型创业公司。这些创业公司无一例外的要么精于数据挖掘和各种算法、要么在移动社交领域有其专长，这些都是沃尔玛全面开展社交媒体和移动应用大数据分析的铺垫。

沃尔玛通过Hadoop和其他开源工具分析来自Twitter、Facebook、Foursquare等社交媒体的数据源，同时开发了自己的专有技术Muppet。对基于FourSquare的签到数据，Muppet能实时分析哪家店在黑色星期五的客流量最大。

通过社交基因库和数据分析技术，沃尔玛不但能够追踪社交媒体中对地点、用户和产品的提及信息，从而优化其选货和备货的准确性，还能分析产品、用户、品牌之间的关联，进行更有针对性的线上和线下店面的产品推荐。

在社交口碑对消费者决策影响力越来越大的今天，对大数据卓越的处理能力被看做是企业在交互时代的必备能力，而通过社交媒体分析深入了解消费行为和消费心理，已经成为企业为消费者提供全新消费体验的必由之路。

15年前，西方科幻小说的主题以SPIME（SPACE+TIME，时空）为主，而现在的每一个人都是终端、都是数据采集和发布的媒介、都是时空交互的结合体——只要带着手机，随时随地都能找到你。

“Gartner预测，到2013年，会有33%的商业智能数据来自手持设备。我觉得Gartner低估了移动在消费领域的发展潜力，这个数字应该翻一倍……我估计在66%左右。”作为Teradata公司的CTO，宝立明（Stephen Brobst）还是奥巴马总统委员会的科学技术顾问，在加入Teradata之前，他先后创立了三家与数据库以及商业智能相关的公司。

10年前，当企业级IT应用的重心转向集中式巨型架构，中间件平台成为企业级应用的关键，宝立明也曾为数据库的边缘化而黯然，当时的企业级IT系统封闭而庞大，追求的目标是生产、交易数据在其中的顺畅流转。

今天，企业的边界正在消失，各种终端成为采集和发布信息的媒介。过去的数据大多来自企业内部的交易记录，而现在的企业数据更多的来自防火墙之外。比“66%的商业智能数据来自手持设备”更吓人的，是“90%的数据是非结构化的，而不是结构化的交易数据”。

在企业内部，数据从原来为少数决策者服务的商业智能，变成能够直接指导消费者行为的消费智能。目前，直接使用沃尔玛数据仓库的人数已经超过沃尔玛自己的员工数，原因是其数据链条向消费者和供应商两端延伸，使得更多的人直接在沃尔玛的数据仓库中寻找自己需要的数据。

如今，采集和发布数据的终端甚至包括一块电表。2009-2012年间，美国SCE公司为南加州的500万名用户安装了智能电表，这些电表每隔10～60分钟就会采集一次住宅和商业客户的能耗数据，并在当天对这些信息进行计费和分析。由于电力价格在峰值和谷底时相差很大，用户也可以设定提示，到达设定的数额就提示用户家里能耗过高。

也许你会问：什么样的科学怪人才会分析自己的能源消费？但是亲，在南加州，电力能源的消费很贵，有时候甚至会超过一个家庭养车的成本。

用户可以像选择信用卡额度一样，选择限制自己能源消费的额度；对电力公司来说，用户主动选择深夜开动洗衣机同样是好事一件，因为电网在波峰时段承受的压力被降低了。

数据正在成为公司除有形资产、人力资本之外的又一资产，利用数据的水平将区分每个行业的胜者与输家，是企业的最大资源之一。

挖掘企业数据中蕴含的财富

随着企业管理的信息化、网络化，“数据”二字成为现代企业管理中出现频率最高的字眼。商流、物流、信息流，大都是以数据的形式出现的，我们每天都面对着客户、供应商和生产现场的数据，如何从这些浩如烟海的数据中挖掘财富呢？有一则“尿布与啤酒”的小故事非常具有代表性：有一天，沃尔玛一家分店的某个数据分析员意外地发现：每逢周五，尿布和啤酒的销量便增加不少。虽然这两种商品似乎风马牛不相及，但这名细心的分析员并未将这个发现一笑了之，而是在周五进行了现场观察。他终于发现了一个秘密：原来，这些购买尿布的青年，假日会狂欢玩乐，没时间买孩子的东西，于是每到周五下班前后，会一次买齐孩子周末和下一周使用的尿布以及聚会时豪饮的啤酒。于是，沃尔玛就及时调整了商店里的货品摆放位置，把啤酒搭着尿布卖，结果业绩销售增长了十几倍。从这则小故事中可以看出，企业各类数据中蕴含着很多宝藏，如果能够将这些散落在日常经营中的有价值信息提取出来，并善加利用的话，这些“数据”就能变成现实的“财富”。

一、学会使用数据挖掘技术

挖掘企业数据中蕴含的财富，一个最有力的工具是数据挖掘技术。数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和模型化处理，从中提取辅助商业决策的关键性数据。数据挖掘与传统的数据分析（如查询、报表、联机应用分析）的本质区别是：数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有未知、有效和实用三个特征。

数据挖掘的主要任务有关联分析、聚类分析、分类、预测、时序模式和偏差分析等。（1）关联分析。两个或两个以上变量的取值之间存在某种规律性，就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性，还可以引入兴趣度、相关性等参数，使得所挖掘的规则更符合需求。（2）聚类分析。聚类是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。聚类分析可以建立宏观的概念，发现数据的分布模式，以及可能的数据属性之间的相互关系。（3）分类。分类就是找出一个类别的概念描述，它代表了这类数据的整体信息，即该类的内涵描述，并用这种描述来构造模型，一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。（4）预测。预测是利用历史数据找出变化规律，建立模型，并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性，通常用预测方差来度量。（5）时序模式。是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样，它也是用已知的数据预测未来的值，但这些数据的区别是变量所处时间的不同。（6）偏差分析。在偏差中包括很多有用的知识，数据库中的数据存在很多异常情况，发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

数据挖掘方法是由人工智能、机器学习的方法发展而来，结合传统的统计分析方法、模糊数学方法，以及科学计算可视化技术，以数据库为研究对象，形成了数据挖掘方法和技术。数据挖掘的方法包括：神经网络方法，决策树方法，粗集方法，覆盖正例排斥反例方法，统计分析方法，模糊集方法。

二、分析客户管理客户

企业的资源都是有限的，任何企业都不能把自己的目标市场定位于所有消费者。因此，企业为了获得市场上的相对竞争优势必须进行市场细分，并根据每一群的不同特点进行分析，以提供不同的产品、服务或营销手段。（1）按照客户的价值进行细分。因为不同的客户对企业提供的价值不同，有的客户能够使企业获得高额利润，有的客户不但不能使企业盈利，还会让企业亏本。企业的资源有限，应该优化应用企业的资源，不能对客户一视同仁，要根据客户需求提供有针对性的服务。特别是那些占客户总数20%，但为企业提供的利润占企业利润总额80%的大客户，企业更应该重点服务，提高他们的满意度、忠诚度。（2）按照客户的兴趣爱好进行细分。将客户按照他们的兴趣爱好进行细分，提供各类型客户感兴趣的产品及服务。当有新的产品出现时，向他们推荐他们感兴趣的产品。以此来表达企业对客户的关心，提高客户的满意度。（3）按照客户的购买模式进行细分，进行交叉销售和产品组合销售。运用数据挖掘技术，分析、挖掘客户的购买模式，并按照购买模式对客户进行细分。当客户光顾企业时，判断他们的类型，对他们实行产品组合销售和交叉销售。既销售了产品又使客户精神上得到满足，可谓一举两得。对客户细分后，要对不同类型的顾客采取不同的策略，为他们提供个性化服务。可以利用聚类分析把公司客户细分为潜在客户、零散客户、一般客户、重点客户等四类。对不同类型的客户采取不同的营销手段。对潜在客户主要以公司业务宣传为主，争取让他们成为我们的现实用户；对零散客户以引导消费为主，让他们更多的了解公司业务，更加顺利地使用公司业务；对一般的客户主要以推荐消费为主，让他们融入到公司的各项业务当中；对重点客户主要以长期优惠促销为主，如设立VIP服务、会员制服务，吸引他们与公司建立长期的业务关系，同时让他们体会到自己非同一般的贵客身份。

三、产品管理保证质量

产品的种类日益繁多，产品的数据日益复杂，特别是产品数据管理概念提出以来，企业数据库中包含了丰富的产品信息资源。基于这些信息，一是可通过数据挖掘技术来分析产品质量的主要影响因素，选取设计参数，优化产品结构以及成分组合。二是可通过数据挖掘技术来建立产品质量控制模型，全面提高产品生产和制造的质量。三是可进行产品可靠性分析，对质量缺陷、零件失效、工艺偏离等情况进行记录和追踪，改善产品的生产工艺流程，减少产品的质量缺陷或质量偏差。四是通过市场预测对产品的需求能力和需求动向，进行产品性能和产品工艺的创新与改造，从而开发新的产品样式，拓宽产品销售市场。

此外，数据挖掘技术可用于产品合格率统计和调查，与企业内外部协作单位实现产品信息资源共享，从而缩短产品开发和制造周期。在产品销售方面，可用于产品销售渠道和销售网点的规划，开展有效的网络营销和广告宣传，减少销售成本。在优化产品的流通环节，通过数据分析，可缩短产品的库存时间，降低产品的存储费用。在产品生产方面，利用数据挖掘技术能够实现产品信息的可视化，强化财务、采购、生产制造和销售等环节之间的协同性，使生产进度和市场需求之间达到有机地结合，为产品的顾客导向和准时化生产策略提供全方位的技术支持。

四、客户保持招徕回头客

客户保持是企业维持已建立的客户关系，使客户不断重复购买产品或服务的过程。客户保持是企业成功的关键因素，因为保持现有客户比获取新客户的成本低得多。更为重要的是，被保持的忠诚客户会主动为公司传递好的“口碑”、推荐新的客户。因此，拥有长期忠诚客户的公司具有更多的竞争优势。利用数据挖掘对数据库中大量的客户历史交易记录、人口统计信息及其他相关资料进行分析和处理，对流失客户群做针对性研究，分析哪些因素会导致客户流失，建立流失客户模型，识别导致客户流失的模式，然后根据分析结果到现有客户中找出可能转移的客户，结合模型分析哪些客户会离开并建立模型，以便企业据此制定相关计划或方案，改善客户关系，争取留住潜在离开者。在客户保持中，通常涉及三个数据挖掘模型：首先建立模型用来预测和识别潜在流失者，然后挖掘和识别潜在流失者中的黄金客户，最后对黄金客户中的潜在流失者进行分析挖掘，识别其行为模式，从而实行有针对性的营销策略以保持这些客户。

由于现有的CRM系统无法有效的辨别客户特征，并进行客户分类。而数据挖掘技术中的聚类分析、关联分析等手段，能够通过对数据的发掘，准确地定位客户属性，保证企业开展有效的一对一营销，以赢得客户的忠诚。

数据资产的“雪球效应”

160多年前，路透社为投资者提供一种最原始的信息服务，用信鸽在亚琛和布鲁塞尔之间传递股票价格信息。投资者购买这种服务，然后买入或者卖出之前定价错误的证券，并从中获利。“时间就是金钱”在此时已被阐释地足够透彻。之所以错误定价，在于交易的另一方没有及时更新信息。

很显然，哪个投资者手中的“信鸽”足够多，哪个就能获得比别人足够高的利益。股票数量是有限的，先人一步的投资者所交易的股票数量总是比别人多，赚得钱自然也比别人多，然后用更多的钱来买更多的“信鸽”，再赚更多的钱。如此周而复始，他手中掌握的股票信息就像滚雪球一样越滚越大，他用来装钱的保险箱自然也越来越大。

这种一旦在最初获得起始优势，得以让“雪球”越滚越大，优势越来越明显的现象被人们称之为“滚雪球效应”。而在经济学中则称之为“报酬递增率”规律，即由小开始，所获利润又转换为资产，资产越来越多，利润也越来越多，利润再转换成资产，“雪球”越滚越大。

如今，人们不再依靠信鸽来传递股票价格。但雪球效应并没有消失，信息、数据仍然是其触发机制，获得起始优势、越滚越大仍然是其根本“原理”。与之前所不同的是，这种信息、数据的“雪球效应”不仅仅发生在资本市场上，还发生在更多的实体经济企业中，通过对企业内部大数据的收集与分析，让数据变为企业的一种资产，并产生利润；而在形成利润的过程中，又生成出新的数据资产，再产生更多的利润，“雪球”越滚越大。

让“百货数据”成为“百万资产”

瑞士达沃斯经济论坛的一份报告称，数据已经成为一种同货币或黄金一样的新型经济资产类别。但长久以来，企业并没有意识到数据是可以为其带来经济效益的一种资产，而往往把它看成是一种副产品，或者是企业计算中形成的被用来查询的副产品，或者是企业经营活动中为追求其他商业目标而产生的副产品。

在如今竞争激烈的连锁超市领域，得到有效利用的数据已经成为重要的企业资产。在其他的超市连锁店里，顾客的购物小票只是店方用来最后结算的一张“账单”。而在物美超市，却把这张再普通不过的热敏纸变成了实实在在的钞票。物美会定期整理顾客购物小票的历史数据，并依据会员卡信息，分析出以超市为圆心，半径1.5公里地理范围内顾客的购物习性。每天大概会有一万多顾客来物美买东西，每人平均要买七八种商品，对这些小票数据进行分析，物美可以清楚地知道在什么季节，有什么东西好卖，卖出了多少，利润是多少，卖了多少品种，库存剩多少，要进多少货等等。通常情况下，物美可以根据16周的小票历史数据，成功预测出未来4周某种商品的具体需求量，并据此进行各种促销活动。

通过对历史数据的分析，物美发现每到入秋时节，食用油的销量会增加。主要是因为随着气温降低，人们会加大补充热量和营养，炒菜时会加入更多的肉类食材，这就让食用油的消耗随之增加。物美据此在节气立秋那天推出一款品牌食用油的促销，顾客如果一次性累计消费48元，在POS机端结账的时候，收银员会告之只要再加10元，就可以换购一桶价值22.9元的花生油。这样一来，物美把收银区变成了促销区，让收银员又兼职完成了促销员的职责。结果发现，会有40%的顾客选择加钱换购。而该品牌的花生油在三周内的换购促销活动中的销售额，超过以往一年的总销售额。物美把从POS机端得来的历史数据整理分析，然后又在POS机端“滚”出了自己的利润“雪球”。

POS机成了物美的“造雪机”，而燕莎的“造雪机”却在会员卡的方寸之间。

作为国内第一家高档奢侈品商场，燕莎商城目前拥有超过20万的会员。通过会员在购物结账时刷会员卡，燕莎掌握着每一条“鲜活”的会员信息，比如32岁的男性顾客里，在秋季到来时，选择购买正装的有多少人，选择休闲装的有多少，偏爱户外探险服装的又有多少；每类人每年在同类服装上的消费总额是多少；偏爱的品牌又是什么等等。

根据这些季节性的历史销售数据，再结合新品的上市营销活动，燕莎会事先估算出这个营销活动的预销售金额——比如100万元，然后限定诸如服装款型、品牌、销售时间、利润回报等几项条件。这时候，符合“条件”的目标会员信息就会全部显示出来，数量会有5000人，姓氏名谁，每人在最近两个月以及历年同时期内的消费金额、频率、消费时间、消费意向预测等数据和图表都一清二楚。确定好了人群后，再按照预先设置好的格式和内容，自动为这5000人发去短信，告之活动的时间、品牌等信息。燕莎的“雪球效应”在这一张小小的会员卡上爆发，最终让燕莎近几年保持了12%～15%的涨幅。

让雪球滚起来

把数据“玩”成资产，UPS应算是个中好手。

UPS自己有一支222架喷气飞机的机队，并同时租用了300架飞机，可谓是“飞机满天飞”。而在地面上，UPS有超过12万辆的运输车也在满地跑。作为一家全球性的物流公司，UPS管理着来自世界220多个国家和地区的物流、资金流和信息流，仅每天处理的包裹在线追踪请求就超过2600万次。

这家被《财富》杂志形容为“有卡车的技术型公司（A Technology Company with Trucks）”的物流企业，还拥有超过10万个的信息收集设备，用来收集包裹数据，再通过遍布全球的15万个工作站将每天所处理的包裹95%的信息传回到总部。在平时的运输中，UPS卡车就如同一个“捕捉器”，把某个地区在特定时间段的交通流量情况，甚至整个威尼斯城里每个陆上涵洞、每条巷子的高度和宽度情况都记录下来，从而可以在不同的时间点上根据拥堵情况调整货车的最佳线路。

上天入地的各种数据“捕捉器”为UPS绘制了一张只属于自己的“世界交通图”，有了它，UPS可以设计出最佳线路，大大节省了运输成本和时间。除此之外，在长期的客户服务中，UPS更积累了丰富的服务经验数据，从而让供应商把自己的物流采购、资金结算甚至人员调配都放心交给UPS来做。依靠数据的收集和分析，不仅让UPS在2011年的营业额达到531亿美元，更让其从一家快递公司迅速向一家全方位的综合供应链服务提供商转型。

在实际运作中，UPS把这些数据转化成了每一客户的每一包裹在每一秒钟内每一运输节点上节省运输成本、提高运输效率的“良剂”。而随着货物在运输过程中的层层递进，UPS利润的雪球自然越滚越大。

UPS的“雪球效应”爆发地有点润物细无声，而安得物流在这方面则显得“直白”得多。

安得物流目前在全国有500多万平米的仓库、4000多辆运输车、200多个物流平台，并对其实现了实时监控，正如自己所说的：“物畅其流，掌控自如”。安得物流的数千辆卡车上也都有非常灵敏的“感应器”，每隔5分钟就会把车辆所在的经纬度、行驶速度、车厢温度等数据传回到总部的监控中心里。更为“苛刻”的是，安得还对配送货车在路上的驻留时间有严格规定和监控。司机正常的加油，甚至吃饭休息等所停留时间要控制在一个小时内。如果因为天气、交通堵塞等原因而超过一个小时，数据及时回传后，公司总部会及时联系货物的收货员重新预约收货时间，以免“窝工”。

有了这紧密衔接的数据，以及对以往历史数据的分析结果，安得很清楚把什么货运到什么地方的具体价格是多少，可以很精细地算出运10吨的棉花到北京，与运20吨的家用电器到北京相比，哪个成本要高一些。在前期与客户沟通时，安得就是据此增强了自己的议价能力，在谈笑间就让“雪球效应”瞬间爆发。

让数据直接转化为销售

宝洁让雪球效应变成了一场更大的“雪暴”。

对于每天要服务全球42亿顾客的宝洁而言，每天扑面而来的海量客户反馈数据并没有让其措手不及，而是应付自如。宝洁把消费者数据升华为董事会层面、企业级风险管理的重要议题，早在上世纪80年代，宝洁就会把消费者打来的热线电话录进磁带里，反复听，以便从中分析出客户潜在的产品需求。如今，宝洁会用专门的数学分析法来查看博客、电子商务网站、社交网站上的客户评论，并按品牌分类，把产品的评论内容与公司内的研发、生产、销售、市场等相关联的员工个人进行对接，上至公司CEO，下到一线销售人员能直接看到。在一款新型香味添加剂的研发中，宝洁就是利用了数以万计的客户评价来制定营销活动，并取得良好的效果。而通过分析全球80多个国家和地区婴儿妈妈对尿布的评论，宝洁也设计出了最贴合不同地区婴儿身体的尿布，用宝洁的话说：“可以为地球上所有婴儿设计任何一款尿布。”

不只是收集分析消费者数据，宝洁甚至将消费者的感受直接在现场转化成销售策略。

在以往进行创新研究时，宝洁需要投入大量的人力、物力设计消费者调查小组，并对不同的种族和年龄分布进行调查。这样既费时又费力，而且调查样本容量小，且不具有代表性。如今，有了海量的客户数据后，宝洁可以把来自特定种族、不同文化背景、不同地理区域的客户评价数据结合在一起，虚拟出一个适合某项新产品的特定消费人群，然后分析出这位“消费者”的习惯，比如产品颜色、形状、货架上的摆放位置等等，直接在现场就把数据转化成了销售策略，这既缩减了新品的开发成本和上市时间，加速了上市过程，抢得了商业先机，又可以提高客户的消费体验质量，让用户更愿意来使用、评价产品，刮起一场更大的“雪暴”。“正是数据帮助我们创建了品牌，维护了品牌的活力。”宝洁说。

电商里的数据玩家

淘宝网数据平台与产品部数据产品总监赵昆有着一头艺术家式的飘逸长发。2009年6月加入这家中国最大的电子商务企业后，他逐步创立了淘宝自己的数据产品团队。他们的最新动作是，4月18日发布了面向卖家、第三方研究机构、媒体的消费者数据研究平台——“淘宝指数”，在这个平台上开放基于消费者搜索和交易行为的分析数据，供所有人免费使用。

淘宝目前拥有国内电子商务最大的交易数据量，总数据量已经超过30PB，并且还在以每月3PB的速度增加着，共有10亿多条产品信息和5亿多名用户的活动信息，每天超过8000万人次的独立访问。“淘宝拥有海量的数据，同时也必须面对数据分析带来的挑战。”赵昆说。

与他有同样想法的还有eBay中国研发中心分析平台与支付研发总监梁浒。梁浒所在的中国研发中心是eBay设在中国上海的技术支持中心，在这里，每天有上千人的团队为eBay全球提供技术支持，数据分析部门是其中最主要的团队。他认为，相比于B2C平台，淘宝和aBay这类C2C平台遇到的数据分析挑战更大，原因是“亚马逊和京东所有的商品数据都是自己的，可是在eBay，商品数据都在卖家那儿。”需要指出的是，两家公司的商品数据极为庞大，截至去年末，eBay的在线商品数目在3亿左右，淘宝的在线商品数则高达10亿，是国内拥有最庞大商品数的电商。

在淘宝所有数据里，有超过50%的数据属于非结构化/半结构化的数据，而在eBay，这一比例则高达95%以上。两家公司面临了相似的大数据处理问题，这迫使两家公司不得不关注它们对数据处理的能力。

不过，淘宝和eBay数据分析团队遇到的业务诉求不同，让它们二者分别走向了不同的关注点。在淘宝，日常运营的数据处理和计算是一部分，他们更致力于如何为用户提供产品化的数据服务。而eBay更关注在日常运营中，为内部各部门提供细致的数据分析支撑工具。

淘宝：迎合用户需求，将数据产品化

赵昆入职后遇到的第一个挑战，是来自宝洁中国的问询，“淘宝上人们对日化产品消耗和需求的数据是什么？”。

2009年，宝洁中国在淘宝开设了名为“e生活家”的旗舰店，销售剃须刀和洗发水、牙膏等套装日用品。宝洁考虑的并非销售额上的直接获益，而是认为淘宝能够提供一种创新的营销模式。对于一向热衷数据分析的宝洁，同样热切期望获得淘宝上的数据支持。随着品牌企业的逐步加入，有同样需求的企业卖家不在少数。

“既然这些需求很典型，为什么不做一个能够覆盖到这些用户需求的产品呢？”抱着这个想法，赵昆和他的团队开始将自己的工作定位于将数据产品化，以服务于需要数据的卖家等外部用户。

不过，他们马上就面临最棘手的数据处理和整合问题——淘宝此前缺乏数据体系：数据内容多样（日志型数据、文本型数据、关系型数据）、数据来源也很广泛（有商品维度、卖家维度、买家维度），并且这些数据分布在不同的数据库中。

在接下来的四五个月里，团队成员忙于数据处理问题。他们首先将原始数据进行规范化处理。同时，为了让分析工作更快速推进，他们将大多数非结构化的数据尽量转为结构化数据，比如将用户行为这一非结构化数据进行结构化数据处理。这些工作量非常庞大，在淘宝，数据的核心有三大维度：商品、交易和用户。此时淘宝内部开始确立明确的数据存储规则：网络平台上产生的所有数据都要被保留下来。这也意味着淘宝需要投入更大的技术力量，提高海量数据的存储和计算能力，并且需要不断提高系统的性能，压缩投入的成本。不过，这仅仅是第一步，“我们要通过一种方式让用户能获取有价值的数据，让数据真正地帮助到用户的业务”赵昆说。为此，他们创造了一种树形方式对数据进行梳理。所有数据都基于这棵“树”进行组织，并且以“树”的方式展示给用户，这样用户获取数据的方式就像从一棵树的高处到末端根系，获得商品的从行业、类目、品牌、产品，到属性、店铺、商品等所有完整的、有关联的、有意义的信息。

这种方式打破了一般做法，通常在企业里，数据会分布于不同的数据库里，用户最终获取的是不完整的数据，数据分析完全由业务需求驱动，查询的成本很高。这种做法意味着，需要将分布在不同数据库中的数据组建关联起来，这样的关联降低了用户提取数据的成本，也让数据变得更加“聪明”。

“不过，淘宝需要动用很多系统资源，对数据做大量的预处理，尽可能降低数据的使用成本并且增大灵活性。”赵昆表示。

随后要开展研究数据产品的工作。因为淘宝对外开放数据，他们需要克服海量数据的安全问题，同时还要防止数据被恶意爬取等很多技术问题。到2010年3月28日，他们推出了淘宝第一个基于全量数据的数据产品——“数据魔方”，卖家可以查询行业宏观情况、品牌的市场状况、消费者行为等数据，涵括淘宝所有类目的交易、浏览和搜索数据。

卖家还可以根据自己的需求，选择使用“数据魔方”的专业版或者标准版的产品。专业版主要满足大卖家对行业数据的更细致分析的需求，同时也提供大卖家对自己店铺的交易和浏览的数据，现在宝洁已经在使用这款产品了解淘宝平台上用户购买日化消费产品的数据了。而标准版则主要为小卖家提供用户在自己店铺里交易和浏览的数据。“现在‘数据魔方’已经有大量的商家用户，其中有一半是活跃用户。”赵昆表示，用户的订购情况早已超过他们的预期。

继“数据魔方”之后，在今年的4月18日，赵昆和他的团队又推出他们的第二款产品——“淘宝指数”，这款产品进一步延展了淘宝生态圈的用户群，卖家、第三方研究机构、媒体机构都可以免费使用这款产品。与“数据魔方”相比，淘宝指数提供的数据相对单纯，主要是消费者在淘宝上的搜索商品和交易商品的数据。

不过，淘宝从来没有指望通过“数据魔方”赚钱，虽然它实际上是盈利的，但这从来也不是淘宝的目标。包括最近发布的“淘宝指数”，未来也不会有盈利的考虑。“我们只希望将淘宝数据平台的商业价值反馈出来，为淘宝生态圈的卖家、ISV（独立软件开发商）或者其他的电商服务。”赵昆说。

在淘宝这样一个巨量交易平台上，满足用户的数据请求和处理，是非常具有挑战性的工作。他们需要为用户呈现商品和店铺信息的实时变化情况，在技术上需要实现数据的实时和循环计算，同时还需要满足高并发的查询，以及在用户网络环境有限情况下数据请求的问题，这在传统数据平台是不太容易碰到的。

没有现成的技术支持，淘宝需要建立适合自己的算法，赵昆和他的团队一直在努力研发更好的技术。“对于数据来说，不是把它计算出来就好了还包括怎样提供高效的查询，以及非常友好的展现，这些也是不能忽略的。”赵昆表示。

因为数据的多而复杂，淘宝一直在做数据挖掘，不过这是不得已而为之。“我们尽量提供一些方便的可视化产品，让用户自己去发现，而不是我们分析人员。”这或许也是淘宝致力于将数据产品化的原因之一。

eBay：以数据驱动运营，提升用户体验

“在eBay，如果不做数据分析和处理，我们就没法生存。”梁浒表示，和淘宝相对规范的售卖方式不同，eBay的业务以拍卖为主，并且还有“一口价”业务。相对复杂和多样的业务特点让eBay面临比淘宝更大的数据挑战，它的非结构化、半结构化的数据远比淘宝要高得多，这种数据高达95%以上，而淘宝这类数据在50%以上。

关注用户体验和数据分析是eBay从创立开始就有的基因。可以说，数据是eBay运行的血脉和经络。和淘宝一样，eBay同样保存了所有的数据，不过eBay对于商品的核心数据的定义是基于买家、卖家和商品这三个维度。

现在，eBay内部对于数据的利用已经深入骨髓，“以数据决定决策”已经是eBay内部上下的工作习惯。在eBay内部，各个业务部门的决策很大部分依据数据进行决策，包括他们彼此之间的协作，也都是数据分析平台自动按照每个人的职位、权限等进行系统的自动推送。这些工作的核心目标都是为了保证用户的体验。在eBay，用户的体验包括用户搜索的精确度、交易过程中有没有虚假的商品、买卖双方的满意度、网页的速度是否够快、操作体验好不好等等很多内容。在每一项内容里，eBay都会设定相关的指标，以达到用户满意度持续提升的目标。

在日常的运营中，eBay投入大量技术、资源在平台基础信息的过滤和清洗上，以保证用户的体验。eBay目前有3亿件商品，它会对卖家每天上传的文字、图片等500种因素进行分析，以保证商品描述一致性，那些重复上传的图片、或者不同卖家的相同图片不会在eBay上通过。而且对于卖家好评率将会被精确分析，以保证平台的信誉。同时，eBay会综合考虑卖家上传图片的清晰度、买家对卖家的打分、评论等所有信息。“那些各项指标表现良好的卖家将会在搜索中被呈现在前面。”eBay中国研发中心搜索科学产品研发总监逄伟表示。

除此之外，eBay也依据数据调整针对卖家的政策。比如三年前，eBay决定给相关卖家提供相关的优惠政策，对平台里的所有卖家进行各项指标的设定和评估，寻找其中符合参与该优惠活动标准的卖家。这里面涉及到对卖家过往历史信息的分析以及给予优惠活动后为平台带来的价值的评估预测，需要大量的数据支持。

最具有挑战的是“沉默的数据”。这是用户体验极为重要但容易被忽视的内容。

“很多用户不会表达他们对eBay的不满，但是数据会告诉我们。”逄伟说，比如有人通过Google搜索一个产品，到达eBay页面，却很快关掉页面这一系列行为，eBay会定义为“东西太差了”；当买家向卖家发出发货时间的各种疑问，而卖家却不做响应，这也属于“沉默的数据”。

逢伟认为，虽然这里面会存在大量的噪音数据，但是定义这些行为还是有其不可忽视的意义。“通过对各项细节指标的监测以及对这些指标的不断改进，有助于从各个细节提升用户体验。”eBay每年都会制定转化率目标，这些目标会逐层分解到具体的每个流程中、需要提升的用户指标中等各项数据里。

为了保证良好的用户体验，eBay做重要改进时都要事先进行测试。eBay已经开始借助互联网的力量进行这一工作——通过第三方网站外包给互联网上的用户。他们会通过数据去分析支付给测试者多少费用更合理，以保证测试的可靠性和成本之间的平等。随后，eBay会通过系统自动监测这些账号的行为，将这些行为与用户日常数据进行比对分析，从而生成自动化的分析结果。

在用户体验上，eBay对于各项内容每年都设定持续改进的目标，不过，eBay将“有多少用户向其他人推荐eBay”作为最核心的效果来考虑，这个数字现在大约在80%左右。

鉴于对海量数据处理能力，eBay能够提供很好的服务承诺，比如对于出现投诉的商品，它会先代替卖家赔付给买家，随后再对卖家进行追讨。如果遇到假货投诉，一旦确定，eBay将会对卖家的商品进行下架。这也意味着eBay需要前期投入更大精力保证平台的信誉。梁浒表示，这些做法也让eBay同时也承担更多的风险，有些款项可能永远也追不回来了。

共同趋势：个性化推荐

无论是淘宝还是eBay，个性化推荐都是主要的发力点，这其实也是电商企业的共识之处。对于C2C平台商而言，由于其业务特点和海量的商品数据，面临的挑战更大。

赵昆寄希望通过个性化的推荐来提升用户的购物体验，基于这一目标，淘宝致力于为每一个用户提供个性化的界面体验和搜索结果。他打了一个比方，如果一个用户经常浏览的是档次较高的商品，那么淘宝给他展示的将不会是以低价为导向的商品。

最近，数据产品团队酝酿已久的一款个性化推荐的应用已经实现，他们在淘宝上推出了“我的衣柜”这一频道。

“它代表一种新的购物体验，以前我们按照商品属性呈现给用户商品，现在我们按照人群需求提供商品。”赵昆表示。在“我的衣柜”里，淘宝会根据用户过往的浏览搜索等记录，推荐用户可能感兴趣的人群特征，系统会通过不断地学习积累推荐，最终达到为每一个用户提供他喜欢的购物方式。这样的尝试也相继在其他一些频道展开，比如淘宝也在尝试针对用户中的年轻妈妈的购物偏好，推荐可能适合她们的商品。

赵昆同时透露，他的团队稍后将在淘宝上正式推出SNS应用。在淘宝上有熟人关系的用户是很大的群体，淘宝会基于他们之间的关系，提供全程购物分享的工具。同时，淘宝基于用户行为分析，帮助有相似需求的用户建立社交关系。“在购物环节中建立社交化的联系，挑战很大，不过这符合未来的趋势。”他表示。

赵昆认为，5年到10年后，互联网商业社会的核心主题将逐步从现在的社交时代，步入以数据主宰的时代。“这是互联网发展的规律，从初级阶段步入中高级阶段的互联网，其商业模式、业务形态、产品形式将完全基于数据之上运营。”他表示。现在，无论在内部还是外部，他都会说淘宝不是一家电子商务公司，而是一家数据公司，现在他的团队的愿景是，推动淘宝成为一家数据运营公司。

“现在这样的应用1%都不到，我们希望未来有更多这种应用。”赵昆说。

在eBay，相关团队也在进行相继的技术研发，同时也在推出相关应用。实现针对每一用户的个性化推荐是eBay致力实现的一个方向。在eBay上，它已经可以做到根据每个人的浏览搜索习惯，呈现不同的结果。

不过，它的另一项应用突破了自身、延伸到了线下。这是一项基于地理位置的个性化推荐，如果用户在手机上搜索eBay某一件商品，没有获取想要的结果时，会推荐离用户最近的沃尔玛等商家的商品信息。这一应用源于eBay与沃尔玛等线下商家的紧密的合作。

“在eBay，我们已经过了做简单的决策的阶段，现在是利用数据做运营决策的时候了。”逄伟说。

数据竞争力

在数据团队看来，呼叫中心是企业中最败家的部门了——在每天与最终用户的沟通中，被丢弃的价值数据简直不计其数。“任何一位联系人都会在这里留下个人信息、联系方式、业务资料等多种信息，就连接待人员的服务情况也会被记录在案，”资源分析企业HfS研究公司执行副总裁Tony Filippone认为，“如此海量的宝贵信息一直令其他关键性业务部门羡慕不已，特别是财务、会计以及处理客服投诉的人员。”

在呼叫中心的整个发展史，对于数据的分析基本上始终停留在相当肤浅的层面上一一已接电话、平均等候时长、通话时长以及问题解决比例……这一切对于现代业务信息采集需求而言显然是远远不够的。

“随着时间的推移，企业不断引入更新、更强大的管理工具，希望借此帮助呼叫处理、调度以及实时数据配合业务更上一层楼。然而数据收集效果却始终取决于接待人员的表现及处理效率，”外包及管理咨询企业ISG公司呼叫中心首席顾问John Magliocca评价道。

但事情正在起变化。企业呼叫中心以及呼叫中心服务供应商都已经开始将新型分析工具引入业务，旨在从服务产生的大数据中挖掘出能够促进公司运营状态的有价值信息。这种变化的出现是由于多种业务因素的推动：如今呼叫中心里的业务代表们常常需要处理来自不同渠道的多种问题，而这类问题中所蕴含的信息比社交媒体以及网上论坛更广泛、更准确、也更有针对性。在Avaya大中华区总裁王昀看来，Avaya经历的从最初的单纯语音产品到现在的协同通信全线产品的转变就说明了行业的变迁。“语音、数据、视频三网合一的前提是开放的架构。面对社交媒体在消费者中的大规模普及，需要满足消费者从语音对话/社交媒体内容到后台服务的一站式要求，成为企业数据挖掘的一环。”

柳暗花明

系统能否在客户开口之前，就基本判断出令对方烦恼的主要问题？

“很多企业都在对非结构化数据进行文本内容归纳及情绪分析，并希望从中寻找可资借鉴的客户服务模式及发展趋势，”IBM公司预测分析部门副总裁Deepek Advani表示。IBM在这方面已经投入了不少精力，他们打造的文本分析及信息挖掘（简称TAKMI）工具已经在多家呼叫中心进入实际应用阶段。他们的目标是通过这套工具记录接待人员表现、确认客户关心的问题、突出服务趋势及模式并提供预先提示功能。

“许多企业都开始将呼叫中心生成的数据与事务数据仓库相整合，旨在减少客户流失并促进追加销售及交叉销售的执行效果，”Advani指出。“呼叫中心日志记录着客户来电咨询的内容，这不仅能够为企业提供业务前瞻性，更会带来对未来产品需求的准确预估。”

每一位打过客服热线的朋友几乎都曾经被“请按1、2、3、4”的自动应答机制搞得头昏脑涨。“一旦技术成熟，智能化设备将完全有能力接听并理解客户的需求，而不会再像以前那样令对方火上浇油，这对于企业来说无疑是一种福音，”Ffiippone解释道。“像IBM的沃森这类真正能与人交流的智能系统终将代替只会线性思维的自动应答机制。”

新应用并不总意味着巨额投入，社交媒体收听工具就相当价廉物美一一通过追踪Twitter中的关键词及短语发现问题，并及时帮助呼叫中心管理者掌握近期顾客投诉的重点内容或者全局热点问题。“呼叫中心已经拥有丰富的数据资源与基础化分析功能，新的解决方案只是将这些内容进行总结和强化。如果不立足于这一根本，新的分析机制就会空有‘先进’的名头，却无法给出客观准确的判断，”Filippone解释道。

反向跨界

有趣的是，这种跨界并不限于传统IT公司对大数据分析机构的侵吞和收购，众多的大数据“生产者”们也开始注意收集、增加自身的分析能力。今年4月，Twitter宣布收购美国从事社交网站数据调研公司Hotspots.io。这家名不见经传的公司之前的业务，主要是针对美国社交网络用户对超级碗橄榄球决赛电视广告的反应进行研究；加入Twitter之后，这只团队将负责开发各种分析工具，提供给Twitter的广告主和内容提供伙伴。

同样尝到大数据分析甜头的还有亚马逊的三位前工程师——Sundeep Ahuja Tyler Kohn，Michael DeCoursey和Dave Selinger，他们创立的RichRelevance公司根据对消费者购物行为的数据分析，帮助零售商打造个性化商品推荐体验。对于零售商而言，针对各种来源的数据集推出个性化购物体验是一件非常困难的任务，而RichRelevance会分析消费者的“所有”行为数据，这些数据包括了消费者的购物历史、购物车历史、搜索历史以及其他消费者行为。举例来说，一位男士用信用卡为妻子购买了减轻妊娠反应的药品，几个月后，当他们的小宝宝降生后，针对年轻父母以及出生婴儿的全方位购物清单以及促销信息就会轻轻推送到他们的手机以及邮箱中。

传统企业中，零售业巨头沃尔玛正埋头将之前试点的10节点Hadoop扩展到250个节点。这一举动的背后是沃尔玛对硅谷中小型创业公司的一连串收购，这些创业公司不是精于数据挖掘和各种算法，就是在移动社交领域专长。“大数据提供了前所未有的可能性，有些甚至超出我们的想象，我们将拥有一个全球大一统的Hadoop数据仓库，推动内部数据分享和分析，但这需要在各种数据库之上建立一个跨平台的抽象层。”沃尔玛实验室（Walmart Labs）全球电子商务总监斯蒂芬·奥沙利文说，这一切都是沃尔玛全面开展社交媒体和移动应用大数据分析的铺垫，比如基于消费者使用FourSquare的签到数据，沃尔玛能实时分析某家店在周末的时候客流量最大。不仅能够追踪社交媒体中对地点、用户和产品的提及信息，从而优化其选货和备货的准确性，沃尔玛还能通过社交基因库和数据分析技术，分析产品、用户、品牌之间的关联，进行更有针对性的线上和线下店面的产品推荐。

大数据技术的演化深刻地影响今天的企业业务。对大数据分析能力的提升，让企业可以从过去“一地鸡毛”般凌乱的数据中挖掘出用户的行为习惯与兴趣偏好，反向输送给业务层，这种趋势既能支持更精准的社会化营销与广告投放，直接增加公司的收入；同时减少企业与最终顾客间的交流层级，增强用户粘性，带来间接但更持久的价值。

在IBM大中华区副总裁兼大中华区软件集团总经理胡世忠看来，“高层人员需要实时信息”是个错误，甚至谎言。实际上，企业的运营部门更需要实时信息，而战略层面需要的是时间跨度更长的综合信息。而IBM信息管理副总裁兼信息管理CTO Tim Vincent将大数据平台与当年中间件（特别是Web应用服务器）的发展相提并论——同样是利用开源技术，部署的关键则在于与企业的后台系统整合在一起。

很多人认为大数据是指非结构化的数据，其实这是一个“谎言”。事实上，全球产生的数据中85%以上的确是非结构化的数据。但企业主要处理的还是结构化的数据。大多数厂商的非结构化数据分析工具也是转换成结构化数据之后再进行处理。Forrester分析师James Kobielus认为只有1%的美国企业在生产环境中使用Hadoop，他预计在未来一年中，“这个数字将翻一番或者两番”。

无论如何，大数据一方面会催生对IT产品与解决方案更多的需求，涵盖从硬件、软件到信息服务等多个层面，贯穿数据、语音、图片、视频等多种类型；另一方面，越来越多的公司正在通过云交付的模式，将自身对于大数据集的存储、计算与分析能力开放给第三方，使得数据即服务（Data as a Service）成为影响产业格局的新一代业务模式。

IDC中国负责互联网与新媒体研究的高级分析师周林表示：“从数据的角度解读互联网，各类业务的本质都是对数据资产的采集、整理、加工和变现的过程。因此，大数据将成为未来‘新的石油’。持有大型数据的能力，以及将大数据集通过分析转化为业务价值的能力，将构成企业的核心竞争力。”

资料来源：

《第一财经周刊》2012.17 徐涛李蓉慧骆轶航许悦

《IT经理世界》2012.9、11 孙泠赵建凯钟啸灵

《企业改革与管理》2012.5 高宝来

标签：大数据论文; 数据挖掘论文; 数据挖掘算法论文; 用户研究论文; 客户分析论文; 用户分析论文;

欢迎来到大数据时代_大数据论文

猜你喜欢