大数据知识图谱:概念、特征、应用与影响,本文主要内容关键词为:图谱论文,特征论文,概念论文,知识论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
数字时代,种类繁多的数据源定期或不定期地产生大量的结构化和非结构化的数据。据国际数据公司(IDC)的数字宇宙研究报告称,2011年全球数据总量为1.8ZB,并将在2020年攀升到35ZB。其中约有95%的数据量因受限于人类数据分析解释能力和数据分析手段而被闲置,严重阻碍了科学研究的进展[1]。数据可视化技术在此背景下应运而生,由美国计算机成像专业委员会于1987年率先提出。作为最有效的大量数据解释手段,它最初被科学与工程计算领域采用,目前已发展成为一个热门的研究领域——科学可视化。
2 大数据知识图谱
知识图谱在图书情报界也称为知识域可视化或知识领域映射地图,是通过可视化技术,描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及知识发展进程和结构关系的一系列图形化方法。该方法是一种多学科融合研究方法,它将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,从而为学科研究提供切实的、有价值的参考(见图1)。
本文所采用的可视化工具Gephi是一款开源免费跨平台基于JVM的复杂网络分析软件,其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具。可用作:探索性数据分析,链接分析,社交网络分析,生物网络分析等。
3 大数据概念的发展历程
3.1 数据科学
上世纪60年代,Peter Naur首次提议要用“数据科学(Data science、Datalogy)”替代“计算机科学(Computer science)”,国际分类社团联盟在上世纪90年代中期采用了这一建议[2]。2001年,William S.Cleveland在其Visualizing Data一书中提议将数据科学作为一个新的学科,吸收计算机在数据处理方面取得的进展作为统计学的延伸。侧重于互联网数据和音像数据的《数据科学》(Data Science Journal)期刊以及侧重于统计方法大规模应用的The Journal of Data Science分别于2002年与2003年开始发行。
2005前后,数据科学开始由学术向行业大规模迁移,一些Web公司开始开发大数据技术,并对其收集的海量数据进行挖掘利用。2005年,美国国家科学委员会发表了《数字数据收集万岁:促进21世纪的研究与教育》,文中定义了数据科学家一词。Greylock Partners的数据科学家D.J.Patil跟Jeff Hammerbacher一起在Facebook和LikedIn上建立了数据与分析小组,这一举动被视为是数据科学走向职业化的标志。伴随而来的是,Natahn Yau于2009年首次提及“数据科学家”这一职业。2009年1月,数字化数据跨机构工作组发表的名为《驾驭科学与社会数字化数据之力》的报告也提到“数据科学家”一词。2009年6月,一个在学术性岗位工作的澳大利亚人Troy Sadkowsky在LinkedIn建立了一个数据科学家小组,作为其datasceintists.com网站的辅佐,成为数据科学职业化的正式标志(见图2)。
3.2 大数据概念与特征
被誉为“数据仓库之父”的Bill Inmon在上个世纪90年代开始关注大数据,当时它被称作海量数据。近几年,由于互联网、移动设备、物联网和云计算等相关技术的迅猛发展,使得海量数据的产生呈指数增长,已有的数据库、数据仓库管理系统不再胜任数据管理的需求,因此使得大数据的概念和问题得到产业界和学术界的广泛关注。例如目前相对成熟的Hadoop系列解决方案和哈佛大学2012年8月的一项研究成果——“DNA硬盘”都是目前人类对大数据问题的积极探索(见图3)。
但是大数据被学术界正式提出始于2008年9月《自然》杂志发表的Big Data Science in the Petabyte Era系列专题文章。该系列文章的主题是“怎样处理现代科学面临的数据洪流挑战”,具体内容涉及数据的收集,资金的投入等方面。要解决大数据的获取、存储、处理、检索和使用,首先必须科学地理解大数据的概念及特性,以下是具有代表性的观点:
IDC:“‘大数据’是为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。”人们普遍将该定义概括为“四V”:即更大的容量、更复杂的多样性(包括结构化、半结构化和非结构化数据)、更快的生成速度以及其组合带来的第四个因素——价值[3]。
维基百科:互联网企业日常运营所生成和积累用户网络行为数据量的增长已突破传统计量单位,难以使用现有的数据库管理工具来驾驭数据的获取、存储、搜索、共享、分析和可视化等方面,故称之大数据。
麦肯锡:“大数据将会是带动未来生产力发展、创新、消费需求增长的指向标[4]。”
Forrester分析师布赖恩·霍普金斯和鲍里斯·埃韦尔松在其撰写的《首席信息官,请用大数据扩展数字视野》报告中,将大数据的特征概括为——海量、多样性、高速和易变性。
1947年哈佛大学物理学教授齐普夫提出的“齐普夫定律”指出,英文单词的出现频率服从幂律型尾部的分布,即所谓重尾分布,而非指数型的轻尾分布。随着高速存取的出现和存储空间的极速拓展,有研究显示大数据并不服从齐普夫定律,80%的处理并非都集中在20%的数据集上,而是呈长尾缓慢下降的形态分布。于是,有人提出所谓“广延指数分布”[5]。
4 大数据的应用
大数据现象最早出现在物理学、生物学、环境生态学、自动控制等科学领域和军事,通讯、金融等行业领域,近几年在互联网领域的蓬勃发展得益于互联网、移动设备、物联网和云计算等相关技术的迅猛发展带来的影响:一是网络用户行为数据随网络用户数量和用户平均在线时长而高速增长;二是网络服务数据量和数据类型随网络服务多元化而高速增长;三是网络终端类型高速扩展带来的数据产生范围的扩展[6]。
大数据是整个WEB2.0革命的重要组成部分,世界网络业的领导型企业IBM,FACEBOOK,谷歌,苹果和亚马逊都已处于领先的位置上。关于大数据的应用价值,有诸多经典案例:美国印第安纳大学和英国曼彻斯特大学的学者将Twitter上的公众情绪数据产生的曲线与道琼斯工业指数进行对照分析,发现可以提前3~4天预测股市大盘走势,由此推出了欧洲第一只基于社交媒体的对冲基金;英国科学家根据Twitter用户发布的信息数据与英国卫生部的官方数据进行比较来跟踪流感的爆发,并建立起一个预测模型;创业团队“Sick Weather”甚至以预测疾病为主题开展了自己的创业项目[7]。
大数据的具体应用可分为商务和政务两个方面,目前主要体现在商务方面,政务方面主要是商务的拓展和延伸。
4.1 商务应用
根据麦肯锡全球研究所(MGI)和麦肯锡商业技术办公室的最新调查研究显示,多媒体、社交媒体和物联网都将极大地增加企业可获取的信息量,而且数据分析在产品制造方面已经和劳动力、资本地位平行。各行业的领导者都已经开始关注大数据利用的潜力和意义,大数据所能带来的巨大商业价值被认为“将引领一场足以匹敌20世纪计算机革命的巨大变革”[8]。受益于对大数据的合理利用,企业可以建立更好的服务反馈与改良机制,例如亚马逊精准的商品推荐、McKesson高效的物流调配、沃尔沃持续的零件缺陷监测等。
福布斯专栏作家Dave Feinleib绘制的一张大数据企业生态系统图谱,对于全面了解大数据商业应用架构颇有价值。该图从大数据的技术支撑到服务框架再到上层商业应用,基本囊括了目前大数据商业应用的概貌:以Hadoop、MapReduce、Hbase、Cassandra等为技术支撑,搭建数据分析框架、操作框架、服务框架和数据库框架,提供数据供应、日志应用、节点应用、商业智能应用和可视化分析五大类应用[9](见图4)。
MGI在医疗、公共、零售、制造业和个人定位五个领域内详细研究了大数据发展趋势,认为大数据可以在任何一个领域内提升和创造价值:零售业可以提高60%的运营利润;医疗业可以保障医疗系统安全有效运行,每年仅美国就能减少8%的医疗支出,并多创造3000亿美元的价值;服务业可以利用个人行为信息刺激消费从而带来6000亿美元的营业额;在公共领域,欧洲政府每年可以减少1000亿欧元开支,并且有效避免偷税漏税行为[10]。
而IBM在其调查报告中,则描绘了大数据的行业应用场景信息图,分析了大数据在商业的各个领域包括医疗、客户服务、保险、金融服务、零售业、通讯业的应用,也表达了类似的观点。例如在保险业方面,通过先进的数据分析,保险公司或者相关政府机构可以提前发现保险欺诈;金融工作者通过大数据分析可以更好地掌握市场动态,提升投资的评估精准度和业绩;通讯服务商可以通过大数据为客户提供个性化服务,有效避免客户流失[11]。
市场调研公司Gartner发布了一份关于企业在大数据方面的支出情况报告;IBM和牛津大学联合发布了一份大数据研究报告,内容包括:大数据的实际使用情况以及创新型企业如何从不确定数据中提取有价值数据等。该报告指出四大主要数据来源包括:交易数据、记录数据、事件和电子邮件;五大数据能力包括:数据挖掘、数据可视化、预测、建模与数据优化[12]。
4.2 政务应用
在政务应用方面,联合国于2012年7月在纽约总部发布了一份名为《大数据促发展:挑战与机遇》的政务白皮书,指出大数据对于联合国和各国政府的历史性机遇,总结了各国政府如何利用大数据更好地服务和保护人民,探讨了如何利用包括社交网络在内大数据资源造福人类。比如利用大数据帮助政府更好地响应社会和经济指标,例如收入、失业、食品价格以及其他经济指标。作为联合国旨在利用互联网的消费数据推动全球发展的“全球脉搏”项目的产物,该报告指出大数据时代已经到来,通过对包括旧数据和新数据的极丰富的数据资源进行合理分析,政府可以实现“与数俱进”,进行社会人口的实时分析,以预测和快速应对包括失业在内的重大社会问题[13]。此外,联合国还建议各成员国建设“脉搏实验室”(Pulse Labs)网络,开发大数据的潜在价值。印度尼西亚和乌干达作为两个标杆国家率先在各自的首都雅加达和坎贝拉建设了“脉搏实验室”。
与联合国对大数据价值的判断相呼应,伦敦智库政策交易所不久前也宣布大数据每年能为英国政府节省330亿英镑[14]。麦肯锡的调查研究也指出,大数据的运用每年将为欧洲政府减少1000亿欧元的开支,并有效避免偷税漏税行为。
美国认为大数据是“未来的新石油”,已经把大数据上升到国家战略的层面。奥巴马政府2012年3月份宣布投资2亿美元启动“大数据研究和发展计划”,希望增强收集海量数据、分析萃取信息的能力[15]。事实上,美国针对大数据的工作早已展开,美国联邦政府的数据来源主要包括三类:业务管理数据、民意社情数据和物理环境数据。典型的例子是1940年罗斯福政府引进的民意调查、1962年启动的海浪监测计划和1973年诞生的最小数据集。欧盟也有类似的举措,截至2012年1月的预算为5000万欧元的FP7 Call 8专门征集针对大数据的研究项目,并以基础设施为先导。
在中国,大数据尚未被政府明确提出。但在2011年11月16日工信部发布的物联网“十二五”规划里,提出了与大数据密切相关的四项关键技术创新工程:信息感知技术、信息传输技术、信息安全技术、信息处理技术。其中信息处理技术包括了海量数据存储、数据挖掘、图像视频智能分析等大数据的重要组成部分。在数据收集方面,2003年,由中国人民大学发起,中国有了第一个全国性的大型社会调查项目——中国综合社会调查,开始对社会的发展和变迁进行全方位、综合性、纵贯性的问卷访谈调查,并按照国际标准成立了“中国社会调查开放数据库”,向全社会开放调查的结果和数据;同年,中国开始制定医疗系统的最小数据集;2006年中国卫生部出台了第一版中国医院最小数据集标准;2006年9月,国家统计局成立了中国第一个社情民意调查机构——社情民意调查中心;近几年也开始对物理环境数据进行采集[16]。
5 大数据的影响与挑战
5.1 大数据的影响
在2012年年初的瑞士达沃斯论坛上,一份题为《大数据,大影响》的报告宣称,数据已经成为一种新的类似货币或黄金的经济资产类别[17]。麦肯锡全球研究机构也在其2011年5月发布的《大数据:创新、竞争和生产力的下一个前沿领域》中肯定了大数据对于提升各个商业领域价值创造的巨大影响力。而《华尔街日报》在《科技变革即将引领新的经济繁荣》中更是大胆预言:“我们再次处于三次宏大技术变革的开端,他们可能足以匹敌20世纪的那次变革,这三次变革的震中都在美国,他们分别是大数据、智能制造和无线网络革命。”
IDC基于当前全球大数市场规模与发展速度,对于全球大数据市场规模的预测如图5所示。
可见,大数据的利用将掀起新一轮生产力发展、刺激消费的浪潮。因而也将成为私有企业竞争发展的关键:在绝大多数产业中,竞争者和跟随者类型的企业都可以利用大数据的深层分析和实时数据改进创新、竞争和价值创造策略。对于紧密相关的计算机、电子产品和信息技术行业,以及金融、保险行业,大数据不仅能提高其产业价值,还能提升就业。因为大数据的引入可能带来信息分析人才的短缺。预计到2018年,仅美国就需要14万~19万信息分析专业人才,以及150万懂得大数据的管理人员和分析师。
对于科学研究的影响,计算机图灵奖得主Jim Gray和Jnan Dash在《科学的第四个范式》中有所论述。他们将人类科学研究的历史划分为四个阶段:人类社会从几千年前描述自然现象的实验科学,发展到过去几百年以牛顿定律为代表的理论科学,并在过去几十年过渡到模拟复杂现象的计算机科学,到今天升级为以大数据为代表的数据密集型科学,实现理论、实验和模拟的统一,因此数据科学正在成为一种全新的科学研究方式[18]。
美国人文基金会(NEH)的大数据项目在探讨分析大数据的变化对人文社会科学的影响;国家科学基金会(NSF)的大数据项目也关注开发一种以统一的理论框架为原则的统计方法和可伸缩的网络模型算法,以区别适合随机性网络的方法。中国科学院计算技术研究所首席科学家李国杰院士在其前不久发表的《大数据研究的科学价值》一文中,也对大数据和数据科学可能对自然科学和社会科学带来的影响进行了阐述[19]。
5.2 大数据的挑战
大数据在带来机遇的同时也伴随诸如工程技术、管理政策、人才培养等方面的大挑战。企事业单位和政府等各类组织不仅需要投入人才和技术,还需要对其流程、结构进行优化,以适应大数据的需求。同时,数据来源也非常重要,组织需要从多个领域获取数据[20]。现实的挑战看主要集中在以下几个方面。
(1)组织的战略决策能力挑战,特别是互联网企业,在面对大数据时容易陷入全面更新现有产品和运营体系,加大投入,迅速转型与维持现有业务,保持业绩的稳定和增长的决策困境。
(2)组织的技术开发和数据处理能力挑战。大数据的出现以及潜在的商业价值不仅要求组织使用专门的数据库技术和专用的数据存储设备,而且更要求专门的数据分析方法和使用体系。目前业内流行的一般数据挖掘方法和通用商业数据库无法满足大数据时代的挑战。
(3)组织的运营和组织能力挑战。大数据时代以个人用户基本单位进行数据分析,寻求个人全面、完整、动态、实时的行为模式以及在此基础上归纳出来的群体行为模式,而不是传统的基于单个产品、服务、频道的碎片式静态统计分析。所以,对大数据的整体把握是组织的产品开发,运营设置,服务模式的基础和出发点,因此需要对现有的组织架构,组织体系,资源配置和权力结构进行重组,让数据管理与分析部门进入决策层,例如企业可以设立首席数据官(Chief Data Officer,CDO)与CEO、COO、CFO、CTO等一道进行决策。
(4)大数据高端专业人才挑战。对海量数据的分析不仅需要专业人员对一般数据规律和模型的把握,而且要有理论思维和全面把握的综合深入能力。因此大量的高端专业人才不仅指一般的程序员和数据库工程师,还要包括天体物理学家、生态学家、数学和统计学家、社会网络学家、社会行为心理学家、等等。
收稿日期:2012-12-25
标签:大数据论文;