大数据领域的主题分析——基于WOS和Wikipedia的互证研究,本文主要内容关键词为:领域论文,主题论文,数据论文,Wikipedia论文,WOS论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号 G35 文献标识码 A 文章编号 1002-1965(2014)11-0124-07 近几年大数据的兴起,使得对其商业价值、学术价值以及研究意义的探讨呈现出爆发性增长。各行各业各类专业人士和非专业人士的观点、各学科相关论文的发表、网络上基于群体智慧的讨论,共同构成了大数据领域的众生相。利用百度指数(http://index.baidu.com)检索“大数据”(检索时间2014-04-30)可以看到,在百度知道中关于大数据排名在前两位问题分别是“什么是大数据?该如何理解它?”和“大数据是什么概念?”。实际上,这两个问题也是最难解释清楚的。 大数据所涵盖的内容十分广泛,很难给出精准而且能被广泛接受的定义,而且往往用具体的实例介绍比用简单的概念定义能更好地阐述和表达某些观点,这就造成了和大数据有关行业都习惯于基于自身的领域背景以及自己擅长的方式对大数据进行解读,久而久之,更使得大数据似乎成为了一个只可意会不可言传的概念。不过,大数据确实给现实带来很多改变,人们对数据的分析从以往的随机采样变成了关注分析所有数据整体,也不再纠结微观层面上的准确性而是拓展宏观层面的洞察力,不再热衷于基于理论研究探寻因果关系而是从海量数据中获得相关关系并直接作用于改善提升现实的工作生活[1]。同时,从学术研究的角度来看,大数据也确实给计算机科学、物理学、经济学、数学、政治学、生物医学、社会学等领域学科带来了很大的改变。 那大数据领域讨论的主题主要有哪些呢?了解它们会不会帮助人们更好地理解大数据呢?本文研究并不准备尝试给出大数据的定义或者大数据领域研究的框架,而是希望通过维基百科和学术文献两类数据源,提炼和梳理和大数据有关的主题,进而通过比较和分析两类数据源对大数据领域主题讨论的共识和差异,对大数据领域主题进行梳理,并结合相关数据对大数据领域的前沿热点和未来趋势加以探讨。 1 大数据领域现状 数据就像货币、黄金以及矿藏一样,已经成为一种新的资产类别,大数据战略也已上升为一种国家意志,大数据的运用与服务能力已成为国家综合国力的重要组成部分。当大数据纳入到很多国家的战略层面时,其对于业界发展的影响那是不言而喻的。 国家层面上,发达国家已经启动了大数据布局。2012年3月,美国政府发布《大数据研究和发展倡议》,把应对大数据技术革命带来的机遇和挑战提高到国家战略层面,投资2亿美元发展大数据,用以强化国土安全、转变教育学习模式、加速科学和工程领域的创新速度和水平[2];2012年7月,日本提出以电子政府、电子医疗、防灾等为中心制定新ICT(信息通讯技术)战略,发布“新ICT计划”,重点关注大数据研究和应用;2013年1月,英国政府宣布将在对地观测、医疗卫生等大数据和节能计算技术方面投资1.89亿英镑。同时,欧盟也启动“未来投资计划”,总投资3500亿欧元推动大数据等尖端技术领域创新。 市场层面上,美通社发布的《大数据市场:2012至2018年全球形势、发展趋势、产业分析、规模、份额和预测》报告指出,2012年全球大数据市场产值为63亿美元,预计2018年该产值将达483亿。国际企业巨头们纷纷嗅到了“大数据时代”的商机,传统数据分析企业天睿公司(Teradata)、赛仕软件(SAS)、海波龙(Hyperion)、思爱普(SAP)等在大数据技术或市场方面都占有一席之地;谷歌(Google)、脸谱(Facebook)、亚马逊(Amazon)等大数据资源企业优势显现;IBM、甲骨文(Oracle)、微软(Microsoft)、英特尔(Intel)、EMC、SYBASE等企业陆续推出大数据产品和方案抢占市场,比如IBM公司就先后收购了SPSS、发布了IBMCognos Express和Info Sphere Biglnsights数据分析平台,甲骨文公司的Oracle NoSQL数据库,微软公司Windows Azure上的HD Insight大数据解决方案,EMC公司的Greenplum UAP(Unified Analytics Platform)大数据引擎等等。 在中国,政府和科研机构均开始高度关注大数据。工信部发布的物联网“十二五”规划上,把信息处理技术作为四项关键技术创新工程之一提出,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分,而另外三项:信息感知技术、信息传输技术、信息安全技术,也都与大数据密切相关;2012年12月,国家发改委把数据分析软件开发和服务列入专项指南;2013年科技部将大数据列入“973基础研究计划”;2013年度国家自然基金指南中,管理学部、信息学部和数理学部都将大数据列入其中。2012年12月,广东省启动了《广东省实施大数据战略工作方案》;北京成立“中关村大数据产业联盟”;此外,中国科学院、清华大学、复旦大学、北京航空航天大学、华东师范大学等相继成立了近十个从事数据科学研究的专门机构。 中国互联网数据中心(IDC)对中国大数据技术和服务市场2012~2016年的预测与分析指出:该市场规模将会从2011年的7760万美元增长到2016年的6.17亿美元,未来5年的复合增长率达51.4%,市场规模增长近7倍。数据价值链和产业链初显端倪,阿里巴巴、百度、腾讯、华为、大智慧等数据资源型和研发应用型企业初步涌现,并引领着数据产业的发展。2010年4月,淘宝推出“数据魔方”应用,开展基于淘宝网交易数据的分析和挖掘。2012年,华为公司推出了大数据解决方案和大数据存储产品。 大数据领域的研究最早集中于大数据处理技术的发展,随着数据量发展到PB、EB级甚至更大,客观上要求能够更快地处理分析。大数据专用计算机、分布式计算机集群、多类型多来源数据的处理和分析、数据网络等复杂结构数据的分析、秒级时间分析等通用技术以及各种面向领域的应用技术成为大数据发展的驱动力。但是,随着大数据的进一步的发展,对大数据的探讨已经不仅仅局限于技术方面了,学界的研究,业界的应用,领域的推广,以及对社会生活各个方面的影响,使得大数据的讨论显得类别众多,主题纷杂,这也激发了本文的研究。 2 数据来源与数据处理 2.1 数据来源 单一来源的数据分析容易受到数据源本身的定位以及运行机制等方面的影响,未必能够全面反映某个领域的现状,所以本文采用两类不同性质的数据源进行研究。 一类数据源是论文数据库,本文选择了WOS,其是Science Citation Index Expanded、Social Sciences Citation Index以及Arts & Humanities Citation Index三大引文数据库的Web版[3],包含8000多种世界范围内最有影响力的、经过同行专家评审的高质量的期刊。WOS中不仅存有文献的题录信息,还包含了论文之间引用与被引用的关系,同时这些题录信息和参考文献都可以导出下载,所以其作为数据源不仅权威全面,而且后续处理也很方便。 另一类数据源是开放式网络百科,本文选择了Wikipedia,其是目前世界上最大的自由、免费、内容开放的多语言百科全书,其目标是“为地球上的每一个人提供自由的百科全书——用他们的语言书写的,全世界知识的总和”[4]。其条目数量众多,涵盖范围极广,截止到2014年4月,其英文版词条已有450万余条[5]。美国的《自然》杂志在2005年对Wikipedia内容质量进行了研究,结果表明Wikipedia中词条的内容质量已接近大英百科全书[6]。同时,Wikipedia作为UGC(User Generated Content)的典型代表,其利用群体智慧随时更新着各类信息,与时俱进地保持数据内容的时效。鉴于Wikipedia的词条内容覆盖全面,有较好的质量保障,同时又能第一时间反应某些领域主题变化,所以把其也作为数据来源之一。 基于WOS和Wikipedia两个数据源的互证分析能够更好地探究大数据领域讨论的主题以及感知相关研究的前沿趋势。一般而言,Wikipedia中的词条对应着对概念的阐释,WOS中的文献则对应着某个问题的研究,而问题的探究往往会针对某一研究对象,这样的对象可以是某个概念、某个现象或者某项技术,这也就说,对于词条概念的正文内容进行分析得到的可能是概念上的重点,而对于文献进行分析得出的则是领域学者们的关注点,两者互证一方面可以互为补充和证明,另一方面还可以进一步探讨两种数据源下关于大数据主题认识的共识和差异,这一思路也体现了大数据环境下发现分析线索的策略。 2.2 数据采集 本文所用主题分析的数据是2014年5月8日分别以“big data”作为检索式在WOS数据库和Wikipedia英文版检索所得数据。其中WOS数据库中共检索到656条文献结果(注:未设置具体时间段,故包含有截止检索时的2014年部分数据),对656篇文献分两种方式下载处理,第一种是在WOS数据库中直接下载,数据下载的方式设定为“全记录包含所引用的参考文献以及摘要”,保存为txt文本,用于后续使用Citespace工具的分析;第二种是对656条文献题录信息进行手动采集,按照“编号、文献名、摘要、关键词”存放到excel中,其中包含有摘要的文献450篇,摘要和关键词均有的文献是371篇。Wikipedia中共得到相关词条788条,对结果进行手动采集和筛选,剔除其中与大数据无关的词条,如“big data(band)”,同时剔除被Wikipedia标注为“广告”、“质量不合格”、“即将被移除”的词条,最后得到614条词条结果,按照“编号、词条名称、词条主要内容”存放在excel表格中,其中词条主要内容为每个词条中进行概括性阐述的段落,即content目录以前的段落内容。 2.3 数据处理 本文采用SPSS Text Analytics for Surveys 4.0.1软件进行概念词频统计,同时根据模式匹配对相关文本进行自动归类。词频统计是计数词在文献源中出现的频度,去除无意义的停用词外,相应词的频度大小可以反映出该词在相关主题中的重要性和代表性地位[7]。同时,一定频率的词与词相邻共现可以较好地体现文本主题,所以可以利用基于词与词组合的模式匹配来自动归类文档,根据定义类别的词语组合来进一步把握文本主题。IBM SPSS Text Analytics for Surveys 4.0.1是一款商用文本挖掘软件,使用其图形用户界面,可以方便的抽词、概念或模式统计、文本自动归类等[8]。 具体的数据处理是把Wikipedia相关词条中概括性阐述段落的内容整理成的excel文件,然后导入SPSS Text Analytics for Surveys 4.0.1软件,选择对Concept进行词频统计,共得到10105个词,总频数17448,平均频数为1.73,可见Wikipedia中用词比较分散。然后采用英文通用停用词表去除掉部分词,再根据词频由高到低的选择排名前50的进行主题分析。与此类似,对WOS所选取文献的摘要信息做类似处理,共得到9287个词,总频数19225,平均频数2.07,集中度高于Wikipedia的词条说明。另外,WOS中的题录关键词是表达文献主题概念的自然语言词汇,可以揭示出研究成果的总体内容特征、研究之间的内在关联关系、学术发展脉络等[9]。同样对其进行统计分析,共得到1960个词出现了3340次,平均词频为1.70,同样也比较分散,这在某种程度上也体现了本文研究的必要性和价值所在。 另外,在SPSS Text Analytics for Surveys 4.0.1软件中选择Pattern对Wikipedia的词条说明文本和WOS文献的摘要信息文本进行自动归类,为了更好地体现相关主题的自动聚合,本文数据处理时未预先导入分类模板,也未强制要求所有文本都需归类,最终得到Wikipedia词条说明文本和WOS文献摘要文本各30类。基于归类的分析,可以基于文本特征把其归纳于若干方面,从而概括得出主要的基本类别,对词的分析还相对零散,但对于主题大类的分析能够更好地把握大数据领域的主题。 此外,本文还采用Citespace对WOS检索后保存的全记录(包含所引用的参考文献以及摘要)进行大数据领域研究前沿和趋势的探讨。Citespace是一款信息可视化软件,可以识别和跟踪研究领域的演变、发掘关键节点、探究某个学科的发展前沿等,并通过可视化图谱的方式简单直观地呈现出来[10]。 3 结果 3.1 Wikipedia词条说明的词频统计 利用SPSS Text Analytics for Surveys软件对Wikipedia采集下来的文本数据进行词频统计分析,该软件可以对词的时态语态进行处理并合并,在过滤停用词后排名50的词参见表1,因词频20的主题词有6组,所以表1实际显示的词多于50组。 3.2 Wikipedia词条说明的文本归类 同样采用SPSS Text Analytics for Surveys软件将Wikipedia的词条说明文本进行文本的自动归类,得到30类(见表2)。软件基于Pattern自动抽取概念归类,虽然有些内容所含信息小但有特性的数据在自动归类中没有体现,有些富含信息量、文本比较长的数据则可能在多个类别中都出现,不过这些分类也整体体现了相关主题的类别特性。 根据归类结果来看,技术角度的有技术#5、算法#6、计算机#9、设备#10、架构#11、数据库#16、存储#20、网络#21、CPU#24、云#25、程序#29等类别;应用开发角度有分析#2、软件#4、产品#13、商业#14、应用#17、服务#18等类别;还有员工#7、开发者#12、领导者#23、用户#27等表征身份的类别;另外,公司#8和大学#26类别的文本也较多,研究#3、科学#22、学习#30等有相通之处。后文还将就此结果进一步探讨,在此不赘言。 3.3 WOS文献关键词/摘要词频统计 文献中的关键词和摘要是对文献研究内容最简单直观地概括阐释。表3是WOS所采集文献数据可获得关键词样本的关键词词频统计,其中排名比较靠前的是系统、模型、MapReduce、网络、信息、数据挖掘、云计算、性能、数据库、Web页等,可见还是比较偏技术性,这与WOS中大量科技论文有着较大的关系。 表4是WOS所采集文献数据可获得摘要的词频统计,与关键词词频统计结果相比,明显多了对大数据产生的影响的形容和描述,比如新的、更好的、优秀的、更大的、高效的、可用的、更多的、快速的、多样的、更进一步地、创新的、有用的等,这一点和Wikipedia的高频词分布有一定的相似。 3.4 WOS文献摘要信息的文本归类 将WOS文献摘要信息导入SPSS Text Analytics for Surveys软件中进行文本的自动归类,得到30类(见表5),与同样被分为30类的Wikipedia词条说明的文本归类结果来看,有部分的类别是重合的,但也还存在着一些差异,后文还将围绕这些异同展开进一步的探讨。 4 讨论 4.1 基于文本归类的主题类别讨论 为了更好地把握大数据领域主题的整体情况,本文首先对Wikipedia词条说明和WOS摘要信息的文本归类结果进行比较和分析,参见表6。 可以得出,两个数据源得到的各30个大类中有16个相同,体现了一定的共性,但仍有14个大类不同,体现了一定的差异。 整体角度来看,对数据、信息、分析、科学和社会的关注是共同的,但是对于Wikipedia中的mathematics分类和WOS中Humans分类却体现了一定差异,前者对算法以及更广意义上的数学有一定的主题覆盖,而后者体现了一些研究者从人类生活和发展的角度看待大数据的视角。 从技术层面看,技术、计算机和网络是共同的主题类别,而Wikipedia特有的类别则更加商业化,也更加具体,比如软件、数据库、云、存储、设备、CPU等,WOS特有的类别除了强调了大数据的资源特性外,算法、工具、方法、途径、统计等都有具体实现的探讨密切相关,体现了一定的研究特性。 从应用层面来看,应用、服务、架构是共同的主题类别,而Wikipedia的商业(业务)、解决方案、产品和前述技术层面有些类似,体现了商业特性,而WOS特有的过程(流程)、框架、模型(建模)则相对细节一些,是业务、方案、产品更加聚焦的细分领域主题探讨。 从实体和活动角度来看,两者的分类都涉及开发者、雇员、用户、研究、学习,而Wikipedia的探讨多了领导者(对大数据的理念宣传和应用推广起着重要的重要)、公司和大学(大数据领域最主要的两类推动力量)、编程(此活动和大数据的具体实现密切相关),而WOS摘要信息还生成了一个类别是Study,这个类别特征不够明显,因为作为“研究”理解其和research相似,作为“学习”理解其有和learning比较雷同。 需要额外强调的是WOS摘要信息文本自动归类的时候产生了scale、time、performance三个类别,体现研究者对于大数据以及大数据分析在规模、时间、性能等方面的关注,这些都是具体研究开展的一些切入点。 4.2 基于词频统计的细分主题探讨 前文对三种不同数据源的文本进行了概念抽取和词频统计,相对于Wikipedia的词条说明和WOS的摘要信息,WOS中的文献关键词更具有主题特性,所以本文将以WOS中的关键词词频为主,参考上述的主题类别划分以及另外两个数据源的词频分布特点,来互证探讨大数据领域的主题特点。 a.数据及数据源方面的主题,除了未予计数data以及前面提及的information外,intelligence(情报或者智能)出现在高频概念中,体现了数据-信息-情报的数据增值过程。web、social media、internet、social networks、twitter等词体现了互联网的蓬勃发展使其成为大数据的重要数据源,数据的多样性(varied)和动态性(dynamic)以及分析的高效(efficient)和实时(time)体现了大数据的特点,同时behavior也从另外的角度体现了大数据对用户行为领域的关注。 b.对数据的处理、挖掘和分析也产生了大量的高频词,除了data mining、data analytics、data analysis、analytics外,还包括prediction(预测)、visualization(可视化)、reduction(减少)、selection(选择)、classification(分类)、measurement(测量)、computing(计算)等方法相关的词,以及Map-reduce(映射-化简,一般直接用Map-reduce表示)、cloud computing(云计算)、machine learning(机器学习)、neural network(神经网络)、ontology(本体)、distributed(分布式)、support vector machine(支持向量机)等具体技术。 c.大数据系统层面来看,systems(系统)、model(模型)、networks(网络)、databases(数据库)、design(设计)、cloud(云)、framework(框架)、memory(存储)都与之相关,进一步看其应用,可以提供有力工具(tool)、增强系统功能(functional)、解决实际问题(problem)、加强企业管理(management)、提升服务水平(service)、促进科学研究(science),影响(impact)当今现实并面向未来(future)有所创新(innovation)。 上述WOS文献高频关键词所体现的这些主题内容同样在Wikipedia词条说明的词频统计和WOS文献摘要信息的词频统计中有所体现,下面进一步探讨后两者相关的高频词对于WOS高频关键词有所补充的主题。 d.国家、地区以及公司机构方面,WOS高频关键词统计中除了出现united states外并没有其他相关的国家、地区或者公司的名称出现,通过Wipikedia高频词数据的进一步观察,可以在表6中发现包括California(56次)、united states(42次)、IBM(30次)、San Francisco(20次)等国家地区和公司的名字,这些都是大数据产业发展比较好的地区和公司,还有company(150次)、world(49次)、inc.(37次)、organization(35次)、countries(32次)、software company(24次)也体现了世界范围内从公司到各类机构,包括国家层面对大数据的关注。回到Wikipedia总的词频表,还会发现紧随其后的London(17次)、Google(17次)、Washington(16次)、Microsoft(16次)等词。 e.社会和人这一方面,WOS高频关键词统计中behavior、privacy、impact、innovation等词在前面多少有所讨论,但并不够具体,Wipikedia高频词数据中包括了founder(32次)、users(28次)、customers(26次)、people(23次)、CEO(23次)等,WOS文摘信息高频词数据还包括有rights(70次)、challenges(69次)、potential(53次)、change(36次)、significant(34次)等,这些词组合在一起可以看出大数据理念催生了一批数据型的公司,他们的创立者以及一些大公司的CEO们都在不遗余力的宣传推广着大数据理念、产品和技术。大数据给这个时代带了机遇和挑战,也正在影响和改变着这个世界,不过对用户隐私、民众权利的讨论也同样是大数据的主题之一。 f.在Wipikedia词条说明和WOS摘要信息的高频词表中还有一类词,虽然对大数据主题分析的启发意义不够大,但实实在在体现了大数据特征和大数据影响,如Wikipedia词条中的new、greater、excellent、fast、better、more、high(有时和performance组合)、open(多为形容词使用,有时和source组合)、varied、creative、advanced等,WOS摘要信息中除了上述这些词以外,还有excellent、efficient、available、accurate、further、significant、useful等,这一点上这两个数据源的高频词可以互证,对WOS文献关键词形成补充,共同体现大数据数据容量更大、数据类型多样、更快的实时分析需求等特点,也能管中窥豹看到大数据所带来的开放、创新、卓越的伟大变化。 除了上述这些主题以外,WOS文献高频关键词中还有一类主题词,它们是Genomics(基因组学)、Biology(生物学)、Disease(疾病)和Bioinformatics(生物信息学),可见生物医学领域是大数据发展很重要的一个应用领域。 4.3 Citespace研究前沿与趋势探讨 上述探讨主要还是基于现状的分析,那么大数据领域的研究前沿和趋势是否能和前述的主题类别和细分主题有所对应呢?一个学科领域的研究前沿是可以通过研究者引用的文章所体现的,这可以反映出一个学科发展的动态本质[11]。在Citespace软件分析中,研究前沿被定义为是一组突现的动态概念和潜在研究问题,研究前沿的知识基础是科学文献的引文和共引轨迹[12]。基于已经获取的WOS文献的“全记录包含所引用的参考文献以及摘要”基础上采用Citespace软件进行可视化分析,选择文献共被引分析,阈值经调整后设定为(2,2,15)(3,2,20)(3,3,20),网络节点设置为“cited reference”;时间段均为1994-2014;时间跨度为1;数据抽取对象为top50,得到可视化图谱。可视化图谱共显示11个节点,各个节点的分布比较分散,这说明这些文献之间的关系不够紧密,文献之间的引用和被引用次数并不高。不过表征这些文献的词与前面的分析多有呼应,比如#6的community structure与前面所涉及的social media、social networks、twitter等主题有对应;#7的crisis与challenge、potential、change等词也有所关联;#5的genome更是直接出现在前文高频词中,生物医学方面的大数据应用还体现在#1、#3、#4的intervention(干预)和#9molecular dynamic simulation(分子动力学模拟)上;另外#8的Mapreduce也在前面词表中多次出现。另外#10的descent method体现了一些方法上的探讨,而#0的collaboration则反映出大数据背景下协作的需要。 利用Citespace的拓展分析可以从文献共被引的分析结果中得出相应的膨胀词,除了big data本身外,还有data mining、life-science、data-set。进一步将中心性排名前十的文献列出,10篇关键节点的详细信息见表7。 分析表7的中心性排名前十名的文章,其所涉及内容主要包括两大方向,一是大数据对于工作、生活、商务等带来的创新性变革,另一方面则与大数据的具体技术和应用有关,如多篇与Mapreduce有关的论文,还有在医学分析、生物数据、社会计算等方面的应用。在上述分析基础上,结合前面的Wikipedia和WOS的词频分析和归类分析,再根据文献共被引分析和得出膨胀词的结果,可以大体确定大数据领域的研究前沿为:数据挖掘、生命科学、大数据集处理。 5 结语 本文基于Wikipedia和WOS两个数据源,利用SPSS Text Analytics for Surveys和Citespace两款软件对两个数据源的相关数据进行了互证分析,大部分的结果互为佐证,也有部分结果互为补充。基于文本自动归类的分析可以发现两个数据源关于大数据的讨论可以分为整体讨论、技术层面、应用层面、实体活动等类别。再进一步的结合词频统计细分主题,现阶段大数据领域的关注主题主要有数据及数据源、大数据处理和分析技术、大数据系统与应用、国家地区以及企业的推动、大数据领域关于社会和人的讨论,大数据给行业和学科带来的影响等方面。同时结合Citespace的分析,确定了大数据领域的研究前沿是数据挖掘、生命科学、大数据集处理。这些结果虽然不能直接权威的回答“大数据是什么?”,但是可以相对客观地回答现阶段“大数据有什么?”这一问题。 更好地理解大数据的内涵外延,更好地把握大数据的发展趋势,有助于我国大数据浪潮下抓住机遇、转型升级、迎头赶上。不过在分析过程中也能发现中国在这方面的诸多不足,比如,虽然WOS数据库中受中国国家基金资助的论文与受美国国家基金资助的论文相差不大,但在实际WOS数据库中大数据领域的论文中国只占到美国的20%左右;另外中国也没有产生太多大数据领域具有世界影响力的企业、技术或应用方案,这也造成很多人认为大数据又是一波热炒的概念而已。不管如何,希望本文的梳理可以帮助更多的研究者形成一个较为清晰的宏观构象,并可能为研究者接下来研究计划的制订提供一定的辅助参考。 收稿日期:2014-06-23 修回日期:2014-07-26标签:大数据论文; 维基百科论文; 文本分类论文; 文本分析论文; 百科词条论文; wos论文; 信息发展论文; 词条论文;