国外数据科学研究的回顾与展望,本文主要内容关键词为:科学研究论文,国外论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 技术的发展不仅带来社会需求的变化,更多的是科学研究思路与方法的转化与飞跃,数据科学就是在创新变化中兴起的研究领域。随着大数据热潮的掀起,一系列的研究问题正在激发着学者的兴趣并引领着研究的发展,形成了许多的研究成果。通过在Web of Science数据库中以“data science”为主题进行检索,并下载阅读相关文献发现,数据科学(data science)作为术语第一次被提及是在1992年法国Montpellier University Ⅱ召开的日本-法国科学家第二次研讨会上[1]。此外,第一本以数据科学命名的期刊则是在2002年由国际科学技术数据委员会(CODATA)创办[2],为了给我国今后的系统而深入的研究提供参考和借鉴,本文尝试从发文特征计量分析与内容解读相结合的途径对国外数据科学研究现状和发展走向进行研究,着重探讨以下几个问题:数据科学研究什么?研究的现状与脉络如何?相关的内涵界定与应用领域包括哪些方面?正在面临的问题和挑战有哪些? 2 数据科学研究发文特征的计量分析 本文所选取的统计数据来源于Web of Science核心合集数据库,检索时间:2016年5月15日。首先,以“data science”为关键词进行主题检索共获得304条数据;同时,以“big data”为关键词进行主题检索共获得6 855条数据;以“'data science' and 'big data'”为组合关键词进行主题检索共获得99条数据。其次,下载导出“data science”的全记录、记录“big data”每一年的发文数。最后,利用该数据库所提供的有关“data science”的文献特征,从发文数量的时间、来源、研究方向、作者及其共现、关键词分布等方面进行计量分析,并基于关键词利用Citespace进行主题演化分析,从文献计量角度获取该研究领域的整体状况,并从中发现研究的特点与规律。 2.1 发文数量的时间分布 为考察主题中含有“data science”文献发文量的时间分布状态,并与“big data”做对比分析,首先按照Web of Science提供的数据进行统计,然后将所统计的结果利用Excel做时序分析对比图(见图1)。 图1 “数据科学”发文量及其与“大数据”发文量的对比(单位:篇) 通过统计分析发现,在所统计的数据库中,将“big data”这一术语作为文献主题的文章最早出现在1996年,“Data science”最早出现的时间为2000年。但是,直到2012年以前,两者的发文数量都比较少。而从2012年之后,这方面的文章数量突然增多,并呈现快速上升趋势,这表明学者的研究兴趣大增,对相关研究的关注热度迅速地发生着变化。由图1显示的数据可见,有关“big data”和“data science”的文献均以2012年作为一个拐点进入研究的迅速攀升阶段,并且两者的数量变化曲线具有高度的相关性。同时,通过组合检索获得的数据发现,文献中两个关键词都涉及的记录共有99条,分布在2011~2016年间,占有关“data science”总文献的32.57%,而且在2013年与2014年分别占比为66.67%、48.21%,见表1。此外,通过阅读这些文献的摘要进一步证实了数据科学研究的兴盛是伴随着大数据的热潮而产生的。而随着技术发展从big data 1.0走向big data 2.0,有可能迎来数据科学的黄金时代,数据科学的原理与技术将比今天有更广泛和更深入的应用[3]。 2.2 发文数量的来源与研究方向分布 为考察发文数量的主要来源与研究方向分布情况,以Web of Science所提供的数据为依据,按照年代进行统计,得到图2所示的文献来源分布图和图3所示的文献研究方向分布图。 图2 文献来源出版物分布 从图2中可以看到,发表数据科学文章的主要期刊是Statistical Analysis And Datamining、Big Data和Lecture Notes In Computer Science等,这表明国外对数据科学的研究多是从统计学入手,同时伴随着大数据的发展,在计算机科学方面的实践研究越来越多。从图3中可见,对数据科学的研究方向主要集中在Computer Science、Engineering、Mathematics,这与期刊分布的结果比较一致,也再次表明数据科学的研究热点还处于以计算机科学为主导的研究方向。 图3 研究方向分布 2.3 发文数量的作者及其共现聚类分布 为考察作者的发文量与合作状态分布,本文对导出的文献全记录进行作者发文频次统计与发文量共现频次统计。经过统计发现,在有关“data science”的304篇文献中,涉及240位作者,其中发表论文数大于3篇的作者有16位,见表2。利用Citespace[4]软件进行作者共现聚类,结果见图4。 图4 所有发文作者共现聚类 由图4可以看出,作者分布比较零散,除了合作外很少有作者形成间接的关联网络,说明该方面的学术研究尚处于发展的初期阶段,基本呈现各自为战的状态,还未出现具有明显中心性核心研究者。 2.4 发文所涉及的关键词及研究热点分析 为考察发文的研究热点与发现关联的研究,本文对导出的文献全记录进行关键词数量统计,然后将获取到的关键词利用Citespace软件根据其频次做成字体云,形成关键词热点图(见图5);再利用Citespace对关键词进行共现分析,形成关键词共现网络图(见图6)。从图5中可以看出,高频关键词有:大数据、机器学习、建模、数据挖掘、系统、网络、数据库、预测、挑战、影响、分类、算法、医药、公共健康、生物等;从图6中得知,与数据科学联系比较紧密的关键词有大数据、机器学习、模型、数据挖掘、数据库、分类科学、生物信息学、管理、预测分析、可计算的社会科学、框架、挑战、高维数据等。结合上述两个图的结果可以发现,这些高频词与共现词不仅显示了数据科学在研究对象、研究方法以及面临的问题方面所关注的热点,而且显示了主要应用的范围。同时,由这些关键词形成的共现网络群之间的关联程度也较高。 图5 关键词热点 图6 关键词共现网络 2.5 发文所涉及的研究主题演化分析 为考察发文关键词的主要演化路径,利用Citespace对导出的关键词按照时间轴顺序进行处理后形成关键词演化图(见图7)。从图7中可以看出,有关数据科学的文献中关键词的演化有两条比较明显的路径:其一,从研究对象与内容出发的研究脉络演化,即从数据库、数据分析到大数据、数据挖掘;其二,从研究方法与应用出发的研究脉络演化,即从系统、建模到机器学习、预测。此外,通过对关键词变化的考察和借助阅读相关文献文摘,也可以发现数据科学的相关热点从早期的模型、系统算法发展到现在,研究人员在构建理论与方法的同时正在逐渐将关心的问题转向到与应用并行的研究上,而应用研究的问题大多数来自于实践的需求与场景。 图7 关键词演化 3 数据科学发展与内涵界定的研究 有研究认为data science在1960年就出现了,最初的用语是datalogy,是指数据分析论,由图林奖获得者P.Naur作为计算机科学的替代术语提出的[5]datalogy作为会议名称第一次出现是在1968年的IFIP年会上(“Datalogy,the science of data and of data processes and its place in education”)[2]。自此数据分析逐渐进入到决策支持和决策流程中,到20世纪90年代初,随着关系型数据库技术的成熟以及业务流程越来越自动化,数据挖掘诞生并迅速发展起来,将机器学习的各种方法应用于具体业务的问题中[6],与此同时利用交易和行为数据进行解释和预测的工具随之快速增加[7]对于以数据为基础的决策支持越来越产生价值[8]。随着数据分析的需求增加与复杂化,使得数据科学进入研究者的视野,1996年在东京召开的IFCS(International Federation of Classification Societies)会议上第一次在会议名称里包含数据科学这一术语(“data science,classification,and related methods”)。2001年,作为较早对数据科学进行专门描述的研究人员,W.S.Cleveland发表了一篇论文data science:an action plan for expanding the technical areas of the field of statistics[9],在论文中对数据科学的学科起源与内涵进行了界定。在此之后,关于数据的跨学科研究和计算领域取得了显著进展。 综上所述,2012年之后,国外涉及数据科学这一主题的文献数量快速增加,相关研究进入一个新的发展阶段。在对相关文献进行计量分析得到总体发展态势的基础上,采用内容解读法对文章进行消化理解并总结分析,以解析与归纳该领域的具体研究内容。首先,逐篇阅读所检索出来的每一篇论文文摘;其次,选择被引频次与相关性都较高的论文并找到原文;最后,研读每篇论文所提出的观点并加以归类分解。 通过内容解读得知,与其他研究不同的是,数据科学的研究对象是来源于各种载体与形式中的数据,即研究数据本身具有或者呈现出的各种类型、特点、存在方式及其变化形式和规律等,并为社会科学与自然科学提供新的研究方法。而有关数据科学内涵的界定,不同学科的研究者给出了许多不同的阐述。本文综合分析已有的研究成果,拟从“目的与过程结合”“方法与领域结合”“人才与需求结合”3个方面加以归纳总结。 3.1 基于目的与过程结合的内涵界定 研究目的回答的是为什么,研究过程回答的是经过哪些路径或者包括哪些环节,它们是关系到一个研究领域存在与发展的核心所在。许多学者从研究目的与过程角度研究数据科学的内涵,如在早期,W.S.Cleveland认为使统计学领域主要技术工作发生实质性改变的就是数据科学,作为新工具与理论,数据科学的最大刺激就是分析数据以解决学科领域潜藏在调查背景下的问题[10];2003年的《数据科学》杂志认为:“数据科学”意味着几乎所有与数据有关的东西,包括对数据的收集、分析和建模等,然而,其最重要的部分就是应用——几乎所有类型的应用[9]。 随着大数据的兴起,有关数据科学研究目的与过程的内涵也被不断地赋予了更加丰富的涵义。例如,V.Dhar认为数据科学研究的目的在于普及对数据进行的知识提取,并从过程描述角度将数据科学概括为:围绕数据进行的扩张和统计,其中包括对组织、属性和数据及其在引用中扮演的角色,包括我们对此种引用的置信度进行的系统性学习[11];W.V.D.Aalst和E.Damiani认为数据科学的目的是利用不同的数据来源,解决以下4类的问题:报告发生了什么事件,诊断事件为什么会发生,预测接下来会发生什么,建议针对即将发生的事件什么是最好的策略[12];R.M.De Moraes和L.Martinez提出数据科学很重要的一个目标就是通过混合许多不同领域的不同的元素、技术和理论,概括并从数据中提取出知识和意义,并创建数据产品[13];T.Li等认为数据科学就是指从数据中提取以前无法获得的、潜在有用的信息的理论、方法和应用[14];F.Marungo等认为数据科学是从数据中发现知识的过程,这个过程需要多个分析模型的快速探索性发展,并提出数据科学这一新兴领域解决了非结构化数据的需求[15]。 从以上对数据科学的描述中可以看出,虽然不同的研究人员由于面对的科学问题不同,对数据科学具体的实践过程描述不尽相同,但是对知识发现与提取这一数据科学的目的已经达成共识。 3.2 基于方法与领域结合的内涵界定 研究方法回答的是如何做,研究领域回答的是涉及哪些方面,它们关系到一个研究领域能否达到预期目的和所能覆盖的范围。有不少研究者从数据科学所涉及的技术方法和学科领域来对其进行描述,如:K.Myers和V.Wiels认为数据科学是统计学中的一个新的领域延伸,其重点关注的对象是数据分析,涉及的方法包括:跨学科研究、数据建模及方法、数据处理、教学法、工具学习、理论学习[16];T.Li等提出数据科学这一领域已经发展成为一种包括机器学习、计算智能、数据库、算法、统计、运筹学、可视化、隐私和安全、智能技术(包括人工智能)、神经网络、模糊逻辑、粒度计算、粗糙集、专家系统、基于案例的推理、进化算法、群计算等方法的混合数据研究[14];R.M.De Moraes和L.Martinez提出数据科学包括信号处理、数学、概率模型、机器学习、计算机编程、统计、数据工程、模式识别和学习、数据可视化和不确定性建模等技术元素[13];W.V.D.Aalst和E.Damiani认为数据科学已成为一个围绕着广泛的可用性数据,交叉着统计数据、数据挖掘、机器学习、数据库、可视化、伦理学和高性能计算等方法的一个新兴学科,并提出数据科学是一个关联着过程挖掘、推测学、数据库、算法、大规模分布式计算、可视化和可视化分析、行为(社会)科学、工业工程、隐私和安全、伦理学等不同分支学科的融合[12];B.Baumer认为数据科学是一个跨学科的领域,它利用数学、统计学、计算机科学的知识从日益复杂的大规模数据中通过多种设定模型抽取到有用信息[17]。 从上述文献的描述中可以发现,数据科学涉及的方法来源于多个学科领域,是统计学、计算机科学、信息管理等学科领域原有方法的继承或者扩展或者创新,处理大规模数据并进行分析是其研究方法要解决的核心问题。虽然在研究方法上的表达与应用有一定的差异,但是数据科学具有极强的跨学科和多学科特性已成为学界的共识。 3.3 基于人才与需求结合的内涵界定 人才回答的是谁来做研究,需求回答的是人才需要做什么,它们关系到一个研究领域的主导与动力。许多研究者尝试对数据科学家和需求进行论述,并进而揭示数据科学这一新研究领域的特点。如C.A.Mattmann提出数据科学家也是数据管理者,他们不仅需要开发用于分析和适应文件格式的定制算法,还要掌握数学、统计学和必要的物理知识,从而将科学算法融合进高效的模型框架之中[18];J.Hardin等认为一名合格的数据科学家需要了解如何使用数据库以及其他数据仓库,如何从互联网获取数据,如何使用不同语言的程序解决复杂问题,并要做到在算法上和统计学上的不断思考[19];K.Mondal认为数据科学即是大数据建模,其主要目标是通过应用计算、统计和可视化来洞察数据。在这一过程中需要处理的问题有数据量、处理速度、数据种类、结果准确性和结果的价值这5个方面,并认为数据科学家是统计学家、程序员、作家、教练和艺术家的一个组合[20]。 从现有对数据科学家与需求的描述中不难看出数据科学的特点:不仅强调基于数理统计学和计算机科学的理论方法支撑,还要更多地着眼于对某一特定科学领域本身的理解和诠释。 4 数据科学应用方向的研究 数据科学的一个最关键方面是对数据分析思维的支撑,如今越来越多的企业或者商业是基于数据分析驱动的,并具有较大的专业化优势,许多传统行业中的企业正在为取得竞争地位探索新的和已经存在的数据资源[3]。应用不仅是数据科学研究的落脚点,而且是其研究发展的牵引力。本文在对有关数据科学应用研究的梳理中发现,它主要有两大类应用方向:①对现存解决方法的优化或对已有研究结果精度的提高;②以大数据具有的特性为基础面向创新性需求而发展的应用。 4.1 面向优化的应用 数据科学的这一类应用的目的是优化现有的解决方案、技术方法,使得现有的研究过程与结果精度适应大数据时代的需求或者突破大数据发展的局限。这一应用体现在许多领域,以管理学为主,包括更有效地实现预测、优化已有的方法或决策。 4.1.1 更有效地实现预测 实现预测一直是数据科学的一个重要应用,也是管理学领域一直关注的重要环节。目前,这一应用涉及的范围已经越来越广泛。例如,M.Gold等介绍应用数据科学对奥斯卡奖项这个全民关注的话题进行提前预测。这项科学技术不仅给数百万奥斯卡观众带来惊喜,而且对数据科学如何在媒体娱乐行业中的拓展进行了阐述,并提出数据科学家看重预测分析是因为它具有可为行业提升预测准确率以及为公司提供精准洞察力的这一潜力[21];C.Curme等通过Amazon's Mechanical Turk平台对谷歌以及维基百科等在线百科全书(2004~2012年)进行历史数据分析,利用配置LDA模型从最有代表性的词汇中提取出100个不同语义的主题,发现了有关政治或者商务的网络搜索数据与股市趋势的关系,特别是对这些主题的搜索量往往先于股市下跌,由此他们认为这些分析的扩展可以在一系列实际社会事件来临之前,为人们提供深入了解大规模信息流动的趋势[22];A.T.Janke等提出急救护理管理可以利用或借助数据科学工具对电子病例中丰富的临床数据进行的临床预测[23];H.M.Mirletz等应用数据科学的方法对在各种薄膜光伏(PV)器件中的透明导电氧化物(transparent conductive oxides,简称TCOs)进行寿命预测试验[24];T.Preis等通过分析Google提问中有关财经检索词的变化,发现了一种被称为股票市场变化的“早期预警信号”模型,该模型表明通过组合扩展的行为数据集可以更好地理解与预见集体性人类行为[25]。 4.1.2 优化已有的方法或决策 由于目前数据科学的应用大多是建立在大数据背景下,而利用具有4V特性的数据集往往可以对已有的方法、流程进行优化,也可使决策更加智能,所以数据科学在研究优化方法、决策等方面的应用也越来越流行。 例如,S.R.Kalidindi和M.De Graef基于大数据和数据科学的本质分析了材料数据的特征,提出过程-结构-特征(PSP)的概念模型,认为利用可行的数据检测PSP是材料数据科学的主要目标,并结合大数据特征,重点研究基于数据驱动协议从可行的数据集中提取与管理材料数据的方法,以减小原有研究中随着整体成本与材料发展而带来的风险,使决策的结果更加客观[26];C.J.Meinrenken等提出一个基于数据科学方法论的新生命周期评估(LCA)模型,并通过该模型对KPI(关键绩效指标,key performance indicator)系统进行优化评估,在2~3分钟内实现了3 337件产品的KPI系统测试,突破了以前千级别产品衡量和评估组合无法大规模运行的局限,提高了面向特定的生产基地或者产品线的运营决策效率[27];J.P.Ku等认为表征人类移动行为的大量数据是可以通过研究实验室、诊所和数以百万计的智能手机以及可穿戴设备获取,通过利用数据科学的思想与技术建立动员中心(Mobilize Center)实现数据分析,可以达到共享数据、验证软件工具和培训科研人员,进而科学研究人体运动规律的目的,但是集成与分析这些数据是具有挑战性的[28];S.Asta等利用张量分析(tensor analysis)这一数据科学的方法,研究高维数据和提取各种数据之间潜在的模式和关联,优化了护士排班问题[29];G.Pilania等使用数据科学的方法对其建立的双钙钛矿带隙(bandgaps of double perovskites)计算模型进行优化与性能测试[30];L.Pruinelli等提出随着大数据时代的到来和医疗大数据分析的发展,通过获取标准化数据集来描述与比较病人护理的数据,发现护理知识可以提升决策效果,同时,数据分析可以更有效地评估护理服务的成本和质量[31] 4.2 面向创新的应用 数据科学的这一类应用的目的是借助于它的思维与方法带来学科研究或者专业领域的新发现,或者希望解决现有研究的瓶颈。目前,应用的主要领域体现在生物、医学等。 4.2.1 实现新的学科发现 J.D.Van Horn和A.W.Toga认为神经影像学本身即具有数据密集性、多样化和协同性,这些特性对于学科的成长和创新起着基础性的作用,如今,体内神经影像学的研究带来关于人类大脑信息的海量数据,虽然一系列影像数据库的方法已经简化了传输、存储和传播等脑成像研究的数据,但仍然缺乏共同支持神经影像学的数据技术解决方案,由此该文提出需要用数据科学的视野来管理与处理有关老化、遗传学等疾病数据,进一步完善和建立有关数据发现、数据基础、数据分析和可视化分析的软件和服务,如建立NIF(Neuroscience Information Framework)项目等,并通过编组大量的数据资源得到与发现新的研究结果,使“大数据”变成“大”脑科学[32];R.Margolis等提出生物医学研究持续产生着许多格式与多层级的大量数据,为了获取更多的知识与促进新发现,需要更好地了解和挖掘数据,美国政府发起的BD2K(Big Data to Knowledge)倡议就是为了最大限度地利用生物医学大数据,文章具体介绍了BD2K包括的组成要素,认为有力的解决方案将为利用生物医学大数据和将数据转化成新的知识带来充满活力和可持续发展的模式[33];Z.D.Stephens等指出数据科学是研究基因组学的重要方法,运用包括R语言、Mahout、Hadoop提供支持的机器学习系统来进行生物基因组分析等的数据科学技术是实现该领域数据采集、存储、分发和分析,进而达到发现新知识的重要途径[34]。 4.2.2 突破现有研究瓶颈 M.A.Langston等在健康差异化的研究中提出,现有研究中传统的数据分析方法仍然发挥着基础性重要作用,但由于癌症和慢性疾病的变异量高达90%,为了更清楚地了解社会因素、环境暴露和健康差异之间的关系,帮助研究团队进一步地识别健康与环境之间的因果机制,并将其转化为复杂化的生态系统理论,需要突破现有研究的局限,建立算法复杂、自动化程度高、能进行数学抽象的组合方法。笔者描述了借助于数据科学的理论与方法设计的创新性跨学科模型的实际应用,并提出了一种简化的用于健康差异数据分析的工具链[35];R.H.French等认为数据科学的发展对真实世界的大规模研究已经成为可能,可以弥补传统研究中样本太小和实验数据不足等局限,基于纳米科学、数据科学和大量可用的真实世界数据流以及能源材料的介观演进(the mesoscopic evolution)可以得到充分的研究,R.H.Frerch等借助于本体驱动系统、大数据分析技术,提出了基于物理和统计模型的面向介观演进建模的范式转换,以将实验室研究与真实世界的海量数据集成到具有预见能力的应力/机制/响应框架中[36];T.Lorberbaum等利用数据科学方法,通过原始数据源、生成不良事件报告频率表、训练不良事件识别模型、用识别模型预测新药相互作用、用电子健康记录验证新药之间的相互作用,建立了一个新的综合数据模型(DIPULSE),以避免通过观测传统、单一医疗数据识别QT间期(一种心率指标),诊断非心源性适应症风险大的问题[37];A.Bedenkov等指出由于监测抗生素耐药性的困难和综合研究数据的可用性低,因此这方面的研究一直止步不前,并借助大数据技术,通过跨学科团队建立了一个智能的互联网搜索器,检索出在1992~2014年间俄罗斯和欧亚大陆国家发表的所有公开的研究数据,构建数据库并通过数据处理算法,研究了156种微生物和157种抗生素的敏感性与耐药率,建立了一个国家性的抗生素耐药性数据库,提供了抗生素耐药性研究的辅助工具[38]。 5 数据科学研究面临的主要问题与发展的趋向 问题的发现与解决是科学研究不断发展的推动。笔者通过对文献的研读,发现数据科学面临的主要问题是与大数据处理和利用息息相关的。所以,本文将有关这方面的研究主要归纳为围绕着快速而大量的数据、多样化的数据和挖掘数据价值这3个方面。 5.1 存储、归档、管理等数据初步处理方面 在主要的问题中,首先面对的是快速而大量数据带来的存储、归档、管理等数据初步处理方面的迫切需求。 2012年美国国家癌症研究所(NCI)向科研界发起面向21世纪的癌症及流行病学领域的八项建议,其中就包括整合“大数据科学”在流行病学方面的应用,强调要制定系统的方法来管理、分析、显示以及解释大量复杂的数据集,并支持可扩展和可持续的生物信息学数据存储[39];J.D.Van Horn和A.W.Toga认为在未来神经影像学研究中,数据科学首先面对的挑战是不断扩大的数据规模带来的存储以及数据资源共享带来的管理问题[32];V.Dhar认为传统数据库的规模不足,而且原有的检索与归档方法对知识发现是不合适的,如在检索数据库建模与管理中,与原有的关心“哪些数据满足查询模式”不同,数据科学关心的问题是,要提供对用户查询不规范的支撑与“哪些模式能用于描述当前数据”,进而不断优化从浩瀚数据中发掘规律的能力,并从一个工程师的视角提出改进的需求[11]。此外,A.B.Docherty和N.I.Lone也指出,虽然数据科学可以使重症监护管理研究取得更好的进展并且具有更高性价比,但是这些数据集的共享、安全和保密等管理问题更值得去探究[40]。与此同时,一些学者也在不断探索解决问题的方案,例如:B.Allen等认为服务型软件(Software-as-a-Service,简称SaaS)是解决现如今大数据环境下数据科学家所面临的数据量这一问题的方法,并且介绍了所研发的一种叫Globus Online(简称GO)的数据管理系统[41];E.Dubossarsky等提出并验证了一种被称为基于小波变换的梯度增强的数据科学方法,该方法的优点是在数据初步处理上可以简化数据集的计算和给出数据预测的效果,在R语言计算环境下容易实施并产生可以解释的回归拟合和分类结果[42]。 5.2 系统设计、数据深度处理等方面 由科学研究、商业交易、社群交流和集成处理等产生的多样化的大数据,增加了数据集的复杂性,由此为数据科学带来了系统设计、数据深度处理等方面的挑战。例如,V.Dhar提出数据科学中的“数据”(包括文本、图像和视频)变得越来越异构和非结构化[11],而这些数据的形成主要是由于网络中不同实体之间的复杂关系造成的,所以需要管理复杂数据集和开发出重点处理大型、复杂、多样的数据集的新分析策略[39];J.D.Van Horn和A.W.Toga认为多类型数据的深度处理是数据科学在未来神经影像学研究中急需解决的问题[32];C.Jay等认为考虑到科学家寻求用于二次分析的存档数据的共同要求,应当开发单一领域自然语言(single-field natural language)的搜索系统,以支持数据科学所需的可变搜索(variable search)、查询重写(query reformulation)、数据浏览(data browsing)等[43];C.A.Mattmann认为数据的多样性尽管使存储与处理巨大数据流面临着挑战,但更重要的是要为数据深度处理和优化发现开发分享工具,因此,在设计分享工具时,需要发现将不同算法无缝集成到大数据架构的方法、软件开发和归档应汇集在一个体系下、数据在不同格式之间的读取可自动实现[18]。 此外,有关数据处理系统或工具研发经费的投入等方面也成为数据科学面临的问题,例如,C.A.Mattmann认为有关数据科学在研发和管理工作方面,目前美国机构资助经费大部分都用来构建特定的、长期的数据归档和数据网格,例如美国宇航局的地球科学分布式主动档案中心(the NASA Earth Science Distributed Active Archive Centers)和用于天文学的国际虚拟观测台联盟(the International Virtual Observatory Alliance in astronomy)等,在过去的10年内从美国联邦机构获得了平均每年1亿美元的资助,但与此大相径庭的是,对科学算法的开发、整合和更新每年只能拿到100万到500万美元的经费,而且这些项目大多用于科学计算设施,并且项目规模小,存续时间短[18]。 5.3 高效的数据价值挖掘方面 数据采集、存储、管理与深度处理等的最终目的是要挖掘出数据的价值,这也是数据科学兴起与发展的根本。那么,如何高效地完成这一工作是研究人员十分关心的问题,归纳起来数据科学在这方面面临的主要问题集中在以下3点。 5.3.1 创新支撑数据挖掘的系统性整合方法 方法是高效地实现数据挖掘的手段与工具,如何汇集原有的方法并在解决应用问题中创造出新的方法,许多研究者提出需求与建议,例如,I.Bowman等指出为千兆级的生物医学数据建立的数据系统架构必须要系统灵活,才能使更多的临床和生化数据以及数据分析结果可以被纳入数据库应用工具的交互查询中,并对数据库的内容进行图形可视化分析[41];C.A.Mattmann认为为了处理成千上万的文件格式和规范,需要创新制定一套可以适用于一系列项目的架构模式和协作模型(通用流程系统),并针对数据科学处理过程中不断增加的复杂性,自动地识别出文件类型和提取出有意义的数据方法,且需要系统灵活地运行不同的函数和处理多样化的数据[18];J.A.Van Horn和A.W.Toga指出目前神经影像学在数据管理方面已经有了一系列的数据传输、存储和传播方面的技术,但作为支持神经影像学科学研究的通用数据科学方法系统还并未出现,迫切需要创新与发展[32];P.U.Pfeiffer和K.B.Stevens指出数据科学要实现其价值,必须从系统性角度出发,整合不同的数据源,使用新的数据,研究知识驱动的建模方法(knowledge-driven modeling methods)以及开发定量与定性并重的分析方法等[45]。 5.3.2 满足多学科的需求与突破跨学科人才稀缺的现状 在数据科学领域,人才在高效地实现数据挖掘方面将起到主导性的决定作用,那么,如何突破现状满足人才需求则成为学者探讨的话题。例如,C.A.Mattmann认为大数据领域已经在不同学科和不同国家之间交叉延伸,所以相关设施和专家人员都必须是国际化的,作为一个新出现并成长的领域,数据科学家必须克服多学科研究的障碍,在需要了解一系列的科学专业的同时,他们必须获得学术认同,并指出资助机构应当充分支持数据科学家所在机构之间的合作[18];V.Dhar指出要实现数据科学方法整体效用的提升需要具备的生物医疗信息学、生物信息学和生物统计学的专业知识人才[11]。 5.3.3 借助机器学习促进数据挖掘价值的实现 机器学习是计算机科学和统计学的交叉学科,解决如何构建一个通过经验自动改善电脑的问题,也是人工智能和数据科学的核心问题。它是现如今成长最快的技术领域之一,要实现数据挖掘的深化,必须借助于机器学习的技术[46。在应用研究中,G.Pilania等也提出在借助于数据科学研究材料化学空间矢量建立问题中,机器学习是实现以信息为基础的数据统计量研究突破的关键点[30]。 6 结语 从对国外数据科学文献的分析来看,作为一个新兴的研究领域,随着各行各业对数据科学理论、方法与应用研究需求的不断增加,尤其是各个领域的研究者针对现实问题提出的对数据科学的期望,将会使数据科学的研究不断地趋于深入与完善。目前,我国有关数据科学的研究也正以方兴未艾的态势发展,不同领域的研究者在探索相关的理论与方法的同时,也在为解决我国面临的现实问题而着力。 在大数据时代,以数据信息采集加工组织为业务、以提供知识服务为宗旨的图书馆情报领域,如何跟踪并针对大数据时代服务需求的变化,将新兴的数据科学技术与现有的理论方法相结合,系统而深化地开展研究,并将解决方案应用到实践中,将大数据时代碎片化、多维异构的海量数据融合成用户所需的全局性或者创新性的知识,并为用户提供知识定制化服务,是图书情报领域未来发展的必然选择。值得欣喜地看到,2009年创刊的Chinese Journal of Library and Information Science(CJLIS)为适应社会发展需求与未来的挑战,在2016年更名为Journal of Data and Information science(JDIS)。相信该刊与时俱进的举措,不仅标志着我国图书情报领域在数据科学研究方面进入一个新的起点,将为研究者的学术成果交流提供强有力的支撑,而且将促进数据科学领域研究的发展。标签:大数据论文; 科学论文; 数据科学论文; 统计模型论文; 预测模型论文; 主题模型论文; 对数曲线论文; 数据分析论文;