超越数据洪流:第四研究范式下的社会科学研究数据基础设施论文

超越数据洪流:第四研究范式下的 社会科学研究数据基础设施 *

章昌平 米加宁 黄欣卓

内容提要 在信息技术快速发展的背景下,科学研究信息化和科学数据的结合推动了科学研究第四范式——数据密集型科学发现的产生,并促进科研数据管理进入一体化、共通共用的发展阶段。但是,社会科学研究的信息化(e-Social Science)与社会科学科研数据管理却未引起学界太多的关注,存在理论研究和经验总结的滞后性。为更好地推动社会科学研究范式的转型,借鉴自然科学研究信息化和科研数据基础设施发展经验,本文界定了社会科学科研数据基础设施的概念与内涵,并在此基础上提出社会科学研究与数据管理组合生命周期模型和社会科学科研数据基础设施框架模型,并对上述两个模型框架实施需要的保障条件进行了简要论述。

关键词 第四研究范式 社会科学 科研数据基础设施 大数据

引 言

随着大部分领域的科学研究从“村舍”活动逐渐过渡到大规模“行业化”努力,科技创新越来越依赖于优势互补和协同创新的合作网络。在此过程中,科研基础设施以其供给的“不可分性”和配置“初始集聚性”、知识平台效应、人力资本效应、协同创新效应等作用机制,成为加强科技创新的有效途径。这一途径的达成,需要依赖广泛信息共享和海量信息的交汇融通。这是因为随着新一代信息技术与科学研究过程的结合,促进了科学研究新范式的诞生:继实验、理论和仿真之后的第四科研范式——数据密集型科学发现,以仪器收集或模拟方法产生的海量数据作为驱动科学研究的重要资源。当今已没有无数据的科学,也没有无科学的数据,每个学科正在演变为两个分支:收集分析信息的X-Info和计算、仿真的Comp-X。科学研究的进步越来越依赖于如何有效地处理数据,“数据洪流,尤其是科技领域的数据洪流,已经发出了构建新的研究基础设施的挑战”

(1)基于自主研制的双通道石油产品低温阻抗检测仪,对检测仪器的激励信号频率、幅值以及油样的预热处理和降温速度等4个影响因素进行了单因素分析,得出激励信号幅值越大检测效果越好的结论。对4个试验影响因素的水平进行正交试验考察,确定了以激励信号幅值±VDD/2,频率32kHz,降温速度0.3℃·s-1以及初始温度35℃为最佳试验条件。

在此背景下,科研数据基础设施(Research Data Infrastructure,简称RDI)成为科研基础设施的“基础设施”。在处理科学研究过程中不断积累的数据与知识,对促进科学研究合作网络形成和有效连接,优化不同学科之间数据流动,促进科研基础设施开放与共享,减少资源与工作重复性浪费,促进多学科融合发展等方面起到重要作用。因此,科研数据基础设施的建设受到了世界各主要国家和国际组织的重视,被纳入国家、区域科技发展战略或国际合作框架之中。2008年,八国集团科学部长会议决定成立全球研究基础设施高级官员小组(GSO)负责推动和加强全球研究基础设施(GRIs)的国际合作,其中“明确措施,确保妥善处理、存储和访问科学数据”是其主要目的和内容。2010年,欧盟“第七框架计划”(7th Framework Programme,简称FP7)资助了GRDI2020项目,指出科研数据基础设施面临的挑战和问题,并提出10项建议和发展愿景,用以指导全球科研数据基础设施生态系统建设。此后的地平线2020(Horizon2020)科研规划中,也将e-基础设施作为其中重要的组成部分。2012年,澳大利亚成立了专门的“科研数据基础设施委员会”(RDIC)评估其科研数据发展前景并提供科研数据基础设施投资优化咨询。

21世纪以来,我国开始重视科研基础设施建设和科学数据的开发、共享工作。2004年,科技部等4部门发布《2004-2010年国家科技基础条件平台建设纲要》,推动科技基础条件平台建设和大型科研仪器、科学数据资源开放与共享。2015年,《促进大数据发展行动纲要》中将“发展科学大数据,构建科学大数据国家重大基础设施”“建立国家知识服务平台和知识资源服务中心”等列入“万众创新大数据工程”之中。2016年,加快科研信息化纳入《国家信息化发展战略纲要》,提出了“加快科研手段数字化进程,构建网络协同的科研模式,推动科研资源共享与跨地区合作,促进科技创新方式转变”的要求。科研数据基础设施建设在国家信息化、创新体系建设与大数据发展战略中的地位不断上升,国家科技基础条件平台、科学数据共享中心等科研数据基础设施建设稳步推进,并逐步实现对社会开放。

预警系统需要对生产过程中存在的各类危险源进行动态监测,且需要将监测的大量数据进行快速传输和计算处理,必须依靠计算机技术才能实现,特别是一些预处理模型的计算机实现,如瓦斯压力等值线绘制与校正,突出危险区域范围划定、应力叠加情况的自动识别、空间距离的自动计算、底板等高线的自动校正、根据底板等高线和地形图绘制煤层埋深等值线等,不仅需要计算而且需要可视化处理。这些需要构建网格法生成等值线模型和等值线转换空间曲面模型。

由于社会科学研究对象的复杂性,以及大数据环境下学科融合的发展趋势。使得社会科学数据来源具有多元性的特征,既有传统社会科学研究所使用的文本(文献)数据、也有各类智能终端或传感器产生的时空大数据、行为大数据和属性大数据。各类数据存储在异构多源环境中,要对其进行识别和采集,就需要对数据源进行甄别和管理。在eSS环境和面向知识的社会科学研究,拟通过构建研究问题的大数据知识源聚合网络进行解决。通过研究问题(对象)的领域本体,构建数据采集的信息参照集,从而覆盖与之相关的所有数据源,便于根据研究设计制定线上线下结合、大数据与小数据结合、多类型数据聚合的数据管理计划。

历程回顾:科研数据基础设施 一体化与新的研究范式

(一)科研数据基础设施的发展历程

从概念来看,目前对科研数据基础设施尚未有统一的界定,澳大利亚科研数据基础设施委员会和欧盟GRDI2020项目专家组对其均采用了较为宽泛的定义。其主要内容包括:(1)科研数据基础设施包含覆盖整个科研活动以及科研数据产生、收集、管理、分析和应用两个“生命周期”;(2)以科研数据操作为中心,包括基于数据支持科研活动的系列硬件、软件、规则、政策、人员和工具的数据生态系统,包含数据本身;(3)其目的是支持不同学科之间科研数据的有效流动、互操作,管理科学工作流,建立科研合作与协同,提高科技创新效率。因此,科研数据基础设施的发展历程梳理从上述三个维度进行界定,分别从科学数据管理(科研活动)生命周期所处阶段、科研数据管理的软硬件设施建设与开发、科研合作与协同方式三个方面回顾各阶段发展特征。

从上述两个历程的回顾可以看出,正是科研数据基础设施的演化和进步,在技术和科学研究之间形成双螺旋结构,相互影响和相互作用不断完善e-Science环境,促进了数据密集型科学发现范式的形成。目前对自然科学领域的科研数据基础设施有了一定的认识,并已发展到“一体化”“共通共用”“领域专用”的阶段,但对社会科学第四研究范式的研究依然滞后,支持社会科学第四研究范式的科研数据基础设施的探讨十分缺乏,甚至有学者认为社会科学依然是“小科学”研究。在eSS的分析中,我们可以看出社会科学科研数据基础设施依然主要局限于作为技术支撑的基础资料数字化获取,主要集中在科研数据管理生命周期的数据采集、检索和成果管理等阶段,既没有形成全管理生命周期的覆盖,也没有形成“一体化”的数据与计算平台。因此,本文认为有必要对社会科学科研基础设施进行界定,并根据社会科学第四研究范式的特点,对其建设对策予以分析。

建立基础地位阶段(1950-1989年)。科研数据的重要性逐步得到国际社会的认可,科研数据管理逐渐成为重要的科技领域。(1)科研数据管理开始逐渐覆盖科研数据生命周期各阶段,重点集中在数据的收集、整理、系统化、标准化和交流服务上。特别是世界数据中心(WDC,1955)和世界天气监测网(1980)等的创立,推动了地球科学、环境科学与空间科学领域的数据收集、存储、检索和利用。美国国家大气研究中心(NCAR)、政治与社会研究校际联盟(ICPSR)、社会科学数据项目(GSS),德国综合社会调查项目(ALLUBS)等研究和数据中心得以建立,促进了科研数据管理和运行模式逐渐成熟:机构的结构化数据库、跨部门的数据管理平台或中心共享。(2)软硬件建设和发展主要集中在科研数据管理系统开发与利用方面,如数据库、信息管理系统、元数据、超级计算中心等,并建立了数字数据馆藏蛋白质数据银行,为科学研究提供科研数据的收集、仓储、存储管理、建模与计算等服务。(3)科研数据管理的国际合作、国家联盟等科研合作与协同开始形成,国家资助机构开始承担研究数据管理平台的建设与维护工作。如国际科学联合会相继成立了世界数据中心和国际科技数据委员会(CODATA),致力于提高科研数据管理的国际合作。

因此,通过对浅表工程勘探及生产范围内成矿元素及伴生元素,地球化学异常空间组合规律的研究,结合深部的物探特征,对深部矿化前景及有利地段进行预测评价,实现找矿突破。

快速发展阶段(1990-2002年)。科研数据基础设施建设逐渐加速,并从重收集、重建设向重共享、重长期保存与服务转变,各类科研数据管理政策配套逐步完善,科研数据成为推动科技创新、科研项目管理、经济结构调整与国际关系制定的基础。(1)科研数据的收集、存储、整理等阶段的管理与运行模式逐渐成熟,开始侧重于科研数据的共享、长期保存与服务利用。主要以1990年美国正式批准全球变化研究计划(GCRP)为代表,其为美国分布式数据档案中心群(DAACs)的其中一个数据中心。该项目的启动标志着美国科研数据共享走向全面推进阶段。美、加、澳等国在该阶段启动国家空间基础设施建设,整合多个国家级数据中心的数据资源。我国也在2002年正式启动科学数据共享工程。(2)数据仓储及管理系统、元数据和超级计算中心等技术继续发展,数据统计分析工具得到广泛应用,互联网技术、WebService、搜索引擎、集成数据管理系统、网格技术等开始在科研数据管理中应用。(3)e-Science(科学研究信息化)提出,促进了科学研究合作与虚拟协同环境的形成。

稳定发展阶段(2003-2008年)。e-Sciences环境逐渐形成,科研数据管理开始建立“从摇篮到坟墓”的全生命周期管理。(1)不同类型的数据生命周期模型研究及管理对策的提出,数字出版与开放存取成为重要内容。其标志性成果为开放获取的“柏林宣言”(2003年)和世界经合组织的“开放获取公共资助研究数据的宣言”。美国国家科学基金会(NSF)、英国研究信息网络(RIN)等发布了相关政策,强制推进科研数据的开放与共享。2007年,Jim Gray指出数据密集型科学研究的完整生命周期包括数据获取、管理、分析和可视化四个过程。数据归档、长期保存、数据管理计划等科研数据管理前后置阶段也都被纳入进来。(2)网格计算、语义网格、科学工作流管理成为热点话题,高速科研专用网络建设、Web 2.0、数据管理计划创建工具、机构知识库、数字分发与出版、无线互联网等技术得到较大的发展。(3)e-Science环境逐渐形成,科学研究的合作与协同进一步加强,全球科学信息共有先导(GICSI)计划、促进发展中国家科学数据共享与应用全球联盟(UNe-SDDC)计划实施,开放科学、数据密集型科学等理念逐渐被人们所接受,科研范式与科学交流、传播方式的变革呼之欲出。

社会科学研究数据基础设施的建设,必须要有技术共同体和规则共同体的支撑。一方面,是社会科学研究环境的泛信息化,将包括无所不在的数据传感收集系统、大容量数据传输网络,云存储及其数据处理系统、可共享的算法及其仿真研究平台等。另一方面,从学术研究的角度讲,传统学科领域的划分可能会弱化,基于层次划分和融合的集成研究或是未来趋势,社会个体的微观心理及行为研究和基于群体、组织系统的宏观研究有望在大数据中走向通宏洞微的连续谱;社会复杂系统及社会网络认知将可能以社会仿真与社会实验的方式呈现。同时,新型社会科学的理论体系,研究方法及其操作准则,学术成果评价与交流规范,新型科学问题与研究对象的界定准则,认知限度和认知检验,学科融合与学术规范,交叉学科的语境和逻辑等将会为社会科学研究数据基础设施的建设提供规则共同体的支撑。

(二)从eS到eSS再到社会科学研究第四范式

e-Science(eS)产生的动机就是“科研的信息化”,其目的是全球、跨学科、大规模的科研合作以及跨时空、物理障碍的资源共享成为可能。eS于20世纪末由英国提出,最初的界定是“在重要的科学领域中的全球性合作,以及使这种合作成为可能的下一代基础设施”,美国科学基金会提出的Cyberinfrastructure和欧盟的e-Infrastructure是与之类似的计划。此后,随着实践的发展出现不断泛化,目前从广义上说,e-Science实质上包含“信息化基础设施”和“信息化的科研活动”两个方面。前者主要由三个部分组成:信息化基础设施,如网络设施、高性能计算设施、科研数据资源、数字图书馆等;数字化科研仪器、设备,如各类传感器、CCD、观测设备及其软件、网络和中间件;三是eS的软环境,如政策、法律、法规、标准及人才培养环境等。而在科研活动中,虽然各学科领域的需求、规律和工作方式各不相同,并且依赖于科研人员的脑力活动。但信息化的科研活动也呈现出系列相同的特性:一是在“大科学”环境中以网络化条件的资源共享和工作协同;二是信息化提供的新技术、新方法,如高性能计算、仿真模拟、数据挖掘、数据分析和信息可视化等;三是科研活动与数据管理生命周期在科研活动信息化和科学工作流管理下走向协同。正是两者的结合,使得eS与Science2.0、开放科学、开放创新、数字人文等概念具有一定的相关性,呈现出开放式、共享性、协同式、高效率的科学研究基本特征

按照eSS的科研与数据组合生命周期划分为数据源层、数据采集层、数据分析层和数据应用层四个层次。上述不同层次基础设施不是孤立存在的,它们彼此作用构成新型社会科学发展的基础设施平台:数据源层主要为社会科学研究的对象——人及其社会环境构成的社会经济技术系统;数据采集层主要是数据采集的物理层,涉及数据传感器、可穿戴计算设备、数据传输网络的等物理环境,数据存储、调配等初级数据处理设施;数据分析层,包含可共享的社会科学数据分析工具、仿真平台或可计算社会实验平台;数据应用层,则提供接入或反馈社会问题的操作界面。

近年来,随着新一代信息技术的不断发展,eS中“信息化基础设施”的三个组成部分的数字化、自动化、智能化、宽带化、无线化的趋势不断加强,“信息化的科研活动”则产生了全新的变化,越来越依赖数据驱动与信息化技术。在此基础上,Jim Gray提出了全新的科学研究范式:数据密集型科学研究。在这一研究范式中,数据由仪器收集或仿真产生,而不再由科学家操作仪器进行直接的观察和记录;数据的处理过程(采集、整理、分析及可视化)由软件进行处理,其规模和速率都远远超出了人脑的存储和计算能力;由计算机存储信息和知识,形成人脑+外挂知识系统;科学家通过数据管理和统计方法分析数据和文档,科学家在整个工作流中相当靠后的步骤才开始审视数据。这种影响在eSS中也正在显现,由于大数据、物联网、移动互联网和智能终端技术的发展,eSS中信息化基础设施正在不断实现“万物智能”“万物联网”,从而将社会科学研究对象的属性数据、时空数据、行为数据在大数据环境中得到融合,引发了“万物皆数据”和“计量一切”的趋势。第四研究范式下的社会科学研究活动也将呈现更加依赖数据驱动和信息化的特征,“社会科学研究的对象也从传统的人参与的社会系统和社会过程转变为现实世界和虚拟世界平行系统互动形成的数据网络”,并不断促进社会科学与自然科学在数据驱动研究过程的学科交融。

社会科学科研数据基础设施的内涵分析

萌芽阶段(20世纪40年代)。国际社会的科学技术研究基本处于“村舍”阶段,对科研数据缺乏管理,甚至未能认识到科研数据的重要性。但这一阶段也已经出现了科研数据基础设施的萌芽:(1)从科研数据管理生命周期来看,主要还是集中在研究成果(文献)的管理上,但也出现了零散的数据收集和数据再利用。开始记录实地观测的科学数据,成为长期的科学数据积累的起源,如我国黄河流域水土保持监测即开始于这一阶段。再利用则主要是对研究成果特征数据的挖掘,将文献的载体数据、内容数据独立于研究文献之外,作为单独的数据用以分析与管理,总结科学研究发展的规律,如布拉德福定律、Zipf定律、齐普夫定律和洛特卡定律等。(2)计算机和计算机模拟方法被发明,并用于“曼哈顿计划”的研究。(3)由于科学问题和社会挑战空前复杂,科技活动逐渐突破个体小规模、零散发展的基本特征,出现了规模化、工程化、协同化的“大科学”发展格局。“大科学”产生了跨国、跨机构、跨学科的协同和对海量科学数据进行采集、存储、管理和分析的需求,也是科研数据基础设施产生的重要背景。

根据社会科学科研数据的特征,借鉴GRDI2020项目专家组的界定,本文认为社会科学科研数据基础设施(Social Research Data Infrastructure,SRDI)是一个以大数据为中心,包含服务与工具的管理网络环境及HS+CA一体化建模与计算实验平台,支持:(1)社会科学研究整个生命周期和社会科学研究数据管理生命周期,并实现两者的互嵌;(2)不同学科之间研究数据的流动与语义理解;(3)通过连接来自不同学科的数据集和情境数据来创建开放关联的数据空间;(4)管理科学工作流;(5)研究数据与文献之间的互操作;(6)一个集成的科学政策框架。由于社会科学研究的特色性、复杂性,SRDI不仅需要支持社会科学科研数据的分享与重用,促进资源共享和科研合作,加速社会科学创新与研究结果涌现,还应该促进不同学科间的语义理解和数据、研究结果与应用情境的结合。只有这样社会科学才能实现科研数据基础设施的技术体系与社会科学研究的思维体系相互促进,产生社会科学研究结果的智慧升华。SRDI才能成为eSS得以高效运转、不可或缺的支撑性基础设施。此外,由于社会科学研究对象的特殊性、复杂性,其面临的大数据虽然能够提升数据测量质量、具备全样本和高容错性等,但其仍然无法具备自然科学数据的同质性,并且受更多伦理与规制约束。因此,社会科学科研基础设施中的数据管理生命周期、数据流动与互操作、科学工作流管理及政策框架等方面呈现自身的特点。

面向知识:创建新一代社会科学研究的 数据基础设施

(一)基于eSS的科研与数据组合生命周期模型

11月中旬柑橘产量与降水量呈显著正相关,柑橘进入果实成熟采摘期,降水有利果实增重,干旱会使果实内的水分向叶片输出,单果重下降。但是,成熟期适度的干旱有利于提高果实品质和采收贮藏[12]。

图 1基于 eSS的科研与数据组合生命周期模型

(二)社会科学科研数据基础设施框架模型

e-Social Science(eSS)是一个相对前沿的研究领域,是eS在自然科学研究领域取得良好成绩,信息技术对社会科学研究带来冲击,以及信息技术所创建的虚拟合作环境中对社会科学的挑战和需求共同作用下的产物,也是人文社会科学领域对eS的引进和发展。目前对eSS的概念还未达成统一的认识,有学者认为其是eS的分支,也有学者将其限定在使用网格技术的社会科学这一更狭窄的范围,而英国国家eSS中心则将其定义为计算机专家与社会科学家之间的合作,其目标是两者合作设计和开发研究工具,以解决社会科学家在研究中遇到的问题,并探索新的研究领域或加快社会科学研究。褚鸣认为eSS的内容主要集中在五个方面:(1)用于社会科学研究的网格中间件和研究工具的开发,(2)语义网络,(3)数据搜集、整合、共享、修复和管理,(4)科研信息化技术的社会形成,(5)虚拟协同研究环境的构建;并认为缺乏资金和人才、高成本是阻碍eSS发展的主要原因,种子基金、协作、研究兴趣和学术带头人是推动eSS发展的重要影响因素。雷枫则将eSS体系构成等同于eS,认为其包括“信息化基础设施”和“信息化的科研活动”两个方面,前者主要指基础资料的获取、存储、处理等基本手段信息化,后者是对研究对象的计算机模拟与仿真,eSS体系建设需要重视社会科学定量化研究、社会复杂系统的综合集成研究、社会科学数据中心建设和eSS体系的实现四个方面的问题,从而搭建人工社会系统实验室,实现对社会科学研究对象的模拟实验。学者们对边疆研究中的数据中心建设、数字世界史学等具体社会科学研究领域的eSS应用进行了探索

但是,目前我国科研基础平台建设与科研信息化尚处于初级阶段,甚至出现一些误读。一方面,我国往往将科研数据基础设施视为科研信息化的组成部分,其应用主要集中在作为科技基础设施、大型仪器设备和科学数据开放与共享的信息技术支撑,而未将其视为科学研究范式转型的驱动力和综合服务手段,缺乏运营机制、协同设计、算法与模拟应用等服务手段的提升和平台开发,在互联互通、互操作等方面存在一定的短板,更缺乏自主产权的核心软件与算法,无法满足科研范式转型的自主创新需求。另一方面,科研数据基础设施建设是一项系统工程,其服务能力不取决于单一项目或系统的规模、性能和指标,而需要一套科学的长效运行机制。目前,我国尚缺乏从整体上把握科研数据基础设施建设一揽子计划的顶层设计,尤其是未将社会科学研究领域的科研数据基础设施纳入其中。更为紧迫的是,目前我国科研数据基础设施投资和建设主要集中在自然科学研究领域,社会科学研究领域的科研数据基础设施研究、投资和建设严重滞后。大数据等信息技术的发展为科学研究范式的转换提供了可能,这种可能也体现在社会科学研究的可计算、信息化及大数据化等方面,形成了促进社会科学研究范式在定性、定量和仿真之外产生大数据驱动的第四研究范式,以实现社会科学“通宏洞微”的可能性及个体化、全样本的发现和预测研究。为适应这一社会科学研究范式的转型,我们需要构建新型社会科学发展的科研数据基础设施予以支撑。

因为数据海量异构的特征,社会科学研究数据采集层较为复杂,并且呈现出种类繁多、碎片化和多变化特点。数据采集涉及调查问卷数据、文献(文本)数据、智能终端数据、传感器数据、空间大数据、社会媒体及UGC数据等,这是由于数据来源与存储的差异性造成的。数据采集需要根据研究设计和数据管理计划进行,不同来源的数据其存储、调配、传输以及用途需要差别对待。如网络社交媒体数据,既可以短期存储在研究团体或机构知识库中,也可以存储于更大范围的数据档案馆或数字图书馆中,其用途可以用以验证因果假设,也可以用以计算、仿真,发现相关性。同时,数据采集层需要多种设备与工具的组合应用,要注意数据的互操作性、信任性以及数据获取的成本(可获得性)。

党的十七届四中全会明确提出“建设马克思主义学习型政党”的重大战略任务,这将全党的学习摆在了更为突出的位置。在“十二五”开局之时,在党面临着长期、复杂、严峻的执政考验、外部环境等考验下,毛泽东的学习型政党思想为推进我党建设学习型政党,提升党员的理论素养,提高党的执政能力和执政水平,确保党始终成为中国特色社会主义事业的坚强领导核心有重大的当代价值。

数据分析层则为社会科学研究提供分析方法、仿真工具和实验平台,统计分析、数据挖掘、内容分析、自然语言处理、数据可视化等技术在其中得到应用。人工智能的发展以及算法的进步,为该层次的应用提供了丰富的研究手段。这一层的主要目的是实现数据到信息到知识到智慧链的提升。这就要求这一层不仅需要进行信息的分析,更需要注意不同学科之间研究数据的流动与语义理解。当我们在使用社会科学科研数据基础设施的时候,丰富语义的访问支持,甚至知识自动获取和共享,将会为跨学科研究和协同创新提供良好的支持。

“造势”是指企业有目的地主动创造事件,利用新闻媒体进行传播,使之成为公众所关注的热点话题。同样,想实现好的效果就要遵循创新性、公共性及互惠性的原则。“造势”的营销操作要诀在于:

社会科学的研究团队和研究项目具有多边性,更应该强调大范围的资源共享和协同合作。但目前社会科学界对仿真和大数据方法、工具的采用尚处于犹豫不决和摇摆不定之中,甚至对其提出一定的质疑。因此,建立良好的应用层,提供友好、便捷的接口就显得十分重要。良好的应用层接口、界面与反馈机制,将会吸引更多地社会科学研究人员采用科研数据基础设施,从而避免其因操作难度望而却步。

(三)保障条件:技术共同体与规则共同体的支撑

全面发展阶段(2009年至今)。科研数据在学术产出中“二等公民”的地位得到改变。为应对大数据带来的挑战,世界主要国家纷纷制定大数据发展战略,并将科研大数据纳入其中。数据密集型科学范式逐渐形成,促使科研数据成为科学研究的重要驱动力量。2010年以来,随着欧盟、美国、澳大利亚等国在科研大数据和科研数据基础设施等领域系列战略和项目的实施,科研数据基础设施三大线索逐渐汇流,开始形成基于科研大数据的一体化科研信息化基础设施。高速科研专用网络建设(如欧盟的GÉANT、北美的Internet2和亚太地区的APAN等)、科学数据及应用管理(如美国的DataNet计划、英国DISC-UK数据共享项目、澳大利亚的ARDC科研数据共享基础设施)、高性能计算开发与部署(如欧洲的PRACE计划与DEISA计划、美国的ASCR计划、日本下一代超级计算机战略)、数据与计算平台建设(欧洲开放科学云计划、极限科学与工程挑战环境、欧洲人脑计划ICT平台)等领域的实践也日渐丰富,出现了蓬勃发展的态势。

至此,社会科学科研数据基础设施框架模型如图2所示:

图 2社会科学科研数据基础设施框架

研究发现与展望

通过对科研数据基础设施的发展历程的回顾,我们发现在科学研究中,科研数据的使用正从作为科学研究的技术支撑、辅助手段逐渐转变为科研数据管理与过程控制,目前已经进入科研数据基础设施新的发展阶段,形成了“一体化”“共通共用”和“领域专用”并存的特征。这种转变与e-Science环境的不断完善,并为其提供支撑相互促进,逐渐促使了自然科学第四研究范式的形成。然而,在社会科学研究领域,我们还尚未实现这一转变。社会科学研究正面临全新的信息化环境和数据海啸的挑战,这一挑战不仅仅来自社会科学研究对象的高度数据化,更来自社会科学研究本身信息化不足和科研数据管理的轻忽。这导致了在我们快速全面进入信息化社会、信息环境面临巨大改变的时候变得手足无措。社会科学研究应该拥抱大数据,不仅将其作为研究对象和方法,更应该将其视为基础设施,从而推动e-Social Science环境的形成。

移动社交媒体的崛起,让用户的社交、沟通、阅读以及分享等行为都走向移动化,人们可以随时随地地沟通、阅读、分享,甚至开展社交活动。各种热点资讯,新知识或者知识分享开始越来越多地呈现在移动社交平台上。

本文虽然提出了社会科学科研数据基础设施平台的概念和内涵,构建了eSS和第四研究范式下的数据管理生命周期与社会科学研究活动周期嵌入模型,社会科学科研数据基础设施基本框架。但对上述两大模型的论述还较为简单,停留在较为表层的论述。在未来,需要通过具体领域和实证案例的研究,构建更为具体、切实可行的社会科学研究领域科研数据基础设施对策。并加强社会科学研究数据管理政策、数据治理、数据管理计划、人机网络的数据互访问互操作、数据出版与可信存储、开放获取及区块链等新兴技术在该领域的应用研究。可以说,社会科学科研数据基础设施不仅仅是第四研究范式的基础建设,更是社会科学走向一个全新时代的基础中的“基础”。

①李平、黎艳:《科技基础设施对技术创新的贡献度研究——基于中国地区面板数据的实证分析》,《研究与发展管理》2013年第6期。

②路甬祥:《中国至2050年重大科技基础设施发展路线图》,科学出版社,2009年。

③赵鹏大:《大数据时代呼唤各科学领域的数据科学》,《中国科技奖励》2014年第9期。

④⑤Gray J. E-Science: A Transformed Scientific Method, Hey T., Tansley S., Tolle K., In The Fourth Paradigm :Data -Intensive Scientific Discovery , WA: Microsoft: Redmond, 2009.

4.加强对玉米田的管理,定时清除杂草、减少病毒源。田间杂草不仅是翌年农田杂草的种源,而且是灰飞虱的越冬、越夏的寄主,清除杂草可防止苗期玉米不与杂草共生,来减少灰飞虱的活动空间,在一定程度上能够减轻玉米粗缩病的发生。播种春玉米要抓好麦田、稻田及玉米田边的杂草进行防除;而夏玉米在播种前,要对灰飞虱进行转迁到特殊环境,并且集中进行喷药防治。

⑥GRDI2020-Towards a 10-Year Vision for Global Research Data Infrastructures[EB/OL]. (2011-12-30)[2019-3-15]. https://www.trust-itservices.com/portfolio/grdi2020-towards-10-year-vision-global-research-data-infrastructures.

米加宁、章昌平、李大宇等:《第四研究范式:大数据驱动的社会科学研究转型》,《学海》2018年第2期。

⑧Department of Education and Training (Australia). The Australian research data infrastructure strategy[EB/OL]. (2014-12-08)[2019-4-2]. https://apo.org.au/sites/default/files/resource-files/2014/12/apo-nid42792-1244466.pdf; Global Research Data Infrastructures: The Big Data Challenges[EB/OL]. (2015-01-20)[2019-2-10]. http://www.grdi2020.eu/Repository/FileScaricati/fc14b1f7-b8a3-41f8-9e1e-fd803d28ba76.pdf;王敬、王彦兵:《国外科研数据基础设施研究及实践的调研与分析》,《情报资料工作》2016年第6期。

2016年,天津、西藏、浙江、上海ZX值为1,达到了有效;广东省ZX值为0.909,江苏省ZX值为0.845,效率处于较高水平;北京市ZX值为0.750,效率处于中等水平;山东省ZX值为0.542,效率较低;青海、宁夏、重庆、河南、福建的ZX值处于0.3-0.4之间,湖南、陕西、河北、山西、四川、安徽、贵州、江西的ZX值处于0.2-0.3之间,湖北省、海南省、广西、吉林省的ZX值仍处于0.1-0.2之间,甘肃、云南、内蒙古、辽宁、新疆、黑龙江ZX值均小于1。2016年ZX值在0.5以上的有8个省市,占全部测度省份的25.81%,从ZX来看,整体表现不是很好,大部分省市的效率均表现出低水平。

⑨各机构根据自身需要建立了不同类型的科研数据生命和科研活动周期管理模型,据CEOS统计2012年4月已达到55个。该处研究生命周期阶段划分的依据为DDI3.0版组合生命周期模型。

第四研究范式的产生与定性、定量和仿真三种范式之间并非从一到四相互递进取代的关系,四种研究范式事实上是一个研究方法不断迭代的过程,而且可以通过混合研究设计走向融合,并逐步弥补各自的缺陷。在大数据的驱动下,社会科学研究活动生命周期的开端不再一定从理论假设开始,也可以是从数据分析得到的奇点相关的引导下构建因果和结构关系。基于此,本文提出eSS和eSS环境下社会科学科研与数据组合生命周期模型(如图1所示)。该模型体现了社会科学第四科研范式的研究活动生命周期与eSS数据管理生命周期的双向嵌入。在数据的生命周期内,该模型必须保证数据的安全性和访问控制,并能够实现数据的采集(含过滤、清洗与整合)、数据分析(分类、挖掘、实验、分析)、数据感知(可触、可听、可嗅、可视)、数据存储与再利用,数据存档、数据共享与出版等,整个过程都要求数据的存储、保护与重用。同时,数据管理的生命周期能够嵌入社会科学研究生命周期,为eSS提供对研究的起点(理论模型或假设、数据发现的相关性)、研究过程、研究结果(展示和再利用)的支持。而数据管理计划与研究设计则是实现这一嵌入的关键环节。

2)2621(2622)隔离开关控制规则,分闸条件:①262断路器分闸、2622(2621)隔离开关分闸;②2622(2621)隔离开关合闸、母联断路器及其两侧隔离开关合闸。合闸条件:①2622(2621)隔离开关分闸、262断路器分闸、26230及26240接地开关分闸;②2622(2621)隔离开关合闸,母联断路器及其两侧隔离开关合闸。

⑩Kirk D. Borne, Data -Driven Discovery through e -Science Technologies :the 2nd IEEE International Conference on Space Mission Challenges for Information Technolog , Washington,DC, 2006, IEEE Computer Society.

李进华、王伟军:《知识网格及其在e-Science中应用研究(四)——知识网格在e-Science中的应用》,《情报科学》2007年第10期。

科技部国际合作司:《E-science研究在英国全面展开》,《中国基础科学》2002年第3期。

桂文庄:《什么是e-Science?》,《科研信息化技术与应用》2008年第1期。

阎保平、桂文庄、罗泽:《我国科学研究信息化的发展与启示》,《科研信息化技术与应用》2010年第1期。

曾伟忠:《科学研究的信息化:e-Science的产生和发展》,《现代情报》2006年第2期。

陈文娟、肖峰:《e-Social Science与社会科学研究》,《探求》2010年第6期。

式中:S为系统内物种的总数;N为所有物种的个体数之和;Pi=Ni/N,Pi为第i种的个体数Ni占所有种个体总数N的比例。

褚鸣:《社会科学研究信息化的内涵与发展》,《国外社会科学》2010年第1期。

雷枫:《社会科学e-Science的思考》,《科研信息化技术与应用》2010年第2期。

常永宽:《基于E-Social Science的数据中心构建与应用——以中国边疆研究为例》,《甘肃科技纵横》2018年第8期;王旭东:《数字世界史:基于e-Science的历史学整体研究理论及环境建构》,《科研信息化技术与应用》2010年第2期。

*本文系国家社科基金重大项目“数据科学对社会科学转型的重大影响研究”(项目号:17ZDA030)、国家自然科学基金面上项目“知识源深度挖掘的政府精准治理研究”(项目号:71673068)、广西哲学社会科学规划研究课题“大数据驱动下面向科研第四范式的高校图书馆应对策略研究”(项目号:17FTQ004)的阶段性成果。

作者简介: 章昌平,桂林理工大学公共管理与传媒学院副教授,哈尔滨工业大学博士研究生;米加宁,哈尔滨工业大学管理学院教授、博士生导师;黄欣卓(通讯作者),哈尔滨工业大学管理学院副教授。哈尔滨,150001

〔责任编辑:王 婷〕

标签:;  ;  ;  ;  ;  ;  ;  

超越数据洪流:第四研究范式下的社会科学研究数据基础设施论文
下载Doc文档

猜你喜欢