科研数据管理研究综述-基于词频分析和阶段分布统计论文

科研数据管理研究综述
——基于词频分析和阶段分布统计

胡 媛1,虞佳玲2,艾文华1

(1.南昌大学管理学院,江西南昌 330031;2.南京大学信息管理学院,江苏南京 210000)

摘要: 运用文献统计与内容分析方法,对国内外科研数据管理领域的高频关键词与数据生命周期阶段分布进行多维分析,从科研数据生命周期、科研数据管理需求、科研数据管理计划、科研数据开放共享,和科研数据管理服务与实践等5个方面对该领域的研究现状及热点进行分析与阐述,并在此基础上指出未来的研究趋势。建议科研数据管理研究应结合本国国情,借助生命周期的关键作用,重视需求调研,探索并完善适合本土的管理模式,推进相关技术领域的发展,以此提高管理效率,提升其服务社会的能力。

关键词: 科研数据管理;科研数据生命周期;定量研究;发展趋势

在科学“第四范式”与大数据的环境下,科研工作愈发重视数据分析与管理工作。从科研工作者、科研机构的有意识使用到受国家政府的普遍重视,科研数据管理逐渐成为影响学术研究、乃至国家创新的关键因素。2018年国务院办公室出台《科学数据管理办法》[1],预示着科学数据作为国家的重要战略资源,国家顶层层面开始重视科学数据的管理与应用。

通过梳理国内“科研数据管理”领域的文献,笔者发现现有研究主要以探析国外研究重点热点为主,综合分析国内外研究趋势的研究较为缺乏。同时,现有研究大多采用定性描述,无法为所研究内容提供数理依据,存在一定主观性。基于此,本文采用关键词词频统计和文献研究法,对自2000年以来国内外科研数据管理领域内的研究论文进行系统性综述,即从国内外关于科研数据管理的研究与实践出发,综合分析与提炼现有研究热点与主题,并探析科研数据管理的发展趋势。

1相关概念辨析

1.1 国内外科研数据概念辨析

科研数据,又称科学数据和研究数据,是当今学术研究的重要组成部分,最早源于计算机领域,在国内可追溯到1982年[2]。其发展历程大致经历了资料积累、数据库建立、数据共享和知识环境建设4个阶段,从传统、封闭的研究转向信息化、全球化、多学科的大规模科研合作[3]

尽管科研数据已成为科研活动中不可缺少的部分,但尚未形成统一的定义。国内外不少学者、机构都尝试进行定义,包括:2011年李晓辉[4]指出:科研数据是指数字形式的研究数据,或能转换成数字形式的非数字形式数据,以便存储在计算机上;2014年,经合组织 (Organization for Economic Cooperation and Development, OECD) 定义其为用作科学研究的主要来源的事实记录,包括数字分数、文本记录、图像和声音,用以验证研究的成果[5];《办法》[1]界定其为通过基础应用研究、实验开发,或通过观测、考察、检验等方式产生或取得的用以科学研究活动的原始数据及衍生数据。综合发现,国内外学术界均默认科研数据是涵盖多种形式的资料信息。此外,胡绍君[6]、陈媛媛等[7]学者还提到科研人员是产生获取科研数据的主体。

由此我们认为科研数据,是指研究人员在科学研究过程中产生、收集的能以数字形式存储的多源数据资料,包括观察数据、实验数据、模型数据、访谈文件、档案材料、实验笔记本等能以数字形式存储的数据材料,也包括以标本、影像、语音、图片、软件、算法等可供转化的非数字形式材料。

1.2 国内外科研数据管理概念辨析

科研数据管理,在国外通常表示为Research Data Management(简写RDM),也有表示为Data Curation(此处Data表示科研数据)。科研数据管理最早由R.L.Baker提出,但目前尚未形成明确、统一的概念。通过梳理文献,我们从3个方面总结,以期揭示其概念内涵:

目前,楚雄市汉语公示语英译的数量远远不够,很多对外交流频繁的地方还缺少公示语的翻译,例如公共汽车站,火车站售票窗口,彝族文化活动场所,市区主干道的景区标识牌,还有一些功能性建筑物都缺少规范的公示语翻译,城市的对外文明形象也大大削弱了。

(1)时期界定。Tammaro等[8]指出“科研数据管理是生命周期的数据管理”,强调数据管理始于数据管理计划,经过各个过程结束于数据共享。在国内,王芳等[9]也指出科研数据管理贯穿整个数据生命周期,涵盖一系列活动过程。可见,科研数据管理与数据生命周期的密不可分。

(2)作用界定。牛津大学[10]、匹兹堡大学[11]提到科研数据管理可避免数据丢失,达到共享科研成果、节约成本、提高效率的目的。《办法》[1]也指出应明确主体,遵循充分利用等原则,以促进共享。科研数据的管理能便于人们剖析其开展内容的具体含义,例如数据共享,能在一定程度上避免科研工作重复,帮助提升科研效率。

(3)其他考虑。Cox AM等[12]提及科研数据管理中要考虑技术能力、道德、法律等监管问题。L Perrier等[13]指出需考虑涉及利益相关者的基础设施。若在未建立科研成果保障体系时便开展数据共享,处理利益冲突时难免会遇到不公正,致使科研人员满意度的降低,抑制科研数据管理的发展。同样,科学技术是其发展的关键因素。尽管当前科研数据形式多样,但在如“舞蹈”的采集上,仍存在困难,因而技术能力的提升需提起重视。

基于此,我们认为科研数据管理涵盖整个数据生命周期,其中包括制定数据管理计划与标准,数据生产与构造,以及数据的检索、识别、收集、处理、存储、共享、安全、出版、监控、重用设计创作等过程,同时需要考虑基础设施建设、技术能力的提升、道德法律的监管保障等内容,以实现数据共享、节约成本、提高效率等目的。

我站在房间的一边,一半心思听艾尔和克里斯蒂娜聊天,一半心思看莫莉和爱德华拼命“厮杀”。爱德华出手要比莫莉快很多,因此,我敢肯定莫莉今天输定了。

2研究方法和数据收集

自科研数据管理概念的提出,国内不少学者从多个视角展开了综述梳理。杨文建等[14]梳理了国外高校图书馆开展的科研数据管理的业务特点及研究进展。钱锦琳等[15]集中探讨了国外有关数据生命周期理论和科研数据管理服务的研究趋势和热点。邱春燕等[16]、司莉等[17]总结了有关科研数据管理与共享的研究热点。然而,国内研究缺少系统性整理,量化研究也显不足。由此,本文系统梳理自2000年以来的国内外文献,并采用定量的方法进行主题分析与系统总结,试图对国内外的相关研究有相对全面的了解。

实验数据应用SPSS 20.0软件进行分析,所有资料以均数±标准差(±s)表示,各组之间比较用单因素方差分析(方差齐时使用LSD,方差不齐时用Dunnett's),P<0.05表示差异具有统计学意义。

品种始终是提高蔬菜产品质量及产品竞争力最有效手段。要尽力推广使用优良新品种。积极与国内外知名种苗公司合作,引进推广优质新品种。引种原则:兼顾生产者、经营者和消费者三方的利益。要让品种使用的生产者认可,适合当地的气候条件,抗性强,便于田间管理,高产优质。其次,要让蔬菜产品经营者认可,产品耐贮、耐运,质量优异,售价高。第三,还要让消费者认可,产品商品性好,符合消费习惯。

2.1 研究方法

本文使用数据库检索和回溯检索两种策略,检索了国内外17个主要涵盖科研数据管理领域的电子文献数据库,主要包括中国知网、万方、Web of Knowledge、Elsevier SD,以及Springer Link等数据库,针对科研数据管理,对所发表的2000年到2018年4月20日的相关文献进行了归集。并根据返回结果,修正了检索范围。文献检索共鉴定出16 949篇文章,在去除了重复和内容相关度低的文献,回顾标题和摘要之后,最终确定将389篇英文文献和233篇中文文献纳入研究。在本文中,将分别对英文文献和中文文献进行分析。

图 1文献筛选流程图

2.2 收入文章的特点

389篇国外文献大多来源于2010年以后,占到89.7%。从图2可知,文献集中于2012—2017年。源于研究时间、范围的限制,2018年的文章数量还未可知。同样,国内文献的233篇文章大多来源于2013年以后,占到91.4%。从图3可知,文献集中于2016年和2017年,而2018年的文章数量也还未可知。

图 2英文文献的出版年份分布趋势

图 3中文文献的出版年份分布趋势

2.3 数据提取

本文利用质性软件NVivo11对确定文献中的标题、摘要及关键词三部分内容进行编码,挖掘各关键信息的频数。鉴于文献中同义词的不同形式,笔者在初次统计后对关键词进行规范化操作,即将同义词归并统计,并剔除了无明显指代意义的词语(如preservation、evaluation等)。最终笔者从国外文献中提取了规范后频次大于等于32的关键词36个;同样的方式处理中文文献,提取了频次大于等于10的关键词29个。

3研究结果

表2展现了国内文献情况,与国外情况相似。数据管理生命周期方面,国内的研究深度与广度则有所欠缺,目前仅“数据共享”的研究较为全面。数据生命周期在内容上多以参考国外模型为主,各阶段探讨尚不深入。在基础设施和研究环境方面,笔者发现数据库与知识库是在近两年受到国内关注,而“系统”总量大源于在前期阶段研究的重点探讨,近几年的研究热度不高。为更好展示国内的相关研究工作,笔者还对研究范围进行归纳,结合参考文献发现,国内主要是借国外的成功经验,对本国内的相关领域研究进行探讨。

3.1 国外研究热点揭示

从表1可见国外相关文献情况,由于数据生命周期贯穿整个科研数据管理的活动过程,国外对其各阶段的研究内容十分关注。综合词频可将其归至数据生命周期的六个阶段,分别为创建数据、处理数据、分析数据、保存数据、访问数据和重用数据。结合文献,笔者发现数据共享的研究最为全面,其中共享政策最为广泛,其次是共享实践和计划。此外,当前国外较为关注研究环境与基础设施的建设有助于科研数据管理的发展,有关知识库联盟逐渐成为发展趋势;数据管理平台的搭建使用,以及辅助工具软件的探讨和研发,也成为当前研究方向之一。

表 1国外文献高频关键词

表1(续)

3.2 国内研究热点揭示

研究结果主要从国外研究热点、国内研究热点以及国内外研究生命周期等方面进行结果的展示。

此外,表2揭示了国内在各个研究方向上的大致情况,有关“服务”的研究不仅总量最多,近两年也是探讨重点之一;其次是对“政策”制定的分析,开放共享政策受到关注;“实践”方面主要分析国外;而“需求”侧重对相关科研人员的评估。还有包括“教育”等,均能显示国内相关领域的研究特点,在此不再赘述。

表 2国内文献高频关键词

表2(续)

3.3 国内外科研数据生命周期框架

为更好体现国内外对科研数据生命周期各阶段的研究程度,笔者整理了科研数据生命周期表(表3),发现国内外的文献情况均与科研数据生命周期的数据阶段相一致[18],且在处理数据、访问数据和重用数据阶段的研究趋势相同,但在其他阶段分布数量上具有明显差异。这其实与国内外有关概念提出的先后次序相关,国内数据生命周期理论的具体概念是于2016年由胡卉等[19]提及,但国外于此前就有一定研究积淀,在研究的数量与进度上领先国内,同时也表明国内在相关研究上还有待深入。

表 3国内外文献科研数据生命周期阶段 篇(%)

表3(续)

4研究主题揭示与趋势探讨

(1)识别方法层面。基于用户角度已形成有三种方法,分别为内容分析法、结构化访谈法和问卷调查法。具体实践上,国外经验可供借鉴,如通过分析大量DMP内容挖掘不同学科人员的行为差异及内在需求[32],借助结构化访谈工具进行需求识别,以及借助大规模问卷调研科研人员间的差异以及寻求个性化服务的切入点[33]

假设供电区域内用户数为n且均匀分布,在馈线上安装k1个“二遥”终端设备,k2个“三遥”设备。当线路出现故障时,停电时间由3部分组成:t1为故障区域查找时间,t2为故障隔离时间,t3为故障修复时间。对于“二遥”终端设备,t1为0;对于“三遥”终端设备,t1和t2均为0。假定“二遥”终端均匀安置在“三遥”终端装置所分割的区域中,每个“三遥”分段内对α台分段开关进行“二遥”配置,即有

4.1 科研数据生命周期

科研数据生命周期是指从科研数据生成,经过处理、加工和发布,最终实现数据共享和再利用的过程[20]。其理论的建立,有助于全面保存科研数据,明确责任群体所在阶段与任务,提升整体研究水平,并为科研数据管理的开展提供坚实基础[21]

据CEOS在2012年的调研,目前已有不同类型的科研数据生命周期模型55个[20]。其中较具普适性的有DDC(Digital Curation Centre)的监管生命周期模型,以及DDI(Data Documentation Initiative)的组合生命周期模型等。这些模型涵盖了科研数据管理框架中所要包含的核心内容,众多学者以此结合具体实践,开展相应的研究活动:

那夜里,艾莉坐在街心公园的长椅上,喝掉一瓶红葡萄酒。她想象着那些晶莹剔透的紫葡萄被人采摘,运输,入桶,发酵,装瓶,最终成为人类刺激神经、放松神经和抚慰神经的神奇液体。每一滴葡萄酒都是一颗葡萄的血液。每一瓶葡萄酒里都藏着无数颗葡萄死去的生命。葡萄酒为人类而存在。葡萄为人类而存在。事实上,世上所有东西,都为人类而存在。

(1)探讨学科数据结构特征。科学数据在生命周期各阶段中都有其各自特征与状态。国内外学者从这一视角,对学科内数据的结构特征、状态规律进行揭示。如JC Wallis等[22]探讨了生态遥感数据,孟祥保则对有关人文社科的数据结构特征进行研究[23]

全面预算管理是房地产企业实现战略目标的重要举措,在具体实施的过程中,应该以目标为导向,紧密结合市场需求完成预算编制,并通过一定的控制、考评以及激励措施保障预算的顺利执行,促进企业持续发展。本质上来讲,它是实现房地产企业价值最大化的一种管理方法,又是企业内部管理必不可少的组成部分,房地产企业的预算工作。

(2)探讨科研数据生命周期管理模型/体系。科研数据生命周期与科研数据生命周期管理的概念不同。前者仅研究数据本身;而后者则探讨科研数据在生命周期各阶段的管理策略,重视DMP的作用、强调数据的归档工作、要求规范各阶段工作,提供科研数据管理的实现途径。当前,牛津大学[24]、剑桥大学[25]、ICPSR[26]、等众多国外高校机构已提出科研数据生命周期管理模型。同样,国内孙仙阁[27]对学术图书馆科研数据管理模型的理论研究、构建体系等方面展开了讨论。

(3)探讨科研数据服务。科研数据生命周期可有效帮助指导相关数据服务的开展。F Yu等[28]基于科研生命周期,设计了协商式领导方法下的科研数据管理服务。师荣华等[29]将科研数据管理服务的开展内容划分为数据初加工、再加工和知识抽取三大内容。

科研数据管理生命周期的研究,可以有效帮助科研人员监管科研数据管理过程,并对所出现的问题进行追本溯源的排查。此外,通过梳理国内外生命周期的阶段分布(表3),笔者发现,当前学者的研究重心开始从原来的创建、处理、分析数据,转向共享、重用数据的探讨中。这表示科研数据管理的研究正从基础设施建设转向更深层次的技术研发与应用。笔者认为,鉴于生命周期在科研数据管理过程中所起到的关键作用,如何在实现科研数据管理目标的前提下,提高管理效率还有待进一步深入。

4.2 科研数据管理需求

准确了解高校科研人员的行为和需求,是科研数据管理的前提与基础。从国外现有实践研究分析,科研数据管理需求评估的主要内容包括高校研究人员的数据管理需求及现状,以及与高校科研数据管理有关的人员、环境等方面的现状与差距[30]。而目前国内研究主要从科研人员需求方面展开调研[31]。笔者就识别方法和识别工具2个方面对国内外研究情况进行梳理:

基于前文统计,笔者发现当前国内外有关科研数据管理的研究,大致涉及如下五大方面,分别是:科研数据生命周期、科研数据管理需求、科研数据管理计划、科研数据开放共享、科研数据管理服务与实践。

(2)识别工具层面。科研数据管理需求识别评估工具也已成为制约科研数据需求准确定位的关键因素,其对数据需求发展的重要程度不容忽视。近年来,国外高校设计开发了多种用于研究数据管理需求调查的模型,主要有DAF(Data Asset Framework)、DCP(Data Curation Profiles),也推出了用以指导了解实践与需求的DCPT(Data Curation Profiles Toolkit)和DMVitals等工具。而在2015年以前,国内尚还停留在简易的问卷调查和访谈小组调查中,彼时并未形成专门的系统方法。张萍等人[30]发现这一缺陷,开始关注国外的需求评估方法以期为国内研究提供参考。随后有关科研数据管理需求研究的视角才开始转向分析国外模式,并尝试借鉴成功经验。例如2017年蔚海燕等人[31]便基于DAF框架设计需求调查,对上海大学的科研人员开展调研分析。

科研数据开放共享,是当前图书馆界的研究重点与热点,在词频检索中也能略见一二。开放存取概念最早可追溯至2001年,目前主要有三个国际性文件可供理解[41-43],是国际科技界、出版界与图书情报界借助网络自由传播推动科研成果而发起的运动。2014年,美国ACRL在《高校图书馆发展趋势》中提到“开放存取”研究是七大发展趋势之一[44]。2017年,吴建中在《现代图书馆发展的十个新话题》中也提及“开放获取运动”话题[45]。纵观国内外相关研究,笔者就政策、实现技术以及主题分布3个方面进行梳理:

4.3 科研数据管理计划

科研数据管理计划是介绍研究过程及项目完成后数据处理方式的正式文件[34],在开展科研数据管理活动过程中具有指导作用,备受国内外重视。基于此,笔者就政策发布、内容框架,以及现有工具3个方面进行梳理:

(1)政策发布方面。2007年经合组织发表了《公共资助科学数据开放获取的原则和指南》,随后英美等国的一些科研资助机构相应提出了数据管理政策的内容。例如,2010年美国NSF要求2011年1月18日起受资助的项目提交有关科学研究的数据管理计划[35]。英国ESRC发布《ESRC Research Data Policy》[36],对数据管理计划进行规范。以及欧盟发布了《2020计划框架下的FAIR数据管理指南》等文件,对数据管理计划进行了规定[37]。我国则于2016年,由国家食品药品监督管理总局制定了《临床试验数据管理工作技术指南》等文件,对新药临床研究的管理工作提出要求。可见各国均根据自身发展进行了相应的政策制定,但整体而言欧美国家的探索要早于国内。

(2)理论框架方面。英国DDC与美国ICPSR等机构均编撰发布了DMP内容框架文件[38-39]。同时不少学者也为科研数据管理计划的内容研究提供助力,如Michener[34]等提及需撰写的内容及规则;Williams等[40]则确定了43个DMP主题,用以指导内容的生成。总体而言,机构的研究领域不同,所制定的数据管理计划内容会呈现多样,但从普适性看,科研数据管理计划内容框架仍需包括数据格式与类型、元数据与文档记录、数据选择与存储、数据保存与共享、伦理道德与法律遵从以及数据管理与版权事项等内容。(3)现有工具方面。当前,国外科研数据管理计划已深入实践研究,并积累了经验,就如英美加等国已研发了DMP Tool、DMP Online等科研数据管理工具,且逐渐向范围更广、更具针对性的工具扩展。而国内,相关研究尚处于理论探讨阶段,缺乏自主开发工具。

总体而言,当前国内的科研数据管理计划领域以探讨国际上现有的DMP政策、框架及工具等内容为主,而结合国情来构建DMP框架的研究则较缺乏,由此适当借鉴国外成功经验,能够减少重复工作,加速国内研究的发展。此外,鉴于新出台的《办法》要求[1],对科技计划项目产生的科学数据进行强制性汇交,能极大地促进国内数据管理计划的制定,推动其发展。同时,伴随研究人员被要求编写数据管理计划这一趋势,辅助生成数据管理计划的软件工具以及相关的DMP服务也会逐渐成为研究与探讨的重点对象。

建设智慧校园旨在推动下一代数字技术在智慧校园建设中的创新应用,改造和优化现行校园网络环境,构建高速泛在、智能灵活、开放共享、安全可靠的校园信息环境。2015年以来,学校启动了智慧校园建设,并将智慧校园建设列入学校“十三五”规划重点项目,设立智慧校园建设专职系统集成、软件研发和推广团队,保障智慧校园试点项目顺利实施。

4.4 科研数据开放共享

为了能够更好地接轨国际、提升研究效率,国内高校需得重视科研数据管理需求调研,并在行动上予以体现。其中包括:拓宽需求调研范畴,不局限对科研人员的分析;跟踪领域内有关需求评估工具的进展情况,明确各种方法的适用性与局限性,并积极开发符合自身的需求工具;了解自身机构的实力基础和所处环境特点,结合各学科特点开展有关评估工作。

(1)政策方面。英美澳等国政府重视信息公开,早于20世纪六七十年代就颁布了促进信息共享开放的法令,近年又出台了有针对性的条例,如《八国集团开放数据宪章2013年英国行动计划》。回顾国内,政府数据开放共享政策起步较早,始于1994年国测局发布的《行政法规、规章和我国中药地理信息数据发布办法》,于近两年发展迅猛,出现了更多有关数据共享内容的政策研究。

(2)实现技术方面。不少学者放远于促进数据开放共享的实现技术,以及基础设施的建设,如核磁共振成像技术对神经影响学数据共享的助力[46],云计算在数据共享中的运用[47],以及开放知识库的建立[48]。这为更好提供科研数据共享服务,推动发展提供了借鉴。

(3)主题分布方面。国内外除了对相关政策及现状较为关注外,还集中于数据开放共享的影响因素分析、内部机制探索[49],近年来也逐渐重视有关开放存取期刊和其质量控制等研究。这是源于尽管开放存取在极大程度上促进了科学交流,但在商业利益驱动目的下的相关运动对学术生态产生了破坏效应[50]。目前有学者试图探索有关开放存取期刊质量的评价方法,但尚未形成一套完整且成熟的评价体系。

随着后来对于该课程的讲授,笔者逐渐思考微课到底该如何使用的问题,难道微课就仅仅是作为作业辅导来用?于是在2015年,笔者利用微课开展课堂延伸知识的讲解。在机械制图教学中,很少有高职院校对展开图以及焊接符号进行讲解,但是作为职业院校的学生,在知识广度上要有较大的拓展,于是微课平台便成为知识拓展的一个很好的工具。

能够预见未来除了继续完善共享政策体系、研发技术外,探索开发相应的质量控制方法及软件,不让学术生态受到利益污染,也是学术界应关注的重要内容。另外,也应注意国内外的相关政策研究范畴尚为狭窄,除了数据共享政策,有关数据标准、数据处理、数据引用、数据安全、数据重用,以及版权隐私等政策研究应被继续扩展。

尼康为这款产品开发和制造的快门单元,其快门叶片是由碳素纤维和复合材料制成。对组装好的相机快门进行循环测试证明,D700相机的快门在极端环境中经过约150000次的测试。自我诊断式快门可持续地监控并保持快门的精确性。

4.5 科研数据管理服务与实践

从词频结果看,数据管理服务与实践是国内外均关注的方向,但数量上国内要远少于国外。此现象涉及影响实践的关键因素和开展实施的主力机构。其中,数据管理服务与实践的发展水平受到社会环境、政策、技术条件[51],以及人才知识技能的影响,研究内容主要涉及科研数据管理计划、数据管理教育培训,以及数据安全保障等方面。而国家政府、组织机构以及高校图书馆作为科研数据管理的实践主体,在国内外也呈现出不同的发展情况。就此,笔者从国家、机构组织以及高校图书馆3个层面,对其进行梳理:

㉖ ㉗ Frederik Swennen(Ed.), Contractualisation of Family Law - Global Perspectives,Springer Publisher,2015,p.14,p.14.

(1)国家层面。美英等国作为科研数据管理实践领域的先行推动者,实践模式值得他国参考。长久以来,美国政府公布了诸多政策,如《美国联邦信息资源管理政策》[52],并研发了data.gov(http://www.data.gov/)网站以及应用软件,以促进公众对数据的利用。同样,英国JISC为支持本国的教学、科研及管理,先后发布一系列有关“研究数据管理”的先导计划,建立了DDC[53]。我国也于2001由科技部启动了“国家科学数据共享工程”[54],近年来出台了一些标准与管理办法,建设了数据库,并积极开展共享服务,实践成果显著。

2.尽管咬伤后饮酒或许是一个原因,但是舌头咬伤后的创面一般在2~3天就可以愈合,饮酒可能会延长愈合的时间,但不会延期到一个月还不愈合。

(2)组织机构层面。有学者梳理了近15年来国际组织的科研数据管理实践活动,发现联合国、经合组织、欧盟等组织在制定科研数据管理战略、计划与倡议上具有显著作用,国际科学技术数据委员会、研究数据联盟等机构则从具体层面推动了其发展[55]。但国内的相关组织在该领域研究与实践上尚且不够活跃。

(3)高校图书馆层面。由于图书馆在知识库、数据归档和存储服务、工具支持、以及政策方面具有显著优势,因而其作为开展实践的主力机构作用最不容忽视,也被视为具有成为研究数据服务理想中心的潜力[56]。有学者将近年来有关高校图书馆科研数据管理服务的研究归纳为理论、实践、政策和教育4个方面,指出现有理论研究集中于对生命周期和需求评估方法的讨论,实践研究集中于探讨当前各国各学科领域内的科研数据管理实践,政策研究则关注科研数据管理与共享政策,以及教育方面侧重于数据素养的培养[7]。目前国外多数图书馆会根据自身情况开展实践,建立服务体系模式以及相关平台项目。如康奈尔大学[57]构建了自上而下的机构组织形式,提出嵌入数据生命周期的科研数据服务;约翰·霍普金斯大学建立Data Archive项目,莫纳什大学建有MyTardis平台等,均取得了成功经验。国内经调研有4所高校明确开设相关服务,分别为北京大学、上海外国语大学、复旦大学以及武汉大学,其中后两所大学已建有数据平台,尽管在功能上互动性和可行性不高,且尚为单向平台程度,但其未来发展仍值得期待。

虽然目前的科研数据管理服务与实践在不断发展,但由于大多研究人员因无法在公共存储设施中满足科研需求[58],而选择维护自己的数据存储器;相关思想意识缺乏,实践内容与科研需求不对等;以及专业技能培训评估组织缺少等因素,仍然阻碍其发展步伐。鉴于此,我们认为应从不同层面努力,推进科研数据管理实践。国家层面,可通过收集各方调研数据,制定相应的政策,促进科研数据管理的社会化服务与实践;科研数据管理机构则应注重跨系统协作,进行资源整合,提升服务的质量;高校层面则应加速图书馆员深入科研用户的进程,开展专业培训工作,提高用户对RDS的接受度。此外,还应大力发展技术,开发本土化管理工具,搭建数据管理开源开放平台等。

5结论与展望

纵观科研数据管理领域,国内外在整体研究步调上保持一致,但发展程度上国内尚滞后。当前,已有不少学者成功结合本国国情,探索出了一些适合本土的科研数据管理模式,取得了一定成果。本文对国内外科研数据管理的研究进行系统梳理,希望能为未来研究提供些许参考,更好促进相关研究的发展。然而,本文也存在一定的局限性。在进行文献检索和梳理过程中,尽管在关键词检索、数据库选择以及词频检索方式上都以包含尽可能多的文献为原则,但仍可能存在内容上的疏漏。在今后研究中,我们将继续跟进国内外研究热点与前沿,并针对其中的每一个层面深入研究,为我国的科研数据管理的深入研究与实践发展提供参考。

参考文献:

[1]国务院办公厅. 科学数据管理办法[EB/OL].(2018-03-17)[2018-05-05]. http://www.gov.cn/zhengce/content/2018-04/02/content_5279272.htm.

[2]林广信. 农业科学数据库CAB[J]. 图书馆论坛,1982(1):41-41.

[3]姜晓红. 国内科学数据相关研究进展分析[J]. 图书情报工作,2009,53(13):50-53.

[4]李晓辉. 图书馆科研数据管理与服务模式探讨[J]. 中国图书馆学报,2011,37(5):46-52.

[5]CODATA. Current best practice for research data management policies[EB/OL].(2015-8-13)[2018-10-15]. https://zenodo.org/record/27872#.XTWa2egzZPY.

[6]胡绍君. 面向科研数据管理的高校学科馆员能力建设研究[J]. 图书情报工作,2016,60(22):74-81.

[7]陈媛媛,柯平. 高校图书馆科研数据服务研究综述[J]. 图书馆工作与研究,2017(10):17-23,30.

[8]TAMMARO A M, CASAROSA V . Research data management in the curriculum: an interdisciplinary approach[J]. Procedia Computer Science,2014,38:138-142.

[9]王芳,慎金花. 国外数据管护(Data Curation)研究与实践进展[J]. 中国图书馆学报,2014,40(4):116-128.

[10]UNIVERSITY OF OXFORD. Research data Oxford about RDM [EB/OL].(更新日期不详) [2018-05-14]. http://researchdata.ox.ac.uk/home/ introduction-to-rdm/.

[11]UNDERSTANDING RESEARCH DATA MANAGEMENT. Research data management @ Pitt - LibGuides at university of Pittsburgh [EB/OL]. (2009-11-25)[2018-05-14].https://pitt.libguides.com/managedata/understanding.

[12]COX A M,PINFIELD S. Research data management and libraries:current activities and future priorities [J]. Journal of Librarianship & Information Science. 2014,46(4):229-316.

[13]LAURE P, ERIK B , PATRICIA A A, et al. Research data management in academic institutions:a scoping review [J]. Plos One,2017,12(5):e0118053.

[14]杨文建,邓李君. 国外高校图书馆科研数据管理研究进展及其启示[J]. 国家图书馆学刊,2017,26(5):88-97.

[15]钱锦琳,刘桂锋. 国外科研数据管理研究综述[J]. 情报理论与实践,2017,40(10):130-134.

[16]邱春燕,黄如花. 近3年国际科学数据共享领域新进展[J]. 图书情报工作,2016,60(3):6-14.

[17]司莉,庄晓喆,王思敏,等. 2005年以来国外科学数据管理与共享研究进展与启示[J]. 国家图书馆学刊,2013,22(3):40-49.

[18]RESEARCH DATA CANADA. Glossary-research data management [EB/OL].(更新日期不详)[2018-04-27].https://www.rdc-drc.ca/glossary/.

[19]胡卉,吴鸣. 嵌入科研工作流与数据生命周期的数据素养能力研究[J]. 图书与情报,2016(4):125-137.

[20]CEOS. Data lifecycle models and concepts [EB/OL].(2012-04-19)[2018-05-11]. http://ceos.org/ ourwork/workinggroups/ wgiss/preservation/.

[21]丁宁,马浩琴. 国外高校科学数据生命周期管理模型比较研究及借鉴[J]. 图书情报工作,2013,57(6):18-22.

[22]JC WALLIS,CL BORGMAN,MS MAYERNIK,et al. Moving archival practices upstream: an exploration of the life cycle of ecological sensing data in collaborative field research[J]. International Journal of Digital Curation,2008,3(1):114-126.

[23]孟祥保,钱鹏. 数据生命周期视角下人文社会科学数据特征研究[J]. 图书情报知识,2017(1):76-88.

[24]REASEARCH DATA MANAGEMENT. Working with data [EB/OL].(更新日期不详)[2018-05-12]. http://researchdata.ox.ac.uk/home/managing-your-data-at-oxford/.

[25]ARCHAEOLOGY DATA SERVICE. Data lifecycles and management plans [EB/OL].(2011-07-01)[2018-05-12]. https://archaeologydataservice.ac.uk/learning/DataTrainDownload.xhtml#Module 2.

[26]ICPSR. Guide to social science data preparation and archiving:introduce [EB/OL].(更新日期不详)[2018-05-12]. https://www.icpsr.umich.edu/icpsrweb/content/deposit/guide/.

[27]孙仙阁. 基于数据生命周期理论的学术图书馆科研数据管理模型研究[J]. 图书馆学刊,2016(12):4-7.

[28]YU F,DEUBLE R,MORGAN H. Designing research data management services based on the research lifecycle : a consultative leadership approach[J]. Journal of the Australian Library and Information Association,2017,66(3):287-298.

[29]师荣华,刘细文. 基于数据生命周期的图书馆科学数据服务研究[J]. 图书情报工作,2011,55(1):39-42.

[30]张萍,周晓英. 高校科研数据管理的需求评估方法研究[J]. 情报杂志,2015,34(11):188-192+198.

[31]蔚海燕,卫朝军,张春芳. 高校研究数据管理需求调查实践与探索:以上海大学为例[J]. 图书情报工作,2016,60(20):36-45.

[32]PARHAM S W,CARLSON J, HSWE P,et al. Using data management plans to explore variability in research data management practices across domains[J]. International Journal of Digital Curation,2016,11(1):53-67.

[33]AKERS K G, DOTY J. Disciplinary differences in faculty research data management practices and perspectives[J]. International Journal of Digital Curation,2013,8(2):5-26.

[34]MICHENER W K. Ten simple rules for creating a good data management plan[J].PLos Computational Biology,2015,11(10):1-9.

[35]NSF. Grants.gov application guide:a guide for preparation and submission of NSF applications via grants.gov [EB/OL]. (2007-01-01)[2018-04-27]. https://www.researchgate.net/publication/279235835_GrantsGov_Application_Guide_A_Guide_for_Preparation_and_Submission_of_NSF_Applications_via_Grantsgov.

[36]UK RESEARCH AND INNOVATION. Research data policy : economic and social research council [EB/OL].(更新日期不详) [2018-05-13]. https://esrc.ukri.org/funding/guidance-for-grant-holders/research-data-policy/.

[37]EUROPEAN COMMISSION. Data management:H2020 online manual [EB/OL].(2013-12-01)[2018-05-13]. http://ec.europa.eu/research/participants/docs/h2020-funding-guide/cross-cutting-issues/open-access-data-management/data-management_en.htm.

[38]DCC. Data management plan content checklist [EB/OL].(2009-06-17)[2018-05-13]. https://www.dcc.ac.uk/sites/default/files/documents/templates/DMP_checklist.pdf.

[39]ICPSR. Framework for creating a data management plan[EB/OL].(更新日期不详)[2018-05-13]. http://www.icpsr.umich. edu/icpsrweb/content/datamanagement/dmp /framework/html.

[40]WILLIAMS M , BAGWELL J , NAHM Z M. Data?management?plans: the missing perspective[J]. Journal of Biomedical Informatics,2017,71:130-142.

[41]BUDAPEST OPEN ACCESS INITIATIVE. Budapest open access initiative [EB/OL].(2002-02-14)[2018-05-14]. http://www.budapestopenaccess initiative.org/.

[42]DEFINICJA O A. Bethesda statement on open access publishing [EB/OL].(2003-06-20) [2018-05-14]. http://legacy.earlham.edu/~peters/fos/bethesda.htm.

[43]WIKIPEDIA. Berlin declaration on open access to knowledge in the sciences and humanities[EB/OL]. (2003-10-22)[2018-05-14]. https://en.wikipedia.org/wiki/Berlin_Declaration_on_Open_Access_to_ Knowledge_in_the_ Sciences_and_Humanities.

[44]ACRL. Top trends in academic libraries: a review of the trends and issues affecting academic libraries in higher education[EB/OL].(2014-06-01) [2018-04-27]. https://crln.acrl.org/index.php/ crlnews/article/ view/ 9137/10062.

[45]吴建中. 现代图书馆发展的十个新话题(摘要)[J]. 上海高校图书馆情报工作研究,2017,27(2):6-9,3.

[46]NICHOLS T E,DAS S,EICKHOFF S B,et al. Best practices in data analysis and sharing in neuroimaging using MRI [J]. Nature Neuroscience,2017,20(3):299-303.

[47]HASSAN M M,LIN K,YUE X,et al. A multimedia healthcare data sharing approach through cloud-based body area network[J]. Future Generation Computer Systems,2017,66:48-58.

[48]WANG M,CARVER J J,PHELAN V V,et al. Sharing and community curation of mass spectrometry data with Global Natural Products Social Molecular Networking[J]. Nature Biotechnology,2016,34(8):828-837.

[49]FECHER B,FRIESIKE S,HEBING M. What drives academic data sharing?[J]. Plos One,2015,10(2):e0118053.

[50]江晓原,穆蕴秋. “开放存取运动”:科学出版乌托邦的背后:Nature实证研究之六[J]. 上海交通大学学报(哲学社会科学版),2018,26(3):5-20.

[51]HILBERT M. Towards a conceptual framework for ICT for development: lessons learned from the Latin American“Cube Framework” [J]. Information Technologies &International Development,2012(4):243-259.

[52]MANAGEMENT OF FEDERAL INFORMATION RESOURCE. Circular no. A-130 [EB/OL].(1985-12-24)[2018-05-14]. https://files. eric.ed.gov/fulltext/ ED266796.pdf.

[53]DCC. Because good research needs good data [EB/OL].(2004-03-01)[2018-05-14]. http://www.dcc.ac. uk/.

[54]中华人民共和国科学技术部.科学数据共享工程[EB/OL].(2009-09-11)[2018-05-14]. http://www.most.gov.cn/ztzl/kjzg60/kjzg60hhcj /kjzg60jcyj/200909/t20090911_72832.htm.

[55]黄如花,周志峰. 近十五年来科学数据管理领域国际组织实践研究[J]. 国家图书馆学刊,2016,25(3):15-27.

[56]YOON A,SCHULTZ T. Research Data Management Services in Academic Libraries in the US:A Content Analysis of Libraries' Websites[J]. College & Research libraries,2017,78(7):920-933.

[57]DATA MAMAGEMENT SERVICES AT CORNELL. Research data management service group [EB/OL].(2017-01-23)[2018-05-14]. https://data.research.cornell.edu/services.

[58]LIU X,DING N. Research data management in universities of central China practices at Wuhan university library[J]. Electronic Library. 2016,34(5):808-822.

A Scoping Review of Research Data Management Based on Word Frequency Analysis and Stage Distribution Statistics

Hu Yuan1, Yu Jialing2, Ai Wenhua1

(1.School of Management, Nanchang University, Nanchang 330031, China;2.School of Information Management, Nanjing University, Nanjing 210000, China)

Abstract :This paper uses literature statistics and content analysis methods to conduct multi-dimensional analysis of high-frequency keywords and data life cycle stages in the field of research data management at home and abroad. From five aspects of research data life cycle, research data management needs, research data management plan, research data open sharing, and research data management service and practice, this paper analyzes and expounds the research status and hot spots in this field. On this basis, the research trends in the future are pointed out. It is suggested that research of scientific research data management should be based on the national conditions, focus on the key role of the life cycle, pay attention to demand research, explore and perfect the local management mode, and promote the development of related technical fields, so as to improve management efficiency and enhance its ability to serve the society.

Key words :research data management; research data life cycle; quantitative research; development trend

中图分类号: G203

文献标志码: A

文章编号: 1000-7695( 2019) 18-0215-09

doi: 10.3969/j.issn.1000-7695.2019.18.028

收稿日期: 2018-09-24,修回日期: 2019-01-28

基金项目: 江西省教育科学课题“大数据环境下高校学生学术数据素养能力测度指标体系构建与评价研究”(18YB013)

作者简介: 胡媛(1989—),女,湖北荆州人,博士,副教授,赣江青年学者,硕士生导师,主要研究方向为数字化信息服务、科学数据管理;虞佳玲(1997—),女,浙江宁波人,图书情报19级硕士生,主要研究方向为科学数据管理、用户信息行为;艾文华(1998—),男,江西新余人,信息管理与信息系统16级本科生,主要研究方向为数据素养、数据需求管理。

标签:;  ;  ;  ;  ;  ;  

科研数据管理研究综述-基于词频分析和阶段分布统计论文
下载Doc文档

猜你喜欢