基于科学数据的嵌入课题组学科服务策略探索,本文主要内容关键词为:课题组论文,学科论文,策略论文,科学论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号:G250 DOI:10.13266/j.issn.0252~3116.2015.22.009 修回日期:2015-11-06 本文起止页码:56~63 2007年,计算机图灵奖得主吉姆·格雷(J.Grey)提出了科学研究的“第四范式”,即以数据密集型计算为基础的科学研究范式。科学研究范式的变革将导致文献信息服务模式的深刻变革。吉姆·格雷认为互联网可以联合所有的科学数据和文献形成一个互操作的世界,让研究人员可以找到论文的原始数据或者能够从数据开始找到与这些数据有关的所有文献[1],现代科学研究素材已经从单一文字发展为原始数据、派生数据和重组数据的互嵌融合新模式,随着数字技术、物联网技术、智能设备等革命性技术的相继涌现,科学信息服务已经可以让不同类型的信息资源(包括数据、文字、图像、影像等)都能够有机结合在一起,并被查询和获取,与此同时,科学研究的新范式环境将极大地改变学科情报服务的模式与机制,使学科咨询领域开展面向现代科研的科技信息服务新模式与策略的研究变得更为迫切。 韩翠峰认为当前图书馆的核心竞争力已不仅仅是文献数据信息的竞争,多类数据的拥有、融合、挖掘与利用水平才是图书馆行业间竞争的关键因素[2]。针对科研数据环境中图书馆知识服务的内容,一些研究者将目光聚焦于相关知识服务策略,提出应该在知识资源的挖掘与组织、用户数据的分析、知识咨询服务形式的多样化等方面开展创新工作[3]。此外,研究者们对于科研数据环境下知识服务资源的构建[4]、网络互动服务[5]等也开展了富有成效的研究。 目前,研究人员在调研过程中发现:科技人员对统计数值数据、工艺数据、实验数据等相关科研数据的需求迫切[6]。一些科技服务机构已经开始构建更具有学科专业性与广泛性的嵌入科研过程的科研数据服务,发挥学科馆员在信息收集整理和分析加工中的优势,构建领域知识库[7]。中国科学院文献情报中心学科服务团队挖掘收集了研究所学科领域内的开放科学数据资源,向科研管理用户推送,并提供后续科研数据管理咨询服务,构建了数据仓储登记系统[8]。肖潇等通过过程嵌入、人员嵌入以及平台嵌入,开展科学数据开发服务、存储服务、导航和检索服务、管理咨询服务、分析服务以及基于数据的信息素养教育等方面的学科服务[9]。部分图书馆对文献数据进行了深层次挖掘,充分利用大量复杂的数据分析技术与工具,形成满足用户需求、经过二次加工的数据情报产品[10]。 英国大学图书馆委员会M.Auckland的研究报告《重新确立支撑科研所需的技能》(Re-skilling for Research)对学科馆员所需的潜在技能和知识进行了研究,提出32种技能和知识,涉及了专业知识、研究过程、合作、研究数据等[11~12]。加州大学伯克利分校图书馆对其校内几个实验室的数据进行了收集和整理[13]。美国哈佛-麻省理工数据中心是两校联合建立的数据仓储,供教师存储、获取数据[14]。 当前针对科研数据的知识服务,学者更多注重理论探讨和内容设计,而较少研究如何在服务提供者和服务对象之间搭建服务路径、嵌入科研过程,针对我国科研团队构建方式、科研数据管理方式、嵌入数据科研服务组织机制等方面特点的学科化服务研究不足,无法真正构建“用户为中心、需求驱动、责任绑定、服务绑定、创新绑定、考核绑定”的新学科服务机制[15]。鉴于此,本文通过调研国外学科化数据服务实践,研究如何以“用户为中心”,实现“用户需要什么、我们提供什么”的基于科研数据环境嵌入课题组的学科化服务理念[16]。 1 国外科研数据环境下的学科服务实践 2012年,奥巴马政府发布了“大数据研究和发展计划”[17],同年联合国发布了“大数据发展战略”[18],“大数据”研究迅速成为世界科技研究的前沿,作为大数据研究重要组成部分之一的科研数据也迅速成为大数据应用研究的热点。以服务科技创新为目标的学科服务未来必然将与科研数据服务紧密结合,在这方面,国外科技信息服务机构从信息服务、软件开发、数据分析等方面进行了探索,积极将服务嵌入到与数据相关的工作中,组织设立相关重大研究和服务项目,在服务实践中探索未来基于科研数据环境的服务内容与服务机制。当前国外图书馆在科学数据服务方面,围绕数据管理、数据共享以及数据分析等方面开展了实践。 科学数据监护方面,美国国家医学图书馆和韩国科技信息研究院开始基于科学数据建立公众可利用的超级计算和数据处理平台,这些平台在支持基础科学和应用科学的知识发现、数据关联和分析的基础上进行模拟仿真研究,为科研管理和政府决策提供服务,目前在空间物理、武器系统集成模拟、情报分析等领域已经取得了良好的效果[19]。巴斯大学在2012年初成功获得英国联合信息系统委员会(JISC)的资助,以帮助其完成Research 360(R360)项目,从而达到在机构内嵌入优质的数据管理实践过程的目的。R360项目开发出一个终端对终端的360度机构科研生命周期的概念,并勾画出了包括6道程序的示意图。其同时还列出了在科研数据管理过程的不同操作中大学图书馆可以提供哪些支持性的信息服务,并归纳出4点工作原则,分析得出了图书馆中与科研数据管理相关的职位及其职责、要求和需维护的社会关系。在专门职位设置方面,巴斯大学则指定了一位机构的数据科学家参与到R360项目中,其职责在于推动跨机构研究数据的管理实践[20]。DCP项目由普渡大学与伊利诺伊大学厄巴纳-香槟分校图书情报学院合作、IMLS(the Institute for Museum and Library Services,博物馆与图书馆服务协会)资助,普渡大学S.Brandt教授担任主任,吸引了诸多学科领域的学科馆员、研究生参加。此项目的研究目标是通过对研究人员数据进行个案研究,加深对数据获取和相关监护的理解;对数据监护资源中的数据存储和共享的需求进行解释和对比;推动成果转化,以提高数据监护和数据收集的力度[21]。 科学数据共享方面,美国国家医学图书馆开展了整合生物学及临床信息项目(i2b2:Informatics for Integrating Biology and the Bedside),旨在创造能够整合和交换生物学及临床医疗保健和生物医学研究数据的方法和工具。通过i2b2开放的软件工具整合、挖掘和表现的数据能够通过开源共享,在全球50多个组织进行使用。该项目利用大数据对数据整合和共享的优势实现了生物学和临床信息数据的共享[22]。TAMBIS(Transparent Access to Multiple Bioinformatics Information Sources)系统由英国曼彻斯特大学发起、生物科学学院信息管理研究小组和计算机科学学院联合研究建立,目的是可以透明地访问多个生物信息学信息来源。TAMBIS使用中间件资源包装器等技术为各种异质生物信息源提供一个统一的查新界面和接口[23]。此外,还有GEON项目,它是2002年美国国家科学基金会信息技术研究计划(ITR)资助的一个项目。GEON由不同的子项目组成,主要有Open Earth Framework(开放地球框架)、Integrated Data Viewer(集成数据浏览器)、SYNSEIS(合成地震记录生成工具)等[24]。 科学数据分析方面,哈佛大学的Data verse Network项目包括科研数据出版、共享、参考、抽取和分析等内容,为大学及其他机构提供数据出版系统的全部解决方案,并提供数据分析服务,产生正式的数据引用(data citation),通过SPSS和STATA分析数据表,并可提供下载[25]。美国国家医学图书馆研究了如何利用先进的电脑资讯处理技术分析生物上作用的分子结构与功能[26]。 此外,新西兰的奥塔哥大学图书馆承担了奥塔哥生物多样性数据管理项目的研究,美国弗吉尼亚州立大学开始组建科学数据咨询小组,图书馆员和数据管理者则为学者们充当了咨询顾问的角色[20]。 国外在基于科研数据的学科服务实践探索过程中已经意识到“科研数据”和“互联网”环境下图书馆参与科学数据服务的重要性和必要性,并开始将服务边界拓展到传统学术交流的上游即数据处理与监护阶段,从理论和实践两方面进行了研究与探索[15]。综合来看,国外学科服务嵌入数据科研过程主要从两个方面入手,一方面是依托重大项目,将学科服务嵌入到科研一线,从项目数据生命周期的管理,数据发布平台建设、数据关联与分析等方面开展服务,通过加入各类科技项目,参与项目中数据的管理与服务,将数据服务定位于数据咨询服务的角色,一些科技咨询机构甚至已经建立专门的数据服务专业团队,为重点项目、重点对象提供更为专业的数据咨询服务,同时带动了数据管理人才的建设;另一方面,学科服务团队自身建立了数据服务平台和专业团队,面向科研一线服务,而不仅仅针对某一特定项目或者课题组,这些平台能够满足基础科学和应用科学在知识发现、数据关联和分析基础上的模拟仿真的基本需求,进而全方位服务于整个科学研究过程。 正如A.Swan和S.Brown在英国联合信息系统委员会(Joint Information Systems Committee,JISC)报告中提出的科学数据服务所承担的4种角色——数据创造者(data creator)、数据专家(data scientist)、数据主管(data manager)、数据馆员(data librarian)[27],国外在基于科研数据的学科服务方面已经开始在数据主管、数据馆员方面进行有效探索,但是对于如何针对体量较小的研究团队开展数据服务的相关研究和实践不多,关于如何建立数据服务者与科研参与者之间的联系、形成固化的协作机制等的研究也较少。在我国,目前大量的科研团队具有体量小、学科领域窄、资金紧张等共同特点,结合我国文献情报服务体系特征,如何打通学科服务在课题组等小体量科研团队的数据生命周期中的嵌入通道,还需要进一步研究,尤其是需要从服务环境、服务方法、服务机制以及服务组织结构等方面进行系统的研究与探索。 2 基于科研数据的嵌入课题组学科服务信息环境与方法构建 正是由于大数据的核心是智能化,其潜在的价值才能被挖掘[28]。基于科研数据环境的学科服务主要面向特定的科学领域与研究机构,需要运用平台、工具、软件、系统等专业技术和服务手段构建智慧型数据,从而嵌入用户环境和科研过程,作为用户的合作伙伴,主动提供具有深度的知识服务,有效支撑用户的工作过程[29]。为实现嵌入课题组的数据服务,需要从知识服务信息环境、数据监护系统以及适合课题组数据分析的研究方法方面等进行思考。 2.1 组织构建基于科研数据服务的知识服务环境 随着科研过程中海量数据和多形式数据的出现,科学研究从实验、模拟分析研究逐渐转变为数据分析研究,许多学科甚至成为数据驱动的科学。随着实验手段、分析技术和数据检索技术等的快速发展,目前的知识服务环境远不能满足科学数据快速发展的需要,因此,构建满足科研数据服务的知识环境成为开展科研数据服务的必要前提。 解决科研数据收集与描述的相关问题是构建科研数据知识环境的前提。应对数据进行特征描述,建立数据集标识系统,再对收集的数据进行筛选、分类,利用流处理和批处理等方式对科研产生的数据进行及时处理。 解决科研数据检索相关问题是服务的关键。针对科研数据检索中的问题,应使用合适的数据工具(比如数据反馈工具、数据查找工具)管理利用相关数据,并通过Web3.0、智能技术、“互联网+”技术等实现科研数据的共享,对数据进行分类,以学科领域组织相关数据库,形成数据服务开展基础,构建基本的科研数据知识服务环境。 基于科研数据知识服务的知识服务环境应将相关文献数据、实验数据、软件数据等补充到该信息环境中,并采用数据关联技术,将不同类型数据有效关联,进而提供统一的检索入口,通过索引不同格式的数据(如纯文本、XML、OBO格式),建立完整的数据访问、分析平台,形成整个学科研究资源完整的采集、存储、管理、分析、发布的链条。这个链条中不仅有文献,还要有各种形式的数据存在,不仅有原始数据,还有派生数据存在,不仅有结果,还能看到过程的存在。进而对数据的整个生命周期进行储存、管理和利用,提高数据的可检索性和可获取性,提高科技信息检索的效率和深度,丰富科技信息的内容。 2.2 基于科研数据的实验室信息管理系统研究 目前,大多数科研项目和实验室还缺乏有效的实验室信息管理系统,还未完全建立从实验仪器、模拟数据、管理数据等进入数据归档的通道,无法对数据进行有效、专业的描述和管理,最终无法方便地对外发布和共享[30]。同时,我国大多数实验室体量和资金量均较小,数据处理的专业知识储备不足,通过自身技术或者在市场上进行采购等方式都难以获得能够满足自身需要又能负担得起的信息管理系统。 因此,针对实验室数据规模较小、更新较慢、资金较少、数据处理专业能力较弱等特点,可设计符合实验室数据要求、成本较低的管理系统,该管理系统主要对实验数据进行描述和清洗,建立实验室数据规范,形成数据集标识,然后把信息重新网格化,设计实验室数据管理库,形成长期的数据存档和追根溯源的机制,节约实验室管理成本,利用Web技术、互联网技术、智能技术等开发能够满足实验室长期需求的系统,加强实验室与外界的交流,在实现数据对内、对外共享的同时,实现与其他资源的关联,促进知识及时转移与流动,真正使知识在线上跑,减少人力资源支出,最终形成对实验室各种数据的统一管理、利用和快速发布,实现学科咨询服务的数据化。 2.3 基于科研数据的小领域数据分析方法研究 基于科研数据的数据分析往往仍停留在对大领域的挖掘与发现,比如在天文领域,更多的是在大量天文数据中发现离散点、发现趋势等方面,较少涉及小领域的科研数据挖掘与分析(本文中的小领域概念指某一研究点或者技术点等)。而学科服务往往更多地关注学科小领域的发展与研究,研究符合小领域研究的数据分析方法,同时相关费用又能够不成为科研工作的负担,这已经成为学科化服务的重要研究领域。相对于大学科领域,小学科领域的实验数据、分析数据、管理数据的量可能不及大领域的数据量,但在数据分析过程中可能需要引用、关联实验以外的数据(比如文献数据、网络数据等),利用图书馆丰富的线上和线下资源,通过情报学、计算机学以及图书馆学等专业知识的结合,在数据挖掘、数据关联、数据统计、数据含义分析等方面开展研究工作,通过方法研究工作辅助科学发现,形成具有知识性和学术性的科学分析报告,有效支撑小领域的科学研究工作,如图1所示。标签:大数据论文; 科学论文; 数据管理论文; 数据与信息论文; 用户研究论文; 相关性分析论文; 组织环境论文; 项目组织论文; 组织策略论文; 工作管理论文; 用户分析论文;