高校图书馆参与科学数据验证的前景分析_科学论文

高校图书馆参与科学数据验证的前景分析,本文主要内容关键词为:图书馆论文,高校论文,前景分析论文,科学论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       分类号:G250

       DOI:10.13266/j.issn.0252-3116.2016.03.002

       在大数据时代背景下,国家竞争焦点已从资本、人口、资源的竞争转向了数据竞争,世界各国越来越重视大数据。美国作为世界科技强国,已于2012年3月29日正式启动“Big Data Research and Development Initiative”计划[1],正式将“大数据”提高到国家战略层面;我国也加快了大数据战略制定的步伐,2015年8月31日,国务院印发了《促进大数据发展行动纲要》的通知,提出了“全面推进我国大数据发展和应用,加快建设数据强国”的“决策部署”[2]。科学数据作为大数据的一种,有更高的科学价值和社会价值,但是科学数据质量参差不齐、科学数据审查核验机制不够完善等,严重影响了其价值的发挥。另外,我国目前尚没有对科学数据进行验证的权威机构,高校图书馆作为科学研究活动的重要信息服务机构,有开展科学数据验证业务的良好历史机遇。本文拟对高校图书馆参与科学数据验证的必要性、可行性和参与途径进行研究,旨在为高校图书馆未来拓展科学数据验证业务提供参考。

       1 高校图书馆参与科学数据验证的必要性

       科学数据验证是指对科学研究最终产生的科学数据的完整性和真实性进行复查核验的过程,完整性是指数据在思想上不随时间推移而改变,保证数据整个生命周期的准确性和一致性,真实性是指这些数据是基于事实、真实可信的,科学数据验证对科学研究的后续进程有重要影响。

       1.1 净化学术环境

       随着E-science的发展,科学研究已进入第四范式,即数据密集型科学研究[3]。科学研究产生的科学数据具有数量大、种类多、更为复杂的特点,在这种前提下,科学数据的完整性和真实性就显得十分重要。然而,现实生活中却时常发现科学数据造假的情况。如2002年“贝尔实验室科学家造假事件”,舍恩在《科学》、《自然》和《应用物理通讯》等全球著名学术期刊上发表了10余篇论文,而且涉及的都是超导、分子电路和分子晶体等前沿领域,但经过调查认定舍恩至少在16篇论文中进行了数据造假;2015年3月,英国大型学术医疗科学文献出版商现代生物出版集团(BioMed Central),因同行评议造假撤销了43篇论文;2015年5月,美国社会科学界爆出轰动性的丑闻:加州大学洛杉矶分校(UCLA)的政治系教授D.Green和博士生M.LaCour半年前在《科学》杂志发表的一篇广受关注的论文数据造假。

       世界顶尖信息学院联盟iSchool主席M.Seadle教授在第二届iConference亚太地区分会(The Second Asian Pacific iConference)上做了关于“科研诚信”主题的报告,报告中提到,从2010年8月~2015年10月,学术界已发生学术剽窃案例310件,数据伪造案例249件,研究人员数据出错129件,这些使用并发表虚假数据的行为造成了学术资源浪费,严重破坏了公平、公正的学术环境,危害了科学研究的进程。因此,目前迫切需要成立科学数据验证的中介机构,对科学数据发表前的验证也将成为一种必然趋势。高校图书馆作为重要的科学研究信息服务机构,拥有大量的科学数据资源,应主动拓展业务范围,开展科学数据验证业务。科学数据验证可以大大减少科研人员伪造科学数据的机会成本,净化学术环境,营造公平、公正的学术科研竞争氛围,保证科学研究进程的顺利进行和科学数据的后续使用;同时能够促进国家基金的有效利用,减少学术资源和科研基金的浪费;还可以进一步保护科研人员科研成果的知识产权,防止其科学数据被他人剽窃或抄袭事件的发生,提高科学研究的效率。

       1.2 提高图书馆地位

       《科学》杂志主编艾伯茨说,学术不端是天大的事;中国工程院院士、中国中医科学院院长曾撰文写道:科学研究应首重诚信;中国工程院院士郑哲敏提出:像保护生命一样呵护科学诚信。一个合理的科学研究过程要求必须具有可重复性,因此,科学数据也具有可重复性的特点[4],为了避免学术不端行为,需要对科学数据进行验证:一方面,能够使科学研究人员重新反思自己的学术伦理和社会责任,端正学术态度并自觉接受社会监督;另一方面,也能保障并加快对于科学数据的分享和转化利用,提升科学数据的社会价值。高校图书馆应在已有的业务基础上,开展科学数据验证的新业务。

       目前,国内外越来越多的高校图书馆都积极参与科学数据管理实践中,提供科学数据管理服务。英国数据存档(UK Data Archive,UKDA)数据生命周期管理模型指出[5],科学数据生命周期包括数据管理、数据归档、数据格式化、数据存储、数据伦理验证5个阶段[6],目前高校图书馆馆已开展的科学数据管理业务包含前4个阶段的服务,科学数据验证作为数据生命周期的最后一个阶段,高校图书馆也应参与其中并提供相应的验证服务。科学数据验证业务的主要功能是科研诚信的防范和补救,是科研不端行为的“事前预防”,以及在发现科研不端行为后及时采取相应的措施,尽量降低不端行为的危害和影响[7]。高校图书馆拓展科学数据验证业务有利于充分利用图书馆的信息资源和充分发挥图书馆的信息服务功能,扩大图书馆的影响力,提高图书馆的地位。

       2 高校图书馆参与科学数据验证的可行性

       在信息资源数字化背景下,高校图书馆职能已从传统的对图书采集、编目、收藏向为用户提供个性化信息服务转变,高校图书馆的角色也由参与数据生命周期的个别阶段向服务内容贯穿整个数据生命周期延伸。

       2.1 越来越多地参与科学数据管理

       目前很多科学数据验证都依赖于同行评议,但现实是科学数据错误、被伪造、被剽窃等现象日益显著,其原因之一是我国没有进行科学数据审查验证的中介机构,完全依赖于同行评议系统。然而在实际操作中,同行评议者会比较关注数据量是否足以得出显著性结果,而不太会去检测是否是欺骗性结果[8],一方面,同行评议者往往很难发现科学数据不诚信的问题,他们缺乏科学数据验证的数据资源、没有足够的时间去调查验证,有时同行评议者甚至难以辨别是否是原始数据;另一方面,来自不同学科领域的同行评议者在判断数据是否不诚信时容易观点相歧,也在某种程度上影响了科学数据审查与验证的效果。

       近来,越来越多的高校图书馆建立了科学数据管理服务平台,提供科学数据管理服务,科学数据管理服务为高校图书馆拓展数据验证业务提供了良好的机遇和优势。图书馆的科学数据管理内容包括推行数据管理政策和标准、完善信息资源建设结构和体系、进行数据加工、融合、挖掘和分析、建立数据存储系统等[9]。科学数据管理平台存有大量科研人员的原始数据为图书馆拓展科学数据验证业务提供了前提条件,弥补了现有的同行评议难以获得原始数据的缺陷,另外,图书馆拥有的多学科背景的专业数据管理人员,能够对数据进行定性定量分析、关联分析、数据挖掘等操作,易于发现数据错误并进行核查,一定程度上保证了图书馆科学数据验证业务开展的科学性。

       2.2 具备数据验证的业务基础

       高校是大量科学数据的产生地,图书馆是高校科学研究活动的重要服务支撑机构,也是高校参与科学数据验证的最佳部门,目前高校图书馆的科技查新业务越来越受重视,科技查新业务作为科研活动生命周期的开端,已成为理工科科研立项必不可少的重要环节之一,而科学数据验证作为科研活动生命周期的末端阶段,也受到了越来越多的关注。高校图书馆已开展的科技查新业务和学科服务是其参与科学数据验证的重要业务基础。

       国内外越来越多的高校图书馆开展科研诚信和数据管理的教育课程和培训。英国剑桥大学[10]、牛津大学[11]网站都有专门的关于“research integrity”的介绍,内容包括关于科学研究实践的详细标准、学校对于科研活动的监管政策和数据管理的培训等,也有关于科学数据验证的部分内容。学校的图书馆、行政办公室、其他机构以及全校师生均是科学数据的监察者和验证者,可以对科学数据进行监护、提出质疑并要求验证数据,每位研究人员必须严格遵守学术道德和学校政策;牛津大学开设了“Research Integrity Online”课程[12],剑桥大学图书馆非常重视对研究人员科学数据验证的培训,为了提高考古学一年级博士研究生管理科学数据的技巧,培养科学研究的学术道德规范,开设了科学数据管理培训课程(DataTrain:open access post-graduate teaching materials in managing research data in archaeology)[13],学生通过课程学习可以拿到相应的学分。国内武汉大学图书馆在对研究人员进行学术道德教育方面走在前列,武汉大学图书馆面向全校硕士研究生新生,开设了1学分的必修课程《研究生学术道德和学术规范》[14],这些课程内容都涉及数据验证。

       2.3 反哺科研产出

       目前我国尚无对科学数据验证的专业机构,科学数据的发布或发表缺乏统一的规范程序,只需经过专家审查程序即可,审查方式过于单一,虽然学术论文中的科学数据仍需同行评议,但是弊端依然很多,如上文中提及的同行评议造假行为等,极大程度地影响了科研成果的产出、分享和后续阶段的转化利用效果。高校科学研究活动依托于图书馆的资源和服务,图书馆也可以为科研人员提供科学数据验证服务,利用图书馆的大量资源对科学数据的完整性和真实性进行验证,既让科研人员重新复查自己的科研成果,也有效规避数据伪造等学术不端行为。科研人员可以对有问题的科学数据及时修改或删除,从而让高质量的科学数据得以保存、发表和转化利用。图书馆以此为基础创建高质量的科学数据库,反哺科研产出,可以让科研成果更具权威性和发挥更大的价值效用,提升科学研究的社会价值和经济效益,并进一步让我国学术成果走向国际,扩大我国学术的国际影响力。诚然,这也是高校图书馆主动承担部分学术不端责任的具体体现。

       3 高校图书馆参与科学数据验证的途径

       高校图书馆参与科学数据验证需要通过创建科学数据验证平台来实现,科学数据验证的具体途径应包括图书馆员角色的转变、提供科学数据验证服务和参与科学数据管理整个生命周期等。

       3.1 从学科馆员到数据馆员

       自1998年清华大学图书馆开始实行学科馆员制度,经过10余年的发展历程,学科化服务已在资源建设、队伍建设等诸多方面取得了长足的进步,2008年中国科学院文献情报中心初景利、张冬荣提出“第二代学科馆员”概念,提供全程服务内容包括课题策划、创新性论证、研究过程、论文发表、成果评价等[15];张晓林提出“学科馆员3.0”的设想,是基于用户的、覆盖知识能力和嵌入科研过程的知识服务,强调的是用户需求服务[16];武汉大学图书馆副馆长张洪元预测学科服务未来发展的最佳可能是:以文献为基础的科研分析、科研评价甚至科研指导将逐步变为现实,并成为高层次学科服务的主流内容[16]。高校图书馆参与科学数据验证将对图书馆员能力提出更高的要求,图书馆员要做好从学科馆员到数据馆员的角色的转变,在当前大数据科研环境背景下,数据能力是学科馆员的必备能力之一,数据验证将成为学科馆员的工作内容[17]。

       科学数据验证对象通常是针对某一专业领域前沿科学的数据,因此,数据馆员除了熟悉图书馆员基本业务内容外,必须具备相关专业的学科知识背景,了解学科发展动态和学科发展前沿,具备学科服务能力;科学数据验证必然要运用数据分析和验证的工具,对大量的原始数据进行检索、组织、校对和存储,因此,数据馆员要具备使用数据验证工具的能力和对科学数据进行管理的能力;科学数据验证目的是为了帮助科研人员查找到错误数据和避免数据造假、剽窃、抄袭、伪造等学术不端行为,这要求数据馆员要十分熟稔学术道德和学术伦理并能严格遵守学术研究规范,相信科学但敢于怀疑权威,在数据审核时做到公平、公正;最后,数据馆员必须具备良好的科学数据素养,广义的科学数据素养包括对科学研究活动中数据的收集、描述、组织、管理、评价和利用数据的知识和能力,强调对科学数据产生、操作和评价的能力[18]。高校图书馆参与科学数据验证要求图书馆员主动做好角色的转变,不断加强自身业务能力建设和思想道德建设,自觉遵守学术道德伦理和学术规范,不断提高自身科学数据素养,为图书馆拓展科学数据验证业务做好准备。

       3.2 提供科学数据验证服务

       高校图书馆开展一项崭新的业务前必须做好业务规划,科学定位,明确目标,优化内部技术组合。图书馆开展数据验证业务:首先,需要政策法规的支持,只有用政策法规来确保图书馆的地位和业务的权威性,验证结果才能被科研人员信服;其次,图书馆要加强人力资源建设,做好人才贮备,招聘相关专业人员,一方面,开展数据验证服务需要图书馆各部门的通力协作,要提高图书馆各部门馆员的信息服务能力,另一方面,数据验证馆员的服务能力直接影响了数据验证服务的进程和效果,这也对图书馆人才贮备提出了更高的要求;最后,图书馆为适应科学数据验证业务的新需求,应当提前做好馆员的专业课程教育和业务培训[19],快速提高馆员的科学数据验证业务能力。另外,图书馆科学数据管理服务尚处于起步阶段,图书馆从传统的文献服务到科学数据管理服务、科学数据验证服务仍然有很大的发展空间[20]。图书馆要继续加大现有的业务优势,对图书馆馆藏资源、网络资源和共享资源进行整合与揭示,优化馆藏结构,加强图书馆内部各部门的协调合作,引进新技术(如虚拟现实技术、无人机技术),不断优化图书馆技术组合,为研究人员提供科学数据验证服务。

       3.3 参与科学数据管理的整个生命周期

       高校图书馆为科学数据管理生命周期的不同阶段提供不同层次的服务内容,主要可分为传统业务层(包括参考咨询、科技查新业务等)、正在培养的业务层(包括学科化服务、科学数据管理服务)、待开发业务层(包括科学数据验证业务等)、学术环境层(包括学术不端检测、净化学术环境)和政策管理层(净化学术环境、科研政策导向)。高校图书馆参与科学数据管理生命周期流程见图1。

      

       图1 图书馆参与科学数据管理生命周期流程

       高校是大量科学数据的产生地,参考咨询、科技查新业务等是高校图书馆的基础业务内容,是高校图书馆参与科学数据管理的开端,参考咨询是科研活动的重要辅助手段之一,科技查新业务可以检测篡改数据、捏造事实等学术不端行为;近来越来越多的高校图书馆实行学科服务制度,学科服务是高校图书馆各院系专业提供的创新服务内容,也是图书馆科学数据管理的重要阶段之一;图书馆海量的科学数据保存在数据库中,图书馆员可在图书馆数据共享平台中进行操作,实现科学数据共建共享,数据馆员对共享的科学数据进行完整性和真实性验证,将错误、模糊、重复的科学数据删除或剔除,确保正确、精准的数据得以保存和再利用;学术环境层是指图书馆数据馆员利用科学数据验证业务检测各种学术不端行为;政策管理层面,目前我国已有关于科学数据验证政策规范方面的支持,例如国家自然科学基金委员会“对科学基金资助工作中不端行为的处理办法(试行)”,第四章“处理细则”第四条指出:“在申请书中伪造科学数据,或伪造国家机关、事业单位出具的证明等行为,撤销当年项目申请,并取消项目申请资格3~4年,给予通报批评;影响恶劣的,并取消项目申请资格4年以上至无限期,给予通报批评”[21]。

       4 图书馆参与科学数据验证的案例分析

       国外研究型大学图书馆十分重视研究人员的科研诚信和学术道德规范,在科学数据管理过程中注重对科学数据背景信息完整、准确的收集、组织和储存,目前已有较多高校图书馆业务内容涉及科学数据验证服务部分。

       4.1 美国新墨西哥大学图书馆

       新墨西哥大学图书馆主持的DataONE(Data Observation Network for Earth)项目,是首批获得美国国家自然科学基金委员会(The National Natural Science Fund Committee,NSF)资助的项目之一,也是高校图书馆参与科学数据管理实践的成功案例之一,图书馆在科学数据管理生命周期的数据确认阶段、数据保存阶段的业务内容拓展到了科学数据验证阶段。

       4.1.1 数据确认阶段 DataONE项目是针对环境科学研究领域,目标是通过普及关于地球上生命和环境数据的获取渠道,促进科学知识的创新发现[22]。DataONE项目为了满足研究人员对环境监测数据的多样化需求,目前已完善了数据生命周期管理,创新性地提出了DataONE环境科学数据生命周期管理模型[5],主要内容包括图书馆员如何在整个数据生命周期对数据进行管理,例如在生命周期第三阶段,即数据确认阶段,图书馆建立数据输入质量确认原则和标准,数据输入质量是数据共享和数据重用的关键。新墨西哥大学图书馆通过VertNet工具包进行数据发布,通过GitHub工具进行数据问题跟踪和反馈,确保数据收集、录入正确无误。图书馆提供质量控制的最佳实践,对不同类型收集的数据采用不同的质量控制方式,对通过仪器获取的数据进行检查,确保数据值在合理范围内,例如浓度不能<0,风速不能超过的最大风速仪可以记录的速度等;分析结果数据或者在实验室获取的数据,应在分析方法的检出限以内并通过测量确保有效;观测数据则将其与现在和过去识别测量值对比,发现不可能事件,例如,树的周长不可能减少[23]。

       4.1.2 数据保存阶段 DataONE环境科学数据生命周期管理模型强调对数据不同阶段管理的说明和图书馆员参与数据生命周期不同阶段的指导作用[24],在数据保存阶段,新墨西哥大学图书馆利用其数据中心保存科学数据,要求使用统一的元数据描述标准,准确、完整地描述科学数据,建立数据存储质量的标准规范,对实验产生的科学数据进行再次检查和测试,确保科学数据的质量和保存的精准度[6];重视对不同来源的科学数据的整合与分析,发现异常数据、遗漏数据和错误数据并将其舍弃,将经过验证的有效数据提交给数据管理中心[25];支持研究人员上传并保存完整的原始数据,要求用户提供原始数据文件的只读格式,不得对原始数据文件做任何修改;针对不同类型的关键数据,如数据公式、数据表格等,图书馆可使用相关软件测试数据的完整性和一致性,促进数据发现和数据引用[26]。

       4.2 英国剑桥大学图书馆

       剑桥大学图书馆非常重视对研究人员科学数据验证的培训,针对考古学领域科学数据的开放获取,为了提高考古学一年级博士研究生管理科学数据的技巧,培养科学研究的学术道德规范,图书馆开设了科学数据管理培训课程——DataTrain[13]。

       4.2.1 数据选择和评估阶段 DataTrain课程包括8个模块,分别是创建和管理考古领域科学数据的概述、数据生命周期、处理和分析数据、权利和数据、电子文档和补充科学数据、数据存档复查、博士研究生数据管理计划、数据管理项目和专业数据,内容贯穿科学数据管理的整个生命周期,也可视之为考古学数据生命周期管理模型[6]。其课程内容重点关注科学数据的选择与保存,认为涉及图书馆参与验证科学数据的完整性内容[27],认为没有关于科学数据完美管理的组织或系统,科学数据需要不断验证和完善,例如在数据生命周期管理的数据选择和评估阶段,内容包括博士研究生研究数据的复查,应该保存哪些科学数据,如何保存准确的、真实的科学数据,摒弃错误的、不准确的或虚假的研究数据[6]。

       4.2.2 数据采集阶段 在数据生命管理周期的数据采集阶段,重点强调在科学数据收集时要确保研究活动背景信息的收集,保证科学数据的完整性,以便于科学数据的审核验证[28]。剑桥大学图书馆十分重视科研诚信,在官网主页界面上有关于“research integrity”的有效链接[29],内容包括研究诚信(research integrity)、研究伦理(research ethics)、良好的研究实践清单(good research practice checklist)、外部引导(external guidance)、培训(training)5个部分的内容。其中,研究诚信主要包含科研诚信声明部分、科研实践质量规范部分、作者指南部分等,极力倡导科研诚信和研究数据的完整性及真实性。剑桥大学成立了专门的研究伦理(research ethics)委员会,负责研究伦理道德规范的专业组织;DataTrain是剑桥大学图书馆提供科学数据验证培训的重要内容。

       5 结语

       在大数据时代,科学数据在科研活动中发挥着越来越重要的作用,科研诚信是科学数据质量的前提和保障。科学数据的完整性和真实性对科学数据的重复利用、数据引用、科研评价甚至科学发展的进程都有重要影响。高校是海量科学数据的产生地,科学数据的完整性和真实性亟待相关中立机构进行验证。国外一些高校图书馆在参与科学数据验证方面已做出一些探索和实践,并取得了良好的效果,国内高校图书馆作为参与科学数据验证的最佳机构,应该借鉴国外图书馆的相关经验,参与科学数据管理的整个生命周期,积极拓展科学数据验证业务,主动承担学术不端的部分责任,提高图书馆的地位并更好地服务科研,净化学术环境。

标签:;  ;  ;  ;  ;  

高校图书馆参与科学数据验证的前景分析_科学论文
下载Doc文档

猜你喜欢