高校社会科学数据管理的国际经验及其借鉴——以UKDA和ICPSR为例,本文主要内容关键词为:数据管理论文,为例论文,社会科学论文,高校论文,经验论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
科学数据是一个国家的战略资源,是科学研究的基石和保障。对于研究机构与研究人员而言,是科学研究的基础资源。学术研究与话语权必须建立在科学实证的基础上,而实证数据资源对于打造国际水准的文化高地具有重要意义[1]。在社会科学领域,社会科学家也需要继续共同建立开源与相互协作的基础框架以确保数据分析和共享更为容易[2],以促进社会科学的进步和繁荣。从科学研究生命周期而言,科学数据既是科研的起点,也是科研产出的成果,科学数据管理既与一般文献资源管理紧密联系又有明显的区别,因此需要变革传统的文献资源收集、组织与服务模式。
欧美一些国家不遗余力地进行社会科学数据的管理与服务,早在1947年美国就建立了世界上第一个数据档案管理部门——罗普中心(Roper Center)[3],NSF要求从201 1年开始资助的科研项目均要有数据管理计划。目前在国际社会科学数据组织联合会(International Federation of Data Organizations for the Social Science,简称IFDO)和欧洲社会科学数据存储委员会(Council of European Social Science Data Archives,简称CESSDA)注册的国家级社会科学数据管理机构会员已达35个。高校是科学数据的重要来源,也是科学数据主要使用者,一些世界著名大学如麻省理工学院、哈佛大学、约翰霍普金斯大学等均已建立科学数据库,开展科学数据管理与服务。其中不乏一些著名的社会科学数据库,如加州大学洛杉矶分校的社会科学数据存储(Social Science Data Archive)、坦佩雷大学(University of Tampere)的芬兰社会科学存储(Finnish Social Science Data Archive)、奥克兰大学(University of Auckland)的新西兰社会科学数据服务(New Zealand Social Science Data Service)。本文选择社会科学数据管理的典范——英国国家数据存储(The UK Data Archive,UKDA)与美国高校校际政治与社会研究联盟(Inter-university Consortium for Political and Social Research,ICPSR)作为研究对象,分析其基本经验,为我国高校科学数据管理提供借鉴。
1 UKDA与ICPSR的发展现状
1.1 UKDA与ICPSR简介
UKDA建立于1967年,是英国国家级科学数据存储中心,也是英国最大的人文社会科学数字数据收藏机构,是由英国埃塞克斯大学(University of Essex)负责建设,同时也是其学术机构,并由经济与社会研究会(Economic and Social Research Council,ESRC)联合信息系统委员会(Joint Information Systems Committee,JISC)、国家档案局(the National Archives)合作建设,经费来源主要是上述几个机构。UKDA数据资源丰富,类型丰富,涵盖社会科学、人文科学、环境保护等各个领域。UKDA具有明确的发展理念及功能定位,将收集、存储、组织和再利用科学数据作为自身发展的使命。UKDA在社会科学数据收集、数据分析、共享、技术创新、元数据标准等方面实施或参与了一系列项目,如Research Data@Essex、Data without Boundaries。
ICPSR成立于1962年,隶属于密歇根大学,其设置的目的是在社会科学研究领域提供科学数据获取、数据管理及数据分析方法的训练。ICPSR约有700个大学、政府机构等会员单位,会员单位的师生及其他人员可以直接获取ICPSR数据资源及其他服务,其经费主要来源于会员会费、赞助费,2011—2012年的年度经费总投入19 713 277美元,总支出18 945 093美元[4]。
1.2 UKDA与ICPSR建设的基本内容
UKDA和ICPSR分别作为英美两国各自最大的社会科学数据管理项目,表1分别从发展目标、管理方式、服务模式、管理政策、合作交流几个方面进行比较。
从表l可见,两者具有很多相似之处,例如数据元数据标准主要采用DDI(Data Documentation Initiative)进行描述,DDI从整个数据生命周期进行资源组织与质量控制,DDI与数据加工过程即数据概念化、数据收集、数据加工、数据分发、数据发现、数据分析、数据再利用与数据存储过程相一致[7]。但是,两者在资源特色方面具有一定的差异性。
2 国外社会科学数据管理的基本经验
2.1 基于科学数据生命周期的数据管理
科学数据管理区别于一般的文献信息管理,无论是e-Research下的数据生命周期模型还是DCC的数据管理生命周期模型,从内容层面看,一个完整的数据生命周期包括数据加工和知识抽取两个层次,数据加工是知识抽取的基础。数据加工又包括数据初次加工和数据再加工,前者包括数据存储系列环节,后者则是在一次加工基础上增加附加值。在知识抽取方面,主要是在数据获取基础上进行的一系列高级活动,包括数据挖掘等知识发现活动[8]。UKDA数据管理的生命周期包括数据创建、数据加工、数据分析、数据保存、数据存取、数据再利用六个阶段[9]。具体而言,(1)数据创建包括研究设计、数据管理规划、数据共享协议规划、本地数据存储、数据收集、元数据创建;(2)数据加工包括数据录入、数字化、转录、翻译等,数据核实与清理、数据描述、数据存储等;(3)数据分析包括数据注解、数据萃取、研究成果产出、作者出版、数据保存准备等;(4)数据保存包括数据格式转换、数据存储媒介选择、数据回溯与存储、元数据创建等;(5)数据存取包括数据分发、数据共享、获取控制、建立版权、数据促进等;(6)数据再利用领域主要包括跟踪研究、新的研究、研究述评、研究发现审阅、教学等。ICP-SR数据管理生命周期模型大致与此类似。正是基于数据的生命周期,社会科学数据的组织(主要是DDI)、数据服务(数据存储、检索、交换、再利用、分析)、数据的管理政策才得以有序、有效地展开。
2.2 完善的科学数据管理政策
科学数据管理离不开完善的政策支持,包括宏观和微观两个层面:(1)宏观科学数据管理政策法规,为科学数据共享提供法律上的依据,如英国信息自由法、欧盟数据库指令奠定科学数据共享的法律基础;《布加勒斯特宣言》、《公共资助科学数据开放获取宣言》以及《网络经济的未来:首尔宣言》有关公共数据共享的指导思想奠定了科学数据共享的指导思想和原则[10]。英国各种研究委员会、政府部门和大学、研究机构等都制定了各自的科学数据共享政策,这些法规政策构成了英国完善的科学数据共享的法律政策保障体系。(2)微观数据资源发展与管理政策主要体现在两者的馆藏发展政策之中。UKDA馆藏发展政策从背景、馆藏范围、数据集评价标准、馆藏发展策略、数据馆藏采集方法与程序作了详细规定;ICPSR馆藏发展政策主要包括用户群体识别、馆藏建设负责人、馆藏选择标准、馆藏发展重点、馆藏评价标准(数据可获取性、安全隐私保密事项、版权及其它法律问题、数据质量、数据格式、经费)、馆藏数量核查、合作交流等方面[11]。UKDA数据保存政策从目的、目标与范围、法律法规依据、作用与职责、模型、保存规划与策略、IT结构、安全性、合作、资金与资源规划10个方面阐述了其数据保存的政策,ICPSR也制定了资源保存政策框架。此外,两者均制定了数据服务政策,对服务内容、服务方式进行了规定,同时强调数据伦理,开放数据、保密数据、个人隐私数据等均有相应的规定与保密协议。
2.3 嵌入教学科研,注重数据服务
UKDA与ICPSR的服务方式主要有5种:(1)数据查询与下载服务,如UKDA数据查询与下载服务内容包括提供主要的经济与社会数据、英国统计局1971—2001年间统计数据、农村研究数据管理等,同时开发了NESSTAR系统(Networked Social Science Tools and Resources),实现数据在线发布与检索;(2)科学数据通报,UKDA自1975年起发行UKDA数据通报,自2007年起发行三个月一期的电子报,交流推广经验;(3)科学数据存储服务,主要为数据创建者提供在线指导,为其科研数据提供保存;(4)科学数据分析服务,提供数据在线分析,如利用SPSS统计分析,并产生数据引文(Data Citations);如ICPSR与DataPASS、DataCite合作制订数据引文标准,从题名、作者、日期、版本、唯一标识符规范数据引文格式,确保科学数据能够被发现、再利用、准确地复制、可信地识别、跟踪测量使用情况及影响力[12];(5)科学素养教育,通过举办培训班提高用户科学数据素养,自2010年开始,UKDA举办数据使用案例征集活动,鼓励使用者分享如何从UKDA中查找数据并应用于教学或科研的经验[13]。ICPSR同样也非常注重数据的有效使用,自成立之初便开始举办社会科学定量分析方法夏季项目(ICPSR's Summer Program in Quantitative Methods of Social Research),旨在从科学研究流程提供数据使用的指导,其指导委员均来自美国加州大学伯克利分校、宾夕法尼亚大学等名校的社会学、心理学、统计学和政治学的教授。可见,与数据创建者、数据使用者相配合,与教学、科研活动紧密相联,是其服务的基本特点。
2.4 广泛合作与交流
社会科学数据分布广泛,需要国内跨机构跨学科的合作,也需要国际交流与合作。UKDA 一方面与英国艺术与人文研究委员会(Arts and Humanities Research Council,简称AHRC)、ESRC、JISC、国家统计局以及其他关键的政府数据提供者,同时也与英国e-Social Science国家中心、研究方法中心保持密切关系。另一方面,UKDA是欧洲社会科学数据存储理事会和国际社会科学信息服务与技术联合会(International Association for Social Science Information Service and Technology,简称IASSIST)的会员,在项目合作和国家之间的数据交换和技术方面,如数据共享、元数据、社会科学主题词工具等进行广泛的合作。而ICPSR自身就是一个联盟机构,由美国、加拿大乃至英国高校机构、政府部门组成,合作对象也极为广泛,如美国人口研究数据共享中心(Data Sharing for Demographic Research)、美国国家吸毒与HIV数据存储项目(National Addiction & HIV Data Archive Program)、美国少数民族数据资源(Resource Center for Minority Data)。
3 关于我国高校社会科学数据管理的思考
在我国社会科学领域,少数高校建立了社会科学数据中心,如成立于2009年3月的中国人民大学中国调查与数据中心、清华大学中国经济社会数据中心、复旦大学人文社会科学数据中心,都致力于高校社会科学数据管理与服务,但是与欧美等国相比存在一定差距,主要表现为:数据资源种类单一,集成度共享度不高;缺乏完善的科学数据管理与服务政策体系;缺乏统一的社会科学数据组织标准规范;数据管理与科研人员科学数据素养不高;缺乏再利用意识等。从上述的基本经验总结中可得出如下基本启示。
3.1 重视社会科学数据再利用与共享
我国社会科学数据的产生来源主要包括:(1)国民经济部门科技活动产生的数据资源,如人口普查、经济统计数据等。可借鉴国外经验,高校科学数据管理应与政府部门、科研院所、国际科学数据管理组织建立密切联系,共同开发数据资源,制定数据管理政策及标准规范。(2)科研人员科学研究中收集、分析、实验产生的科学数据成果,经长期累积和系统分类组织后便会形成重要的科学数据资源。这些数据资源主要集中在高校,但是这一数据来源往往被忽视,没有很好地被再利用与共享,重复采集,造成资金、人力资源的浪费。社会科学数据再利用方式应分为保密数据、半开放、开放数据,半开放、保密数据按照级别提供目次服务,开放数据应以公益性为目标提供服务。2010年2月,Peter Murray-Rust等科学家发布数据共享的Panton原则,认为开放科学数据是指这些数据应该能通过因特网被任何人以任何目的自由地下载、复制、分析、再加工、导入软件,并且没有资金、法律、技术以及上网条件的障碍[14],在今后科学数据开发中应倡导这一原则,社会科学数据共享促进社会科学研究。此外,参考国外经验,深度开发利用数据资源,提供知识抽取、数据分析、数据引文等深层次服务。
3.2 制定相应的科学数据管理政策
《高等学校哲学社会科学繁荣计划(2011—2020年)》指出:“加强高等学校社会调查、统计分析、基础文献、案例集成等专题数据库建设,推进人文社会科学优秀学术网站建设,加强与现有信息服务机构的衔接,推动哲学社会科学研究信息资源的共建共享”[15],社会科学的繁荣与发展需要数据资源的保障,需要相应的政策来支持、保障与管理。国外经验表明,国际组织、欧美等国政府为支持和促进科学数据的有效管理和共享,纷纷将科学数据管理与共享提升到战略高度,制定了相应的原则、计划、法律和政策。我国科学数据法规政策可以按照科学数据管理与共享活动的“数据产生与汇交、数据保管与使用、数据共享评估与监督、数据共享保障四个领域”[16]构建,即数据的收集、管理、组织与服务政策。科学数据管理政策法规有利于打破壁垒,实现科学数据共享、权益管理等。高校科学数据管理机构也需要制定馆藏发展政策、数据保存政策、用户服务政策等,从业务层面规范数据管理活动,如社会科学数据元数据标准按照国际统一标准DDI进行描述。
3.3 统筹规划国家各级社会科学数据中心
我国是数据大国,但不是数据强国,因此建立各级社会科学数据中心,有效整合各种类型、各行业的社会科学数据资源,为人文社会科学繁荣提供支撑,是十分必要的。这就需要“国家协调、体制创新、稳定投入、政策法规、科学管理”,建立起我国人文社会科学数据管理与服务体系。我国文献资源共建共享实践经验为社会科学数据管理奠定了良好基础,同时,国外成熟的管理模式及经验也具有重要的参考价值。
具体而言,一是统筹规划若干国家级社会科学基础数据库,奠定社会科学数据管理基本框架与资源基础,与CALIS、CASHL、CADAL等一起成为我国人文社会科学研究的数据保障、文献保障中心。正如林毅夫所言:“综合性数据平台既是一个国家社会科学学术研究的基础,也是一个国家科学决策的重要依据……搜集、开发、运用综合性社会经济数据不仅需要一支跨学科的庞大专家和辅助人员队伍联合协作,也需要大量的财力支持。以中国家庭动态跟踪调查为例,完成一次调查对经费的需求绝不逊色于任何实验科学的一项大型实验。没有国家的财力支持,这样的调查是无法实施的[17]”。二是有条件的高校,建立本地(社会)科学数据机构知识库,系统收集、有效组织并提供利用本校优势特色数据资源,遵循国际标准规范,为全国范围数据资源共享奠定基础。
3.4 实施科学数据素养教育
科学数据素养是指科学研究中收集、加工、管理、评价和利用数据的知识与能力。科学数据素养虽然与信息素养、数字素养类似,但是科学数据素养主要关注数据收集、加工、管理、评价与使用的多种能力,而非基于文献价值,强调在科学研究中对数据产生、操作和使用数据集的能力[18]。科学数据管理围绕科学研究的生命周期进行,需要提高数据管理人员的科学数据素养,提高科学数据统计分析能力,能够评价数据可信度、完整性、权威性,并提供给研究人员使用。如美国雪城大学启动了由NSF资助的科学数据素养项目,旨在评价科学数据素养教育的需要,构建有关科数据及其生命周期的学习策略、技术与材料,评价学习材料与教学方法的有效性,课程实施经验总结与交流[19]。数据的管理在于使用,数据管理周期需要科研人员、数据管理人员的全程参与,数据管理机构可通过举办各种数据分析培训、制订数据保存与使用标准与指南等各种形式,针对具体的科研活动,提高科研人员科学数据素养,增强其数据再利用意识,提高数据获取、分析与评价能力。