美国社会科学数据管理联盟的发展与借鉴_数据管理论文

美国社会科学数据管理联盟(Data-PASS)的发展与借鉴,本文主要内容关键词为:数据管理论文,美国论文,社会科学论文,联盟论文,PASS论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      修回日期:2014-05-04 本文起止页码:117-121

      [分类号]G250

      DOI:10.13266/j.issn.0252-3116.2014.10.021

      随着e-Research的发展,数据密集型科研范式得到了广泛的关注,在社会科学(简称社科)领域,表现为定量化研究和复制性研究受到越来越多的重视[1],社会科学数据管理作为这种研究范式的重要支撑,将成为图书馆业务拓展的重要方向。在推进社科数据管理的过程中,各图书馆除自行开展数据管理外,更应通过联盟的方式,共同推动社科数据管理领域的合作与发展。美国社会科学数据管理联盟(Data Preservation Alliance for the Social Sciences,DataPASS)[2]作为全球最大的社科数据管理项目,其运作模式和成功经验为我国发展社科数据管理联盟提供了有益的借鉴。

      1 Data-PASS概况

      社科数据可能是世界上最早的数字资源,始于1890年的美国人口普查中,用于社会、经济、政治研究的数据首次被转化为数字化形式,以便于计算机技术的分析,并由此诞生了第一台制表机[3]。自20世纪60年代计算机化研究时代开始,图书馆、档案馆等可持续机构就对社会科学家使用的关键数据进行了保存[4]。但是直至21世纪伊始,社科数据管理在支撑新研究和重复已有研究方面仍存在重大不足:大量的机构从事社科数据管理,致使采集的数据不可避免地出现重复,各自为政的模式也使得各项目呈现信息孤岛的现象,造成用户检索利用困难;此外,也给各项目管理机构在人力物力的投入上造成较大压力。因此,在鉴别、采集、保存社科数据的过程中,需要建立面向未来的合作机构,以解决上述问题。

      2004年,Data-PASS应运而生,它是为社会科学研究而建立的数据采集、加工和长期保存的自愿性合作组织,是美国国家数字管理联盟(National Digital Stewardship Alliance,NDSA)的创始成员,得到了美国国家数字信息基础设施与保存项目(National Digital Information Infrastructure and Preservation Program,NDIIPP)的支持。其成员包括哈佛大学定量社会科学研究所(Institute for Quantitative Social Science,IQSS)、北卡罗来纳大学教堂山分校霍华德·奥德姆社会科学研究所(The Howard W.Odum Institute for Research in Social Science,Odum)、密歇根大学政治与社会研究校际联盟(Inter-university Consortium for Political and Social Research,ICPSR)、美国国家档案和记录管理局电子与特殊媒体文件服务部(The Electronic and Special Media Records Service Division,National Archives and Records Administration,NARA)、康涅狄格大学罗珀民意研究中心(The Roper Center for Public Opinion Research,Roper)、加州大学洛杉矶分校社会科学数据档案中心(Social Science Data Archive,SSDA)。成员加入时需签署会员协议,参加虚拟会议,同意Data-PASS收割系统采集其数据。各成员保持独立的合作伙伴关系,使Data-PASS形成联邦结构[5]。

      Data-PASS的最初目标是通过可持续发展模式,建立长期保存的信息基础设施,以抢救存在遗失风除的社科数据,并相互保障数据安全。然而,随着项目的进行,它将关注点从遗留的或存在风险的社科数据转向了当前或未来研究中将产出的数据。如今,其目标主要是对社科研究与发展提供资助,同时对社科数据管理的领导、运作和维护提供少量资助,并为合作伙伴起草数据存储标准,为数据长期存取提供各种技术解决方案。此外,对提高数据再利用率进行规划。

      Data-PASS由ICPSR牵头负责管理、交流、预算和提交报告,并设立了督导委员会和运营委员会。督导委员会由各成员负责人及其代表组成,负责联盟的合作方向与管理方面的重大决策,并承担联盟的日常管理工作,必要时还会邀请国会图书馆工作人员参加会议。运营委员会由各成员代表组成,负责发展与协调成员间的合作,制定标准,采集数据及日常编目等工作,同时,还要发现影响数据选择、采集和传播的潜在问题并提出解决方案。除这两个委员会之外,还建立了两个咨询委员会,一个由代表私立研究机构的成员组成,另一个由代表大学研究机构的成员组成[6]。各成员在决策上具有同等的权利。

      Data-PASS的资金来源于NDIIPP和所有成员的出资。在经费支出方面,除NARA外,其他成员根据运营委员会确定其承担的建设内容,从Data-PASS获取相应的经费。

      2 数据管理规范及其流程

      Data-PASS管理的社科数据主要包括:民意调查、投票记录、家庭增长与收入调查、社交网络数据、政府统计数据与指标以及衡量人类活动的地理信息数据[2,7]。各成员向Data-PASS提交数据,但保留数据所有权。Data-PASS制定了详细的数据管理流程,主要包括数据选择标准、数据来源、数据鉴定、数据获取、数据引用等几个方面:

      2.1 数据选择标准

      2005年,督导委员会发布了数据选择标准[8]:经典的社科数据,或注定要成为经典且存在遗失风险的社科数据。具体包括下列研究所产生的数据:高被引社会科学研究,高被引社会科学家的研究;在理论上或方法上有重大突破的研究;基于国家样本、重要地区样本或历史上较少代表性群体样本的研究;开创性研究的组成部分;偶然性事件的研究。

      2.2 数据来源

      Data-PASS将数据来源分为如下几种不同的类型,并根据各成员的数据管理基础,由其分工负责对这些不同来源的数据进行追踪、鉴定、采集、加工。

      2.2.1 以大学为基础的社科数据 包括ICPSR、穆雷研究中心、奥德姆研究所和罗帕中心的专家建议的数据以及学术界建议的数据。在主要的社科领域,ICPSR邀请权威学者组成特别顾问委员会,以协助识别其各自领域应当保存的重要数据;对密歇根大学调查研究中心主要的历史性调查数据进行鉴定;对SSCI数据库和网上没有长期保存计划的重要数据进行检索、采集、保存。罗珀中心负责对全国民意研究中心主要的历史性调查数据进行鉴定,对罗珀中心追踪数据库中的7 000余个调查数据进行审核。

      2.2.2 联邦政府资助项目的科研数据 ICPSR负责对CRISP(Computer Retrieval of Information on Scientific Projects)数据库中的数据进行审核,主要是1972~2003年由美国国家卫生研究院(National Institutes of Health,NIH)资助产生的数据;同时,还对美国国家科学基金会(National Science Foundation,NSF)资助产生的数据进行审核。

      2.2.3 联邦政府的科研数据 NARA和罗珀中心负责清点、审核美国新闻署1953~1999年间的民意调查数据;此外,还对NARA认定的联邦记录进行清点、审核。

      2.2.4 政治过程数据 即政治活动中产生的数据,其中,ICPSR负责对选举与投票数据以及第105~107届国会点名投票记录进行采集;奥德姆研究所则负责州和地区民意数据的采集工作。

      2.2.5 私立研究机构的数据 奥德姆研究所负责对RTI国际的所有历史性调查数据和哈里斯(Harris)民意调查公司的双月民意调查数据进行鉴定。该研究所还致力于成立私立研究机构咨询委员会,以便建立私立研究机构的电子数据鉴定与选择标准。

      2.2.6 专业档案中的弱势数据 专业数据档案由ICPSR负责清点。为此,ICPSR需要联络大学社科部门、专业性学术组织,或进行网络检索,以便发现并获取这些数据。

      2.3 数据鉴定

      Data-PASS在数据鉴定与评估过程中采用了分散合作的模式,有利于充分发挥各成员在数据资源类型和数据来源方面的专长。其具体流程是:各成员向Data-PASS的主数据库提交数据鉴定来源信息,运营委员会集中对数据集进行鉴定,数据的鉴定以评估指南为依据,包括:数据对学术界的意义、数据来源及其上下文的含义、数据的唯一性与可用性,等等。委员会对主数据库中的数据集进行审核后,编制数据清单。对于确定要收购的数据,运营委员会将根据成员的数据管理目标与管理基础,由各成员根据清单分工负责数据的采集、加工与保存。

      2.4 数据获取

      数据的获取通常包括如下几个步骤:审查评估清单、验证数据内容、审查数据保密性、提交收购材料、清点收购。根据采用步骤的多寡,Data-PASS将数据获取分为3类:①最简程序:通常是数据托管人已经完成了大部分程序,如果数据适合于公开,就将其提供给研究人员利用,不需要或较少需要进行进一步的处理。②常规程序:针对那些同当前的研究、政策或实践相关度不是很高,但有一定的当前价值或潜在的未来价值的数据,按照如上几个常规步骤进行数据获取。③精深加工程序:对重要研究项目的数据,或者是濒危格式的数据,在处理过程中,采取更为严谨的方式,例如对数据内容差异的检查,要联系数据生产者或其代表、或数据集的关联人,与数据相关的文献也要同数据一并进行处理。在质量检测后对数据及其文献进行打包,并长期保存;同时制作两个磁带备份,一个就地存储,另一个异地存储。对于不适合传播的数据,则只能保存。

      2.5 数据引用

      Data-PASS致力于推动数据引用,以促进数据再利用。Data-PASS建立的虚拟数据中心(Virtual Data Center)是系统支撑永久数据引用的第一个数字图书馆系统。此外,它还提出了一套数据引用的原则和标准,建立了Dataverse Network平台,为各种内容的数据引用提供稳定的、可检验的开放式信息基础设施。如今,Data-PASS应邀与期刊出版社、科研资助机构和仓储机构一道推动学术界的数据引用和数据开放,同时,面向开源出版期刊整合相关开源软件,以支持数据开放和数据引用[9]。

      此外,Data-PASS对元数据版权与许可、数据保密、数据安全、脆弱材料的处理、数据托管、监护数据的鉴定与收购、数据鉴别目录与清单等方面也制定了相应的规范。

      3 数据管理平台

      在数据管理平台建设方面,Data-PASS建设了3个平台:①主数据库:各成员将其拟保存数据的来源信息上传至库中,供运营委员会审核。②Dataverse Network平台:各成员全部数据的联合目录,是Data-PASS数据管理与服务的核心平台,提供分类导航、基本检索和高级检索3种检索方式。在分类导航方式下,可浏览各成员不同类别数据集中的数据;基本检索供用户在检索框中输入检索词,系统执行全字段检索;高级检索有19个检索途径,可选择检索单个或全体成员的数据。对检索结果,可从来源数据库、主题分类、作者、机构等9个途径进行筛选。允许用户下载数据,但受限下载的除外。Data-PASS提供数据引用格式,复制后可作为参考文献来源。③SafeArchive平台[10]:2013年6月,Data-PASS积极响应NIH的数据管理需求,开展基于政策驱动的数据监护服务[11],与NDIIPP共同投资开发了该平台,供用户按相关政策要求将数据提交到平台中进行保存。该平台目前已成为开放式资源工具,可供图书馆、博物馆和档案馆使用。

      Data-PASS原本打算采用DC等较为简洁的元数据标准,但由于社科数据专业性强,属性多样,使用软件需提供数据引用、在线分析和深层次再加工等功能,致使要求著录的元素尽可能详细,最终根据DDI(Data Documentation Initiative)元数据标准确定了可选元素。同时,Data-PASS尽可能选用现有的标准、模型和协议,而不是创设新的元素;努力找出核心元素,并使之符合OAIS参考模型;保证模型和协议的开放性,以减少加入联盟的壁垒性障碍。

      4 Data-PASS的经验及其借鉴

      4.1 广泛的合作关系

      Data-PASS的成功在很大程度上得益于NDSA和NDIIPP的支持,使社科数据管理纳入到国家层面的发展战略中,进而获得稳定的资金支持和项目的可持续发展。Data-PASS采用开放、低壁垒的合作模式,对各级别组织和技术参与保持开放,成员可以最低成本加入联盟。其成员以ICPSR为核心,包含大学研究机构和政府部门的NARA,其中,ICPSR拥有700余家会员[12];此外,还同诸多私立研究机构进行合作。这种广泛的合作关系,增加了其经费数额,拓宽了数据来源,分享了彼此的技术与经验,并将广大的数据生产者和数据消费者联系在一起;通过重复保存制度,成员间相互保障数据安全,在制度和技术层面降低了成员信息设施的成本和数据毁损风险。此外,联合目录还扩大了成员数据的知名度。

      反观我国,虽然已建立了包括CALIS、CASHL、NSTL等在内的多个全国性图书馆联盟,但大都局限于图书馆领域,同档案馆、博物馆等机构缺乏合作,且存在条块分割、各自为政的情况,在数字化保存领域缺乏国家层面的顶层设计和统一领导。因此,我国有必要建立国家数字保存战略。一方面,对我国数字保存进行整体规划,将社科数据管理纳入其中并予以资助;另一方面,积极推动国家相关部委、科研资助机构、大学、期刊出版社等制定各级层面的数字保存政策,从而推动我国社科数据管理的发展。

      4.2 有效的分工协作机制

      Data-PASS成员之间在社科数据管理目标上存在相关且互补的关系,各自有着不同的关注领域[5],这种差异性成为成员间分工协作的基础。成员在数据管理过程中,分工推荐各自关注领域的社科数据,运营委员会集中审核后,各成员再根据审核结果各自进行数据采集与加工工作。这种分工协作的模式保障了数据鉴定、采集、加工的高效性,同时又避免了数据重复采集和保存的资金浪费。

      我国社科数据管理联盟在成员间的分工上,宜以各自所在单位的数据管理为主,对成员外的社科数据,应通过协商机制,明确各自关注的领域,分工协作,避免重复。

      4.3 经费保障与分配机制

      稳定的经费保障与合理的利益分配机制是社科数据管理联盟成功运行的重要因素。NDIIPP的资助和所有成员的出资使得Data-PASS有了稳定的经费来源;同时,各成员根据所承担的建设内容从Data-PASS获取经费,又有利于调动成员的积极性。

      鉴于此,我国社科数据管理联盟应积极争取国家社科基金委员会、教育部、科技部等政府部门的资助,以期获得稳定的经费来源;另一方面,科研资助机构可在项目经费管理办法中规定,项目承担人提交数据时,可从项目经费中向数据管理部门缴纳数据管理费用。此外,会员单位应缴纳会费,同时,向联盟提交数据时可从联盟获得相应的经费。

      4.4 标准规范与平台建设

      Data-PASS的成功,在很大程度上源于一套完备的制度与规范,包括精简的加入协议,灵活的组织架构与工作制度,完备的管理流程规范与指导方针,涵盖了从馆藏发展战略到数据鉴别、评估、采集、加工、数据保密与数据安全等各个阶段,这些制度与规范保障了整个项目的运作。此外,Data-PASS建设的3个平台,彼此联系,分工协作,既保证了采集数据的质量,又为那些未被采集的数据提供了保存平台。

      我国社科数据管理联盟在标准规范建设方面,应尽量与现有的数字图书馆标准规范,如已有的“我国数字图书馆标准规范建设”[13]相统一,同时在该标准体系中增加社科数据管理特有的标准规范。在平台建设方面,我国社科数据管理联盟应提供统一的管理平台与技术支撑,包括联合目录系统、网络安全技术和信息处理技术。除联合目录系统外,全国中心还可以提供数据托管平台,供没有实施数据管理的单位或个人按照相关政策将数据托管在该平台中。同时,全国中心还应根据数据类型,建立专题数据管理平台,如建立GIS(Geographic Information System)平台,对具有时空属性的人文社科数据按单条记录进行管理,并提供数据在线分析功能。此外,还可以同谷歌等搜索引擎合作,让用户通过搜索引擎即可以发现数据,从而提高数据的知名度和影响力。

      5 我国社科数据管理联盟规划的设想

      在我国,作为在全国人文社科机构与人员中占比达85%以上的高校[14],是社科数据生产与消费的主要群体,因此,我国社科数据管理联盟应以高校为主轴、以CASHL为依托进行建设,同时,加强与档案馆等其他信息服务机构的合作,共同构建“全国中心-省级中心-数据管理单位”的三级联盟体系,如图1所示。

      

      图1 社科数据管理联盟体系架构

      全国中心的职责主要是对我国社科数据管理进行整体规划,制定相应的标准、规范和数据加工流程等制度,提供统一的数据管理平台和技术支撑。根据DataPASS的经验,对社科数据的鉴定、审核需要进行集中讨论、决定,因此,我国社科数据管理联盟宜以省级中心为核心,以方便对各数据管理单位的数据集中进行鉴定、审核。社科数据管理联盟体系的第三级单位,主要包括大学图书馆、大学档案馆、政府档案馆、社科院图书馆、党校图书馆等,这些单位可以机构知识库的方式对本单位的社科数据进行管理,同时向省级中心提交数据目录,供省级中心鉴定、审核,并对确认的数据予以采集、加工,上传至全国中心的数据管理平台中,形成全国社科数据联合目录。

      为调动各数据管理单位加入联盟的积极性,可采用会员制方式,共建共享,会员单位可检索、浏览、下载联合目录中的数据(保密数据除外);非会员单位则仅能检索、浏览数据,不能下载。

      除以上几方面外,我国社科数据管理联盟还应借鉴ICPSR的用户教育模式,通过暑期班、研讨会等形式,加强对科研用户和图书馆员的培训,一方面,提高研究人员数据共享与数据利用的意识;另一方面,提高图书馆员数据管理与数据服务的技能。此外,图书馆还应通过嵌入式学科服务,将数据管理嵌入研究人员的科研活动中,在科研项目申报阶段即着手开展数据服务与数据管理工作。

      6 结语

      Data-PASS的成功为我国建立社科数据管理联盟提供了有益的借鉴。高校图书馆作为可持续的信息服务机构,在资源、技术、设备和人员等方面具有数据管理的天然优势,各高校图书馆应尽快加强联系,同档案管理部门、科研单位等进行跨界合作,共同推动社科数据管理联盟的建立。同时,应将遗留社科数据的管理同科研过程中的数据监护一并予以规划、实施。此外,还应在制度和技术层面深度合作,以免各自为政,造成技术标准和平台的混乱,给后续的合作造成障碍。

标签:;  ;  ;  

美国社会科学数据管理联盟的发展与借鉴_数据管理论文
下载Doc文档

猜你喜欢