美国社会科学数据的共享与服务_社会调查论文

美国社会科学数据的共享与服务,本文主要内容关键词为:美国论文,社会科学论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

社会科学数据对于国家政策的制定和社会研究具有很大的价值,为进一步了解美国一流社会科学数据机构的发展状况,学习和借鉴其先进经验,复旦大学社会科学数据中心调研组于2012年9月下旬对美国几所一流的社会科学学术机构进行了实地调研,包括芝加哥大学全国民意调研中心(National Opinion Research Center,NORC)及综合社会调查项目(General Social Survey,GSS)[1][2],密歇根大学社会研究院(Institute for Social Research,ISR)及校际政治和社会科学研究联盟(Inter-university Consortium for Political and Social Research,ICPSR)[3][4],俄亥俄州立大学的人类资源研究中心(Center for Human Resource Research,CHRR)[5],哈佛大学社会科学定量研究所(The Institute for Quantitative Social Science,IQSS)及其下属的哈佛-麻省理工社会科学数据中心(Harvard MIT Data Center,HMDC)[6][7]。调研过程中重点考察了上述机构的历史渊源、组织结构、运营模式、数据共享平台、数据长期保存与监护、数据处理规范等方面。

2 概况

2.1 NORC和GSS项目

总部位于芝加哥大学的NORC成立于1941年,是一家非营利性社团法人组织,但采用商业公司的模式进行运营管理。目前共有员工160名,分布于1个行政管理部门和6个研究中心,包括:政治与社会研究中心、老龄化与经济研究中心、文化政策中心、教育研究中心、社会组织研究中心、人口研究中心等。70余年来,NORC主导的社会调查涵盖社会、经济、政治、教育、医疗等方面,其调查数据及分析报告对美国经济社会的政策制定具有举足轻重的影响。

1972年创立的GSS项目是NORC最重要的标志性调查项目,至今已完成了29轮调查,记录近40年来美国社会的变迁。GSS是迄今为止美国国家科学基金资助的最大的社会研究项目,它的数据在社会科学领域的使用率仅低于人口普查数据,位居第二位。据统计,至今已有超过1.4万个研究项目使用了GSS数据,每年有约25万名学生在社会研究相关课程的学习中使用GSS数据[8]。

1984年,GSS联合其他国家的社会调查项目发起成立了国际社会调查协作项目(International Social Survey Programme,ISSP),至2012年已有49个国家和地区加入。ISSP的成员国家及地区约占全球人口的60%,全球GDP的80%。

就组织结构而言,GSS的理事会是指导与监督机构,分管GSS的财政预算、决策、行政等方面。GSS的理事会和大会成员广泛分布于各个大学和研究机构,大会成员由150人组成。理事会每年召开两次年度会议,负责提出备选的调查模块主题和该主题下的调查问题草稿,然后提交大会表决。

GSS的网站上提供有1972-2010年的共计28轮采集到的原始调查数据,并提供SPSS和STADA两种下载格式。历年的调查问卷的变量按照四种方式索引呈现:助记符号、变量顺序、学科主题、数据专题集。

除数据集之外,网站还提供与数据集相关的出版物,包括引用GSS数据集公开发表的文献的书目记录、GSS相关的年报、书籍、历年调查问卷等。

除了某些特别数据之外,历年的调查数据及出版物任何人均能获取,无需注册即可免费下载和使用。

此外,可用在线分析软件SDA和Nesstar在线处理GSS的调查数据。1972-2010年的数据,可链接到加州大学伯克利分校的在线分析系统SDA的网站上进行在线分析。1972-2006年的数据可直接在GSS的网站上利用Nesstar进行在线分析。

2.2 ISR和ICPSR、PSID项目

ISR成立于1949年,是目前世界上最大的社会科学调查与研究机构。ISR运行和管理着包括收入动态追踪调查(Panel Study of Income Dynamics,PSID)、健康与退休调查(Health and Retirement Study,HRS)等在内的全国性跟踪调查项目,维护着世界上规模最大的社会科学数据库。

ISR共有员工1000余人,其中教学与科研人员为250余人,采取大学与研究院“双聘”的方式。ISR设有一个服务中心和五个研究机构,分别为调查研究中心、ICPSR、人口研究中心、群体动力学研究中心及政治学研究中心。

ICPSR是世界上最大的社会科学数据中心,成立于1962年,最初在21所大学之间分享数据,如今在全球有700多个成员,包括大学和各种研究中心,其中有394个美国机构。收录的数据包括社会科学和行为科学的数据,不久的将来还将保存视频数据,提供7*24小时的不间断服务。ICPSR的主要工作包括:获取和存储社科数据、向研究者分发数据、数据的长期保存、提供定量方法的培训。自1963年开始,每年暑假固定在密西根大学安娜堡分校举行的夏季社会科学定量研究方法培训班,吸引着全世界师生前往学习与交流。

ICPSR委员会由成员机构推选组成,担当董事会的职能。每个成员机构有官方代表,官方代表联系ICPSR和成员单位的工作,每年召开代表大会。ICPSR有自己的章程和制度,其中章程规定了ICPSR的组织身份、组织目标、成员资格、管理架构和财务政策;而制度描述了ICPSR的成员机构的加入条件和利益,以及官方代表、委员会和ICPSR员工的责任和义务。

ICPSR共有大约120名员工,其中15名有博士学位,其他至少有本科学位,包括3名图书馆员,3名网站开发人员,16名计算机网络服务人员。

ICPSR目前存储有8000个数据集,超过500000个文件,每年增加300-400个数据集。数据的来源包括研究者存放的数据、资助机构授权、拷贝数据库、系列收藏等。专题数据集包括:儿童保育与早期教育关系研究、人口研究数据共享、健康和医疗保健档案、老龄化数据国家档案等。ICPSR不仅仅包含数据,还有与数据相关的书目记录,超过60000个图书、期刊文献、论文等的引文,很多出版物的全文等。来自ICPSR成员机构的任何人可获取所有的网站数据,非成员机构的研究者仅可以获取提到的专题数据。为了保护研究对象的隐私,有些数据信息的访问是受限制的。

ICPSR提供的服务包括:研究人员可以直接下载数据,将数据与根据数据发表的出版物通过DOI相连接,为用户提供免费的支持,开展定量研究方法暑期课程,网站提供在线学习中心(主要教授社会科学中的量化推理)。

PSID始于1968年,是美国历史最为悠久的两大跟踪调查项目之一。PSID启动初期,在全国范围内抽取了5000个家庭,18000个个人。40多年来,这些个人和他们后代的信息被持续采集,覆盖就业、财富、收入、支出、健康、婚姻、生育、抚养、捐赠、教育等方方面面,采集的变量超过50000个。PSID调查数据经过一定的隐私保护处理后,在网络上公开发布,研究者可以免费获取和使用。

PSID调查数据被全球的科研人员、政策分析家及教师等广泛使用,目前已发表了超过3000篇基于PSID的匿名审稿论文,论文作者包括多位诺贝尔经济学奖得主。许多国家由于认识到PSID的重要性而发起了类似调查,促进了跨国比较研究。2010年,PSID的成就被美国NSF确认为近60年来NSF资助项目中的60项重大进展之一。

2.3 CHRR和NLS项目

CHRR成立于1965年,是一家以社会调查研究见长的跨学科研究机构,管理和维护着美国历史最长的跟踪调查——全国跟踪调查(National Longitudinal Surveys,NLS)。

CHRR目前共有专职人员100余人,主要从事NLS调查、Survey Suite调查系统的开发、运行与维护、对外承接社会调查等工作。CHRR的专业特长主要在于调查设计、调查指导、数据采集与发布等,注重调查研究方法的创新,与政府部门、研究及教育机构等建立了广泛的合作关系。在基于社会调查的劳动力市场行为的经济学、社会学及心理学分析等研究方面处于领先地位,其研究结果对美国政府劳工政策的决策具有重要影响。CHRR同时也是NORC的技术支持提供者。

NLS是CHRR执行和维护的最大的长期跟踪调查项目,始于1966年。其在线数据库已成为经济学家、社会学家及其他学者研究劳动力供应、收入分配、求职与离职、劳动力市场不平等问题的重要工具,在研究政府劳工政策及各种社会心理等因素对劳动参与者的影响方面也极具价值。

NLS由美国劳工部的劳工统计局发起和最先资助,主要采集美国居民在劳动力市场的经历信息,至今已跟踪调查了超过5万名美国居民。每个NLS受访者队列均以美国特定年龄的人群为总体进行抽样,经过挑选和加权后得出全国性的结论。此项唯一性的调查可以为研究者提供分别针对成年男性、女性和儿童生活的重要方面的面板数据。

NLS调查数据可以在线获取。CHRR还创建和维护着一个关于NLS研究的资料库网站,提供近几十年来基于NLS调查数据的期刊论文、工作论文及学位论文的详细目录资料,极大地促进了NLS的研究和推广。

2.4 HMDC

HMDC的前身哈佛数据中心成立于20世纪60年代初,最初主要用来存放美国政府的数据,归属于政府的艺术和科学部。其在1996年签订了一项协议,将服务延伸到麻省理工学院的用户,允许他们存储和检索数据,并提供数据分析支持。之后更名为HMDC,2005年成为IQSS的成员之一。

HMDC收集了超过100TB的数据、音频和视频资料,它的网站拥有罗珀民意研究中心、ICPSR和沃顿的研究数据,用于服务美国人口普查网站、国家中心卫生统计局和特殊兴趣收藏公司等的数据档案。著名的亨利·A.穆雷研究典藏库源于哈佛的捐赠,用来永久保存IQSS定量和定性的研究数据,并为整个IQSS Dataverse网络提供物理存储。

1997年,HMDC完成了第一个网络版本的虚拟数据中心的项目。1999年,HMDC获得美国国家科学基金会和其他五家资助机构数百万美元的赠款,用于开发操作性更强、资源开放、定量研究数据的数字化图书馆。此后,HMDC从美国国会图书馆等处获得额外的补助和资金支持,继续研究和开发项目。Dataverse是2007年推出的在线数据平台,提供引用标准、数据归档和在线分析等功能。

HMDC通过IQSS Datavetse网站(http://dvn.iq.harvard.edu/dvn/)提供研究数据和结果的长期托管,使研究人员能够轻松地将社会科学数据以标准格式存储,让其他人更快速更可靠地审阅和复制实验结果。HMDC提供数据管理、研究方法和计划、软件培训、编程支持等方面的技术咨询,并开办统计讲习班。此外,HMDC还提供先进的计算设施和基础设施,其中包括功能强大且易于使用的研究计算工具、集群的计算能力、应用程序和服务器托管、现场计算机实验室。

3 社会科学数据共享平台及在线分析软件

美国社会科学数据中心拥有的数据平台分为两种:自建或采用成熟的软件产品。ICPSR的共享平台是自行研发,已有多年的历史,异常庞大,并不适合移植。当前比较成熟的产品有两个:Dataverse和Nesstar。除此之外,美国也有一些科研机构采用机构库软件Fedora和Dspace来存放科学数据。

Dataverse是哈佛大学于2007年构建的一个开源软件,能够对研究数据进行存储、发布、引用、发现和在线分析。这个项目由哈佛大学IQSS联合哈佛大学图书馆、档案馆、信息服务部门共同承建,信息部门提供IT技术支持,图书馆提供服务。

Dataverse使用DDI作为元数据标准,并拥有自己的在线分析模块,可存储的资源类型包括数据、论文等。它既可以作为研究机构或个人研究者存储、发布数据之用,也可以用于制定数据管理计划。目前,哈佛大学的IQSS和公共卫生中心等机构用Dataverse来典藏研究数据。此外,许多学者将Dataverse嵌入个人主页,储存个人的研究数据。

Nesstar系统由英国数据档案馆和挪威社会科学数据服务局共同开发,主要的功能由三部分组成:Nesstar Publisher、Nesstar Server以及Nesstar Webview,三者的关系图以及各个组件的功能如图1所示。

图1 Nesstar功能模块

Nesstar Publisher模块用来上传数据,对数据进行描述,并将数据发布到服务器上。Nesstar Server是一个Web服务器,同时对上传的数据进行索引。Nesstar Webview可以查看所有发布的数据,并支持以多种不同格式下载数据,同时也提供列联表分析、回归分析、区域显示、描述性统计数据的显示等功能。

笔者了解到欧洲普遍使用Nesstar软件来构建社会科学平台,如英国的数据档案馆以及旗下的经济和社会数据中心、德国的社会科学基础服务、荷兰的数据档案和网络服务、欧洲的社会科学数据联盟均采用Nesstar。

无论是自建平台还是Dataverse、Nesstar,均遵循元数据标准DDI,明确数据平台的数据访问、下载、上传、引用的规范及其允许的格式规范。

社会科学数据有相当一部分是调查数据,对其进行在线分析尤为重要,通过考察,主流的在线分析软件有两种,一是加州伯克利大学开发的SDA,另一个是上述的Nesstar。欧美的大部分社会科学学术机构使用这两个在线分析软件或者其中之一,如GSS和ICPSR的网站提供SDA和Nesstar两种在线分析工具。

4 数据保存和监护

我们访问的美国机构均非常重视数据保存和监护,NORC有专门的数据飞地(Data Enclave),用来保存研究人员的公开数据和私密数据,并提供长期监护。ICPSR的网站有专门的模块阐述数据监护,并参考开放档案信息系统模型制定数据监护方案,包括数据的选择与评估、数据相关重要信息的描述、数据的摄取与链接、分析方法与数据的变化、长期保存的标准与安全机制、访问与传播、灾难规划,以确保数据在50年后还能使用。ICPSR遵循“采用很多的副本保证资料安全”的战略,多个副本存放在不同的地点并保持同步。ICPSR亦采用数据飞地和虚拟数据飞地来存储科研人员的数据。HMDC辟有专门的托管服务,为科研人员提供数据保存与监护服务。

5 对我国的借鉴与启示

5.1 社会科学调查研究在美国已得到长期充分发展,国内差距巨大,需奋起直追

此次调研涵盖了美国最为著名的三家社会调查研究机构(NORC、ISR、CHRR),历史最为悠久的两大跟踪调查项目(NLS、PSID)以及一项最为著名的横截面调查项目(GSS)。

就管理运维机制而言,上述研究机构成立于20世纪的40-60年代,通过几十年的发展,已拥有成熟稳定的组织管理架构和专业的团队,资金来源众多,经费支持充足,部分机构已从最初的寻求赞助发展为自身能赢利维持;均海纳百川,广泛吸纳世界各地的机构成员,并与多个国家展开合作交流。从科学成就来看,它们所采集的调查数据已成为社会科学研究不可或缺的资料依据,所发展的定量研究方法已成为社会科学研究的主流方法之一。从社会影响来看,基于社会调查的研究成果已深深影响了美国政府社会政策的决策选择。

反观国内现状,起步晚,规模小,科学成就及其影响力远未形成气候,差距十分明显。这与我国社会科学调查研究长期未得到应有重视、国际交流历史较短不无关系。规范的社会调查对于社会科学研究的重要性已不言而喻,我们亟须拓宽战略发展视野,加强交流与学习,奋起直追。

5.2 引进成熟的数据共享平台、在线分析软件和数据管理规范

平台软件Dataverse和Nesstar以及在线分析软件SDA在欧美有众多的机构用户,经过多年的运行,已经趋于稳定且功能完善。我国的社科数据中心在构建共享平台时不必另起炉灶,可以引进国外成熟的数据共享平台软件产品或借鉴其主要功能,在此基础上结合自身需求进行定制开发。

经过半个多世纪的发展,美国的社科数据研究机构已经建立了全面系统的数据管理规范,包括数据提交、发布、典藏、引用、保存、监护、泄密数据的处理以及DDI元数据规范,对于一个数据中心共享平台的建设和后续发展至关重要。我国需要进一步派人去这些机构交流学习对方丰富的数据管理经验。

5.3 促进社会科学数据的共享

社会科学调查数据如果得不到研究应用,则调查本身就失去了意义。国外社会调查研究机构均十分重视调查数据的公开发布与方便获取,密歇根大学调查研究中心甚至把调查数据公开发布作为其选择调查项目的必要条件。几乎所有的调查数据经过一定的隐私保护处理后都可从社会调查研究机构网站上自由获取,一些网站还提供界面友好的在线数据查询、分析与图表展现工具,有效地促进了调查数据的开发与利用。

国内高校图书馆等学术型图书馆负有服务科研的职责,可在社会科学数据的元数据规范制定、共享平台定制开发以及监护方面发挥作用,促进社会科学数据的共享与服务,进一步深化图书馆的学科服务能力。

收稿日期:2013年4月23日

标签:;  

美国社会科学数据的共享与服务_社会调查论文
下载Doc文档

猜你喜欢