数据密集型科学研究范式的兴起与情报学的应对,本文主要内容关键词为:情报学论文,范式论文,科学研究论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
情报学进展系列文之七
1 数据密集型科学研究范式的提出
1.1 范式和范式的演变
1962年著名美国科学哲学家托马斯·库恩在他的著作《科学革命的结构》中系统阐述了范式的概念和理论。所谓范式,就是一种公认的模型和模式,是常规科学所赖以运作的理论基础和实践规范,是研究者群体在从事科学研究时所共同遵守的世界观和行为方式,是他们所共同接受的一组假说、理论、准则和方法的总和。范式的演变则表示科学研究的一套方法及观念被另一套方法及观念所取代。库恩对范式转换给予科学发展的推动作用尤其重视,他甚至认为:科学的发展不是靠知识的积累而是靠范式的转换完成的,一旦形成了新范式,就可以说建立起了常规科学[1]。
近半个世纪以来,科学范式理论对世界学术界产生了重大和深远的影响,很多学者都关注科学研究的范式,各个学科也纷纷开展自己的学科范式以及范式的应用研究。科学范式的价值不仅在于它描述了科学研究已有的习惯、传统和模式,还在于它提供了科学研究群体协同一致的、共同探索的纽带,它能够为科学研究的未来发展和进一步开拓奠定基础[2]。
1.2 科学研究第四范式的提出
2007年,计算机图灵奖得主吉姆·格雷(Jim Grey)在美国国家研究理事会计算机科学和远程通讯委员会(NRC-CSTB)的演讲报告中提出了科学研究“第四范式”,即以数据密集型计算为基础的科学研究范式。
格雷先生的四个科学范式理论基本内容为:第一范式产生于几千年前,是描述自然现象的,以观察和实验为依据的研究,可称为经验范式;第二范式产生于几百年前,是以建模和归纳为基础的理论学科和分析范式,可称为理论范式;第三范式产生于几十年前,是以模拟复杂现象为基础的计算科学范式,可称为模拟范式;第四范式今天正在出现,是以数据考察为基础,联合理论、实验和模拟一体的数据密集计算的范式,数据被一起捕获或者由模拟器生成,被软件处理,信息和知识存储在计算机中,科学家使用数据管理和统计学方法分析数据库和文档,可称为数据密集型范式。
关于学科的发展,格雷先生认为,所有学科X都有两个进化分支,一个是模拟的X学,另一个是X-信息学,以生态学为例,即计算生态学和生态信息学,前者与模拟生态的研究有关,后者与收集和分析生态信息有关。在X-信息学中,我们编码和表达知识的方式是,将实验和设备产生的、其他档案产生的、文献中产生的、模拟产生的事实都保存在一个空间中,人们通过计算机向这个空间提问并获得答案,这之中要解决的一般问题有:数据获取、管理PB级大容量的数据、公共模式、数据组织、数据重组、数据分享、查找和可视化工具、建立和实施模型、数据和文献集成、记录实验、数据管理和长期保存。当前,科学家们需要更好的工具来实现数据的捕获、分类管理、分析和使其可视化。
关于新范式下的学术交流,格雷先生认为,应该让公共资金资助的学术论文都能在互联网上传播,因特网的功效不仅如此,它还可以联合所有的科学数据和文献形成一个互操作的世界,让人们读论文时还可以找到论文的原始数据、可以重新做一次作者所做的分析,或者能够从数据开始找到与这些数据有关的所有文献。科学的研究素材有三个层次,分别是原始数据、派生数据和重组数据、科学文献,应该让三个层次的资源都能够在线和被获取。新的学术交流革命中需要建立既有文献也有数据的新的数字图书馆,需要开办Overlay期刊(一种不出版原始论文,而是按照一定的评价标准挑选保存在其他地方的文章,作为一项服务提供给用户的期刊[3]),需要实施数据出版,需要处理数据、信息和知识的本体和语义网技术。
2009年,微软公司开放创新部门副总裁Tony Hey以及Stewart Tansley和Kristin Tolle共同主编了《第四范式——数据密集型科学发现》(The Fourth Paradigm:Data-intensive Scientific Discovery)一书。该书共分六个部分,前言部分在刊登微软研究院首席研究员、著名计算机科学家戈登·贝尔的序言之后,登载了根据格雷先生的发言整理的《Jim Grey眼中的eScience:变革了的科研方法》作为引子,提出科学研究的第四范式的内涵和意义;然后从地球与环境、健康与幸福、科学基础设施、科学交流四个方面展示了69位学者从不同的视角观察、理解、分析和探讨的第四范式科学研究状况;最后结语部分登载了《前方的路》、《总结》和《下一步》三篇文章提出面对数据密集型科研我们应该如何提高认识、应该采取何种措施的问题[4]。
2 数据密集型科学研究兴起的社会环境
也许仅仅从微软研究院研究者们的成果出发就断定第四范式的到来尚不够客观,我们需要从更多的层面来考察这个新的科学研究范式的出现和存在。本部分将从数据爆炸现象和科学界的反应、世界范围内广泛兴起的关联数据运动、政府数据开放运动这三个方面,感受海量数据对各个领域的冲击,从而讨论数据密集型科学研究兴起的社会环境。
2.1 数据洪流的到来以及科学界的关注
2.1.1 数据爆炸和数据洪流
情报学关注“信息爆炸”现象并试图对它的解决方案加以研究,这是我们这个学科产生的初衷之一。仔细分析,其实这个“信息爆炸”在人类的认识中是在不断发展进化的。在20世纪40-50年代,它主要指的是科学文献的快速增长所造成的信息问题;而经过50年的发展,由于计算机和通讯技术应用的结果,到20世纪90年代,这个“信息爆炸”主要指的是所有社会信息(包括纸质的和网络的也包括正式交流过程和非正式交流过程所产生的信息)快速增长所造成的信息问题;而到21世纪的今天,我们发现,这个“信息爆炸”的结果很大程度也是由于数据洪流的产生和发展所造成的。
数据洪流因为什么而产生呢?
从技术角度说,新型的硬件与数据中心、分布式计算、云计算、大容量数据存储与处理技术、社会化网络、移动终端设备、多样化的数据采集方式使海量数据的产生和记录成为可能。
从用户角度说,日益人性化的用户界面、人人的信息行为模式都容易作为数据记录下来,人人都可成为数据的提供方、人人也可成为数据的使用方。
从未来趋势看,随着云计算的发展,理论上讲,世界上每个人每件事物所存在和活动所产生的新数据,包括位置、状态、思考、过程和行动等等都能够被数字化,成为数据在互联网传播[5]。社交网站记录人们之间的交互,搜索引擎记录人们的搜索行为和搜索结果,电子商务网站记录人们购买商品的喜好,微博网站记录人们所产生的即时的想法和意见,图片视频分享网站记录人们的视觉观察,百科全书网站记录人们对抽象概念的认识,幻灯片分享网站记录人们的各种正式和非正式的演讲发言,机构知识库和开放获取期刊记录人们的学术研究成果。
上述现象都导致海量数据的产生,引起数据的洪流。可见,在现代技术的支持下,今天无论是人们简单的生活活动还是复杂的学术研究的记录,都能够成为数据而传播,这些海量数据蕴含了巨大的潜力,善于挖掘、分析和可视化展现它们,将给人类的生活、工作和学习带来全方位的影响。
2.1.2 科学界对海量数据的关注
2011年5月,麦肯锡全球研究院发布了一份同样关注当前社会数据洪流的报告《海量数据:创新、竞争和生产率的下一个前沿》。报告以数字数据和文档的当前状况为基础,分析大数据集如何在现代社会中创造价值和产生更大的潜力。报告称:2010年全球企业在磁盘上存储了超过7EB的新数据,消费者在个人电脑等设备上存储了超过6EB的新数据,而1EB等于10亿GB,相当于美国国会图书馆中存储数据的4000多倍[6]。如果这些数据能够合理地采集、管理和分析,将会创造难以计量的商业价值。报告通过研究美国卫生保健、欧洲公共部门、美国零售业、美国制造业和全球个人位置数据这五大领域的大数据集后估计:美国的医疗行业可以利用海量数据管理,通过使数据更易于访问、促进与数据相关的实验和商业决策自动化等手段,创造高达每年3000亿美元的价值;零售业通过海量数据管理可将利润率提高60%;欧盟经济可以利用海量数据管理缩减1490亿美元的运营开支[7]。
在科学领域,由于科学观察、实验和研究设备的进化、计算机辅助技术的发展以及大规模合作的科学态势,科学数据呈海量增长。据统计,大型天文观察望远镜投入运行后第一年,生产的数据就达到1.28PB(1×1015Bytes);欧洲分子生物实验室核酸序列数据库EMBL-Bank收到数据的速度每年递增200%;预算达30万元的人类基因组计划(Human Genome Project,HGP)要揭开组成人体的4万个基因的30亿个碱基对的秘密,2008年生产1万亿碱基对的数据,2009年速率又翻一番[8]。
科学界对海量数据对科学研究的影响已经开始重点关注,2011年2月美国《科学》(Science)期刊刊登了一个专辑,名为“数据处理(Dealing With Data)”。该杂志还联合美国科学促进会(AAAS)的官方刊物《科学——信号传导》(Science:Signaling)、《科学——转化医学》(Science:Translational Medicine)以及职业在线网站Science Careers,推出相关专题,围绕科学研究海量数据的问题展开讨论[9]。
2006年美国国家科学基金会发布的名为“21世纪发现的赛博基础结构”报告称,美国在科学和工程领域的领先地位将越来越取决于利用数字化科学数据,借助复杂的数据挖掘、集成、分析和可视化工具将数据转换为信息和知识的能力[10]。2010年12月,美国总统科技顾问委员会(PCAST)提交给总统和国会的报告中明确提出“数据密集的科学和工程”(DISE)概念,随后,数据密集的科学和工程问题在美国国家科学局和国家科学基金会的一些会议上进行了深入的讨论。
学者们将科学研究型数据的来源归结为四类:一是来自于测量仪器、传感设备记录仪器的观测型数据,如天文望远镜观测的数据;二是来自于物理学、医学、生物学、心理学等各学科领域的大型实验设备的实验型数据,如粒子加速器实验数据;三是来自于大规模模拟计算的计算型数据;四是来自于跨学科、横向研究的参考型数据,如人类基因数据[11]。这些数据有些由于观测和实验的不可重复性,有些由于时间、设备和经济等其他条件的限制,数据获取难度大,因此数据长期有效保存、科学的管理、有条件共享和促进利用是极有意义和价值的一项工作。
科学界需要为应对数据洪流采取措施,需要从海量的数据中寻找科学的规律,需要考察数据密集性科学研究的未来。
2.2 关联数据运动
互联网之父伯纳斯·李(Tim Berners-Lee)从对web发展和演变的分析中同样也发现了数据在未来网络中的价值。2006年,他在讨论关于语义网项目的一份设计记录中提出了发展数据网络(web of data)的设想,并创造了“关联数据(linked data)”一词,提出数据网络的核心即关联数据(linked data)[12]。2009年,他在TED大会(即技术娱乐和设计大会,1984年由理查德·沃尔曼先生发起,每年3月在美国召集科学、设计、文学、音乐等领域的杰出人物,探索关于技术、社会和人的问题[13])上再次阐明了关联数据及其对数据网络的影响[14]。关联数据就是用主体、谓词、客体三元组来表示资源的RDF(Resource Description Framework)格式数据,关联数据描述了一种出版结构化数据让其能够互连和更加有用的方法,它依赖标准互联网技术如HTTP和URIs,不是使用它们服务于人类可读的网页,而是扩展到以能被计算机自动阅读的方式分享信息[15]。关联数据有别于万维网上的文件互连,它强调的是数据互连,将以前没有关联的数据链接到一起,允许用户发现、描述、挖掘、关联和利用数据。
关联数据方法提出后受到社会的广泛响应,一些国际组织如W3C、世界银行,政府机构,社会公益机构如美国国会图书馆,大众媒体如BBC、纽约时报等等纷纷加入到关联数据出版发布的行列。2007年5月,W3C启动LOD项目(Linked Open Data,LOD),号召人们将数据按照关联数据要求发布,将数据源互连。至2010年9月三年时间,已有很多数据提供者和web开发者将数据发布过来,形成了具有203个数据集、包含250亿条的RDF语句、3.95亿个链接构成的巨大的关联数据网络[12,16]。
从以下欧洲委员会在关联数据所提供的支持和举措,我们便可以感受到关联数据的影响力:
欧洲委员会提供资金作为第七框架计划的一部分支持出版和使用链接的开放数据,目的是改善一个全天候的基础结构以监测使用情况并改善数据质量,为数据出版者和消费者提供低的接入门槛,开发一个开放源数据处理工具图书馆,为处理链接数据与欧盟数据的联合而管理一个试验平台,支持社区教育和最佳实践。
欧洲委员会资助了杰出网络项目——行星数据项目(the Planet Data Project),致力于将欧洲在大规模数据管理方面的研究者聚合起来,这些数据包括遵从链接数据原则出版的语义网RDF数据。该项目的独特之处在于能够在项目进行过程中开放引进其他研究者提供的行星数据。
欧洲委员会投资650万欧元的资金支持LOD2项目以持续开展链接开放数据项目,该项目2010年9月开始,将持续到2014年完成。项目的目标是从“相互关联的数据中创造知识”,具体任务包括五个方面:开发可供企业使用的、在互联网上公开和管理大量结构化信息的工具和方法;开发来源于维基百科和Open-StreetMap的高质量的多领域、多语种的本体的试验平台和网络;开发基于机器自动从互连中学习和从网络融合数据的算法;开发能够可靠跟踪来源、确保隐私和数据安全、评价信息质量的标准和方法;开发适宜的工具以搜索、浏览和创作链接数据[15]。
2.3 政府数据开放运动
由于新型网络技术在电子政府发展过程中的逐步应用,今天的互联网已不仅仅是政府提供信息和服务的平台,而是公众与政府互动的、共同创造的平台,这种状态改变了政府与公众以及公众之间建立关联的方式,同时也逐步改变了电子政府信息管理和服务的方式。新时代的电子政府不再只满足于从提供的角度给公众更好的服务,而是提倡政府作为一个整体的、开放的平台为企业和公众开放更多的信息和数据,促进更多的创新应用,这就是Tim O’Reily提出政府2.0时重点强调的观点。
我们知道政府信息资源占社会信息资源的绝大多数,政府所掌握的数据也同样可观,如果关联数据标准用于政府数据的开放中,必将为全球的数据空间贡献更多的数据容量。对于政府而言,政府数据的开放意味着电子政府的发展进入到一个全新的开放、透明、互动的电子政府新阶段,它使得政府能够提供一个中心平台或者门户,更好地满足决策制定者、科学研究者、企业和普通公众对政府信息资源的需求。开放政府数据的价值在于:(1)可以使公众免费、便捷地获得政府的数据、促进政府信息透明;(2)可以使公民更多更好地参与政府决策,促进政府决策的民主化;(3)可以获得公众更有效的反馈,增加公众与政府的协作性;(4)可以促进公共数据的广泛应用,激发创新,促进政府信息资源的深度开发与重用,更快实现资源的价值。
自2009年以来,世界电子政府先进国家兴起了一股“数据民主化”浪潮,各国积极开展政府数据开放工作。美国政府承诺除了涉及国家安全和隐私之外的政府数据全部向公众开放,2009年5月,政府将以前政府专有的数据库发布到网上,建立了全球第一个独立的政府数据门户www.data.gov,该举措标志着全世界政府数据开放运动的开端。伯纳斯·李也是政府数据上网的积极倡导者,他不仅通过TED会议号召让公众可以访问和利用政府数据,通过真实的案例说明政府开放数据的价值,还在2010年1月亲自为英国政府数据网站揭幕。
两年多来,政府数据开放发展迅速,成效显著,以美国政府数据网站为例,2009年5月美国政府数据网站上线时,只有11个政府机构提供了76项数据集[19]。今天,该网站不仅提供计算机可读和可处理的数据集,还提供了多种数据分析、过滤和管理的工具;不仅由政府提供数据的各种应用程序,还鼓励公众贡献数据的应用程序;不仅提供互联网上的应用,还提供移动终端的综合应用。2012年1月,该站点提供了390 178个原始数据和地理空间数据集,1150个政府应用程序,236个政府开发的应用,85个移动终端应用。美国政府有31个州、13个城市、172个机构和子机构建立了数据网站,而与此同时国际上也有28个国家、地区或国际组织开办了数据网站[20]。
政府数据开放运动的价值不仅在于它提供了计算机可以直接处理的数据,还在于它提供了各种各样的作为数据基础设施的数据工具,包括结构间协作的数据工具、数据反馈工具、数据查找工具等。毫无疑问,从科学研究发展的角度看,全球正在兴起的政府数据开放运动为基于数据科学研究基础架构的建立提供了良好的条件。
3 对数据密集型科学研究范式的分析
科学研究第四范式为我们描绘了科学研究在当前的水平下科学发展新的增长点,《第四范式》一书通过多角度的分析展现了新的科研范式的现状、价值和意义。结合上述数据洪流产生的社会背景分析,数据储存、数据互连和数据挖掘的价值将是难以估量的。本部分我们在《第四范式》一书的基础上分析数据密集型科学研究以及格雷先生第四范式的意义和价值。
3.1 科学数据和科学研究的问题
科学界目前对科学研究范式和海量数据问题的探讨,让我们感受到了当前科学研究中存在的问题,这些问题可以分为两方面,一是数据方面,二是科学研究方面。
数据方面的问题是:
(1)缺少合理的数据保存、共享和重用制度保障。一直以来,绝大多数科学数据作为科学研究的附属材料没有得到很好的处置,它们在个人笔记中或使用磁介质存贮,随着时间的流逝,渐渐变得不具备可读性或者最终被丢弃。
(2)数据爆炸。在21世纪,大量新科学数据被新的仪器全天候(24/7)获取,同时信息在计算机模型的人工世界中生成,这使我们身处数据洪流中。
(3)缺乏有效的数据工具。虽然数据在急骤增多,人类存储数据和传输数据的能力在不断增强,但数据往往保存在分散的数据库中,目前科学研究领域对数据管理、分类、分析、挖掘工具依旧缺乏。
科学交流方面的问题是:
在科学研究的整个链条中,我们只得到了作为论文或研究结果出版后的最高端的一部分成果,大量的数据为了文献发表栏目的需要被缩减到极小一部分。尽管科学界有少量利用数据或重用数据成功的科学研究范例,但是总体看,已经存在的科学交流模式未能发掘数据这个原始科学研究素材的价值和功能,在我们面临着数据洪流、面临着数据为我们揭示更多元、更深刻、更全面的事物规律的可能性之时,科学交流体系的完善应该提上议事日程。
3.2 相应的解决方案
从《第四范式》一书以及从其他学者的相关研究中,从上述关联数据实验项目、政府数据开放的实施以及科学界海量数据管理和挖掘的实践探索中,我们看到,解决上述问题的数据密集型科学研究范式正在出现,学者们所提出的解决方案主要体现在:
(1)建立整个学科研究资源完整的采集、存储、管理、分析、发布的链条,这个链条中不仅有文献还要有数据存在,不仅有原始数据还要有派生数据存在,不仅有结果还要看到过程的存在。
(2)建立实验室数据管理系统,并形成长期的数据存档和追根溯源的机制。
(3)建立对所捕获数据的挖掘和分析的专门机构。
(4)大力开发数据捕获、分类管理和分析挖掘的新算法和新工具。
(5)开发新型文献及数据出版和发布的工具,开发新的出版模式,支持出版物的快速变革。
(6)建立支持数据交流、发布和利用的、随处响应的数据基础设施,其中包括计算机资源硬件、数据中心和高速网络、软件工具和中间件;建立互操作标准,支持数据之间以及数据和信息之间的整合、获取、推断、思考和说明,支持国际间分享数据和多个学科的紧密合作。
(7)建立融数据和文献于一体的新型数字图书馆,形成数据与信息融合的互操作架构。让科学研究的整个过程都可以在数字图书馆的电子环境中进行,并对所有人开放,使科学研究的素材、思路、过程和结论都能够得到传播和共享。
(8)制定国家政策促进全科学链条信息和数据的接入和重用,提高科学研究者的生产率,加速科学研究的创新和发现速度。
(9)培育数据科学家,展开对数据的高质量管理和分析。
根据本文前述库恩的范式理论,科学向数据密集型科学研究范式转换的成功将标志着常规科学的形成,必将引发科学研究观念和研究方法的新突破和新发展。这个愿景反映了未来科学的行为方式,若要保证科学的快速发展、保持科学研究的领先地位,这已是国家政策制定者不能忽视的趋势,也是科学研究者必须高度关注的信号。
4 情报学对于数据密集型科学研究范式的应对
4.1 数据密集型科学研究范式对情报学的影响
笔者将数据密集型科学研究范式对情报学的影响归结为以下两方面:
(1)情报学本身作为一个科学学科,必然也会采用数据密集型科学计算的方式开展学科基本问题的研究。
这种影响表现得非常明显,从学术成果来看,主要有:一是信息计量学和网络计量学在近年来的快速发展;二是基于科学文献的引文、作者、关键词、研究机构数据的分析成果大量出现;三是基于网络超链接数据、社会网络数据的分析成果大量出现;四是大容量数据统计和分析工具如SPSS等以及信息可视化工具如CiteSpace等的广泛传播和利用。
由于这方面的研究在目前的情报学专业刊物上是比较多见的,在下文中,笔者将不对这部分的影响做过多分析。
(2)由于情报学与科学研究的特殊关联关系,必然会引致情报学新的研究问题、新的研究内容甚至新的研究领域的产生。
情报学与科学研究有着本质的联系。情报学产生于20世纪40年代的信息爆炸,其产生宗旨是解决在当时的社会背景中如何实现科学研究的信息保障问题,情报学早期的学术成果中就不乏科学研究信息保障问题的著作,如1987年我国已翻译出版的前苏联情报学家兹维任斯基的著作《科技开发中的情报保障》。情报学在70多年的发展过程中,尽管增加了提供非科学研究信息支持等其他社会信息保障方面的功能,但是作为科学研究的强有力的保障从来都是情报学最重要的功能。
数据密集型科学研究需要情报学提供怎样新的保障呢?这是情报学面对这个新科学研究范式应该深刻思考的问题。
情报学与科学交流模式的关系也尤为密切,前苏联情报学家米哈伊洛夫的著作《科学交流与情报学》对中国情报学发展的影响居功厥伟,也是一部对世界情报学发展有贡献的著作,其中的内容就是探讨情报学在传统的科学交流体系中的功能和作用。吉姆·格雷先生以及微软研究院的学者们对数据密集型科学研究范式带来的科学交流体系的论述,让我们感受到新的科学交流体系的全新变革。
情报学在传统的科学研究范式中,通过科学研究正式交流体系和非正式交流体系为科学发展提供支持,而在新的交流体系形成之际,情报学同样应该深刻思考和研究我们在其中的功能和作用。
4.2 情报学的应对
4.2.1 有关理论和实践已经开始启动
图书情报领域应对数据密集型科研范式的理论和实践探索实际上已经开始。
从研究方面看:
2010年5月W3C图书馆关联数据孵化小组(Library Linked Data Incubator Group)宣布成立,小组成员来自国家图书馆、大学图书馆及研究机构、图书馆供应商及其他感兴趣的利益相关者,小组的任务是确定利益相关人在未来的合作轨迹,帮助提供图书馆数据在万维网上的全球互操作。在为期一年的工作中,孵化小组的任务是:收集个案和案例证明语义网技术在图书馆与相关部门得到成功实施;为把文化资产移植到关联数据网而建立图书馆、博物馆、档案馆和出版者之间的协作;确定相关数据模型、词表和本体,建立或改善其互操作方法;确定对新标准、准则的细化要求等等[21]。2011年10月W3C发布了该小组的研究报告,报告考察了各个机构所从事的关联数据相关活动,分析总结了关于传统图书馆数据的讨论,图书馆关联数据的现状、优点,图书馆数据版权问题,图书馆可用的关联数据资源等,提出了相关建议[22]。
目前我国的图书情报学术刊物上已经登载了数篇有关关联数据、政府数据开放、数据密集型科学研究、图书馆数据服务方面的文章。这些文章分析了海量数据发展和据此产生的一些现象,论述了图书情报领域数据保存、数据服务、数据参考咨询、基于数据的情报研究工作等方面的内容。
从实践方面看:
一些国家的图书情报机构如美国国家医学图书馆和韩国科技信息研究院,已经开始基于科学数据建立公众可利用的超级计算和数据处理平台,这些平台支持基础科学和应用科学的知识发现和数据关联和分析基础上的模拟仿真研究,为科研和政府决策提供服务,目前在空间物理、武器系统集成模拟、情报分析等领域已经取得了良好的效果[10]。
美国国会图书馆将传统的国会图书馆标题表LCSH全部转换为可应用的关联数据,并提供该词表的下载;瑞典国家图书馆在2008年将瑞典联合目录LIBRIS以关联数据形式发布,成为世界上首个整体发布的图书馆关联数据联合目录,LIBRIS还创建了到美国国会标题表和维基百科等网站的相关链接。此外,OCLC、德国国家图书馆、欧洲国家图书馆的数字资源门户Europeana等也开展了关联数据实践[12]。20世纪90年代,图书馆已经开始将数据服务作为参考咨询服务的一项内容,也形成了数据图书馆员和数据服务馆员的图书馆职位,为用户提供数据信息的导航和利用帮助[25]。
4.2.2 作为科学学科的情报学如何应对
尽管有上述理论与实践,但是图书情报领域还需要有从自发的到自觉的、从局部的到整体的、从微观操作应用层面到宏观政策管理层面的全方位的措施,才能存效应对当前科研发展和社会需求带给我们的这样一个显著的机遇和挑战。
笔者认为,迎接数据密集型科学交流新的模式,作为一门学科的情报学的应对措施主要应该有:
(1)研究数据密集型科学交流体系的构成要素和动力因素,探索新的科学交流条件下的信息保障问题,探索情报学在促进数据密集型科研发展中应有的作用和地位。
(2)研究支撑科研创造的信息服务环境。该信息服务环境是集文献、数据、工具、平台和服务为一体的信息服务环境,由于传统的科学交流体系中我们的作用仍然能够继续延续,我们需要重点考察科研成果融合数据之后,形成的原始数据、派生数据和科学文献融合一体的新的信息环境下,如何提供信息和数据服务。
(3)研究数据科研基础设施建设和运行过程中,信息机构的职责、作用和角色。数据密集型科学研究基础设施的利益相关群体也许很多,信息机构在其中的作用如何,怎样才能发挥信息机构传统文献服务已有的优势,怎样建立合作协作机制避免技术、人才等不足而导致的能力的欠缺。
(4)按照数据生命周期来实现科学研究信息机构数据资源的采集、管理、分析、发现、评估、可视表达、检索、发布等功能。研究数据资源的获取及保存的制度和方式,研究数据的出版模式,研究数据管理的分类、元数据、本体和语义工具的相关问题,研究数据的交互、共享、表达和利用效果。
(5)深入考察基于海量数据综合分析和挖掘基础上的信息分析和决策支持的情报理论与方法。
(6)研究辅助科学研究的数据规划、数据保存、数据组织、数据导航和数据咨询工作的理论和方法,提供协助科研用户开展科研数据管理的工具和手段。
(7)研究数据管理人才培养的方式和方法。数据科学家是未来十年最具吸引力的职位[26],数据图书馆员、数据服务馆员等数据管理人才将是数据密集型科研环境下的稀缺人才,分析研究这类人才的知识结构、基本素养、基本技能,将此付诸培养计划加以实施,为未来社会提供所需人才。
(8)研究提升全民数据素养的基本方式。无论是初等教育和高等教育均应该考虑将科研数据管理和数据素养教育纳入到全民信息素养教育中,培养知识工作者基本的数据组织、管理、保存、分析和利用能力,以便未来提升全面的科学创造力,加速科学发展速度。
总之,面对科学交流体系的变革,情报的世界如何改变?情报学家们应该联合起来采取行动,思考、分析和研究我们的应对措施,如同新的科学研究范式对所有自然科学学科和社会科学学科将产生推动力一样,我们期望科学交流体系的变革能够成为情报学学科发展新的推动力。